n°4/2018 MÉTHODES ET STRATÉGIES DE GESTION …...La problématique de la gestion des données par les organisations n’est pas récente, mais l’accès à des données massives

n°4/2018

MÉTHODES ET STRATÉGIES DE GESTION DE L’INFORMATION PAR LES

ORGANISATIONS : DES « BIG DATA » AUX « THICK DATA »

Numéro coordonné par Christian Marcon, Sylvie Grosjean et Monica Mallowan

Méthodes et stratégies de gestion de l'information par les organisations : des "big data" aux "thick data"

©RevueCOSSI2018 1

Sommaire

N°4|2018

Introduction : Méthodes et stratégies de gestion de l'information par les organisations : des "big data" aux "thick data" Christian Marcon, Sylvie Grosjean, Monica Mallowan

2

L’horizon d’une culture de la donnée ouverte : de l'utopie aux pratiques de gouvernance des données Anne Lehmans

8

Stratégies pédagogiques pour diffuser la culture des données ouvertes Camille Capelle, Marthe-Aline Jutand et Franc Morandi

19

Les PME croient-elles aux données massives (big data) ? Christian Marcon

35

De la RMA à la guerre infocentrée : retours d’expérience quant aux limites des promesses de la numérisation et des big data Patrick Cansell et Lucile Desmoulins

50

Projets Big Data des entreprises : quelles transformations organisationnelles ? Soumaya Bouafia et Jacques Jaussaud

62

Approche théorique du développement d'organisations territoriales intelligentes appréhendant la complexité selon une approche intégrative de données Thomas Bonnecarrere

77

Faire parler ses données : de la masse à la substance, le sens en question Francis Beau

91

Notes de recherche

Gestion des données de recherche et thick data : le cas d’une recherche-action sur la médiation numérique du patrimoine Karel Soumagnac

102

Les Nations Unies face au big data : comment utiliser les nouvelles sources de données pour optimiser les programmes de développement des organisations internationales Christelle Cazabat

113


©RevueCOSSI2018

2

Introduction : Méthodes et stratégies de gestion de l'information par les

organisations : des "big data" aux "thick data"

Christian MARCON CEREGE (EA 1722) IAE Poitiers (France)

[email protected]

Sylvie GROSJEAN Professeure agrégée

Département de Communication Université d’Ottawa (Canada) [email protected]

Monica MALLOWAN Professeure agrégée Observatoire Provis

Université de Moncton - Campus de Shippagan (Canada) [email protected]

La problématique de la gestion des données par les organisations n’est pas récente, mais l’accès à des données massives produites par le monde digital (e-commerce, requête internet, capteurs e-santé, objets connectés, etc.) conduit indéniablement les organisation à gérer, traiter, utiliser et réutiliser leurs données différemment voire à exploiter celles d’autres organisations. Confrontées à la pression concurrentielle, les organisations comptent sur la performance des technologies de l’information pour soutenir leurs processus organisationnels et pour les aider à maîtriser la masse d’information en circulation dans leur environnement interne et externe. Face à l’accumulation de données massives (big data) en milieu organisationnel (Bollier, 2010; Rudder, 2014), l’approche privilégiée pour en tirer un sens est celle de l’analyse quantitative menant à des démarches d’intelligence d’affaires (business intelligence), en vue de s’en servir pour la prise de décision et le passage à l’action (Cohen, 2013; Fernandez, 2013). Ceci conduit à l’idée dangereuse que des données statistiques seraient plus utiles et objectives et contribueraient à rendre les organisations plus efficaces et rentables (Bollier, 2010). Toutefois, cette accumulation de données chiffrées analysées statistiquement est limitée par l’absence d’un contexte significatif riche (Alles et Vasarhelyi, 2014), qui pour sa part est généré par une accumulation d’éléments non chiffrés, non quantifiables, non structurés et donc difficilement mesurables, de type socio-culturel (thick data), qui doivent être étudiés par une analyse qualitative, et qui mènent à des démarches d’intelligence stratégique (competitive and strategic intelligence). Cette rencontre entre les big data et les thick data peut générer l’information actionnable et compléter la perspective qu’une organisation doit avoir de son environnement et donc l’aider à mieux orienter ses voies d’action (Hoppe, 2015). Il est donc nécessaire de s’interroger sur la tendance qu’ont les organisations à prendre des décisions stratégiques en se fondant uniquement sur des algorithmes. « Les « datapartisans », représentants d’une pensée pro-positiviste, soutiennent une exploitation logico-mathématique


©RevueCOSSI2018

3

des données par les machines et tentent par ce biais d’analyser des objets de connaissance, allant jusqu’à croire que la machine pourrait remplacer l’esprit humain dans le processus d’analyse. Ils font ainsi fi des recherches menées sur la logique des significations de Piaget, sur la logique déontique de Simon ou encore sur la dialogique de Morin, lesquelles doivent être mobilisées pour concevoir et construire des projets de connaissance » (Verlaet, 2015, p.253). La gestion des données massives n’est pas uniquement une question d’outils mais de stratégies et cela nécessite qu’une réflexion soit menée sur les stratégies et méthodes mises en œuvre par les organisations pour traiter, visualiser et « faire sens » de leurs données. THEME 1 - LES ORGANISATIONS FACE AUX BIG DATA : DES METHODES D’ANALYSE A LA REFLEXION CRITIQUE EN PASSANT PAR LES TRANSFORMATIONS ORGANISATIONNELLES Le développement rapide des outils et méthodes visant à exploiter les données, informations massivement accessibles par Internet (big data) génère un discours enthousiaste et techniciste. Les big data nous sont annoncées comme la promesse d’un avenir radieux : meilleure approche de notre santé, de notre vie quotidienne, de nos besoins domestiques, etc. Qualifié de nouvelle révolution industrielle comparable à celle de la vapeur, le big data annoncerait une transformation profonde de la société et de nos organisations. Les organisations de santé portent attention aux big data afin d’aider les cliniciens dans leur diagnostic (Sybord, 2016), en santé publique des campagnes de promotion sont conçues en s’appuyant sur des analyses menées à partir de bases de données en épidémiologie (Dumez, Minvielle et Marrauld, 2015; Colloc et Hénocque, 2016; Summons et Regan, 2016), dans le domaine des relations publiques, les big data transforment les pratiques (Mercanti-Guérin, 2013), sans oublier les organisations publiques qui cherchent des méthodes, stratégies afin de « faire parler » ces données massives et ainsi orienter les politiques publiques (Hamel et Marguerit, 2013). Il est indéniable que ces données fascinent du fait des potentialités qu’elles laissent entrevoir en terme de performance organisationnelle, de prise de décision, de stratégies (Vayre, 2014; Brasseur, 2013). Mais, le big data soulève des enjeux techniques, méthodologiques, organisationnels, communicationnels et éthiques auxquels ils faut réfléchir (Cardon, 2012; Béranger, 2016; Boyd et Crawford, 2012; Parks, 2014; Crawford, Miltner et Gray, 2014). Par exemple, nos organisations vont-elles s’en remettre uniquement à des algorithmes pour les aider dans leur prise de décisions stratégiques ? En quoi l’introduction de nouvelles méthodes de traitement et de gestion de données massives transforment-elles la culture organisationnelle, la collaboration inter-professionnelle, ou l’activité même des travailleurs ? Par ailleurs, confronté à des discours optimistes face aux big data, le chercheur ne peut que questionner cet engouement et plusieurs questions méritent d’être soulevées :

• Quelle éthique impliquent ces procédés et outils de traitement des données massives ? Quel droit régit le big data et garantit le respect des libertés personnelles tandis que fleurit un discours quasi-propagandiste qui soutient qu’un peu moins de vie privée permettrait beaucoup plus de bien-être collectif ?

• Quels enjeux en terme de communication pour nos organisations ? Comment de telles données transforment-elles les relations avec les clients, les partie-prenantes, et les employés? En quoi et comment de telles données peuvent-elles soutenir la communication des organisations ?

• Quelles questions cognitives pose le big data? Pour Rouvroy (2014), par exemple, les risques « ne tiennent pas tant à une plus grande visibilité, ou à une perte relative d’anonymat ou d’intimité des individus qu’à […] un court-circuitage des capacités


©RevueCOSSI2018

4

d’entendement, de volonté et d’énonciation des individus. » De surcroît, confier l’analyse des données à des algorithmes ne revient-il pas à exposer ses connaissances aux risques liés aux schémas cognitifs des concepteurs de ces outils ?

• Quelles questions le big data pose-t-il aux managers ? Pour McAfee et Brynjolfsson (2012) par exemple, le management avec les big data est un enjeu managérial qui commence par la responsabilité de l’équipe de cadres supérieurs. Ne risque-t-on pas simplement de voir les managers se porter vers le big data parce qu’il est à la mode et qu’il en va de leur image de suivre le courant porteur (Zerbib, 2013) ? Ou parce qu’ils sont à la recherche d’une béquille (walking stick) (Hafsi et Thomas, 2005) ?

Autant de questions et bien d’autres que soulève l’essor des datas dans les organisations que ce soit en terme communicationnel, méthodologique, éthique, etc. THEME 2 – LES ORGANISATIONS DE RECHERCHE FACE A L’ESSOR DES DATAS De plus en plus, les structures comme les centres de documentation, les bibliothèques, le réseau de lecture publique, les bibliothèques spécialisées, les centres d’archives, doivent intégrer dans leurs modalités de gestion et de management des ensembles de données, baptisés « jeux de données » les obligeant non seulement à compléter leur approche, et les intégrer dans leur schéma de politique documentaire, tout en considérant des scénarii d’usages et de besoins pour valoriser ces jeux et les mettre à disposition des usagers. Parallèlement, ces jeux de données, pour la plupart ouverts et gratuits, obligent les professionnels de l’information et du document à penser des modes de valorisation, d’information et de médiation documentaire (Labelle et Le Corf, 2012) pour les rendre visibles, compréhensibles et accessibles aux publics. C’est ainsi toute la chaîne d’activités documentaires qui s’en trouve modifiée ; plus que jamais dans l’histoire de la gestion des ressources, la gestion des datas oblige à considérer les autres et les écosystèmes d’information environnants (Millerand, 2012). De plus, les organisations de recherche et gouvernementales sont amenées à gérer des données dites ouvertes. Ces données ouvertes désignent des chiffres, relevés, mesures, réponses à des enquêtes, statistiques, comptages, et autres données quantitatives collectées par les organismes publics et mises à disposition en format numérique sur des plateformes gouvernementales, régionales ou locales permettant leur accès et leur réutilisation par les citoyens et les entreprises. Ces données sont collectées par des chercheurs, des institutions et peuvent permettre d’élaborer des hypothèses, de les infirmer ou de les valider (Bégault, 2011). Les données de recherche, surtout lorsqu’elles sont issues de projets subventionnés par des organismes de recherche, sont considérées comme devant être accessibles à la communauté des chercheurs et du public. Elles sont perçues comme étant un facteur essentiel de soutien à l’innovation pour les chercheurs, les décideurs et l’industrie, puisqu’elles constituent le point de départ de nouvelles découvertes et recherches (Données de recherche Canada, 2011; Australian National Data Service, 2015). Ces données de recherche, après avoir servi aux fins des projets initiaux, se voient le plus souvent perdues parce que non communiquées ou non traitées (Interagency Working Group on Digital Data, 2009; Fondation canadienne pour l’innovation, 2015). Le défi consiste à transformer des données éparses en collections gérées, repérables et réutilisables (Australian National Data Service, 2015). Millerand (2012) évoque le travail des professionnels de l’information sur les données de recherche. Ici entre en jeu une séquence d’activités documentaires, notamment la collecte, le traitement, le stockage, l’analyse, l’accès, le partage, la conservation et la réutilisation des données de recherche. Les méthodes et outils documentaires doivent s’adapter aux types de


©RevueCOSSI2018

5

données quantitatives ou qualitatives, structurées ou non, recueillies dans le cadre des projets de recherche, considérant que ces données peuvent être accompagnées non seulement de documents textuels, mais aussi de documents iconographiques, cartographiques, sonores, d’images en mouvement, de dessins d’architecture et de dessins techniques. Diverses méthodes propres aux sciences de l’information peuvent être sollicitées pour gérer et mettre à disposition les données de recherche (Salaün et Arsenault, 2009). Ainsi, les méthodes de traitement incluent l’évaluation de l’information en vue de son élimination ou de sa conservation permanente, la classification (par exemple, hiérarchique ou à facettes), la description et l’indexation de l’information, de même que la conservation, l’accès et la diffusion de l’information. La fouille de textes, pour sa part, permet plutôt « la découverte, à l’aide d’outils informatiques, de nouvelles informations en extrayant différentes données provenant de plusieurs documents textuels » (Hearst, 2003, traduction libre). L’accès à l’information doit quant à lui tenir compte des comportements informationnels des utilisateurs, tout en s’adaptant à la nature des documents (numériques natifs ou numérisés, structurés ou non structurés) et à la structure ouverte du Web pour favoriser le libre accès. Au cœur du traitement, de l’accès et de la réutilisation des données de recherche, se voit posée la question de leur durabilité qui devrait s’appuyer sur une politique et des modalités de gestion concertées entre chercheurs et professionnels de l’information. Les chercheurs doivent rajuster leurs pratiques en les articulant au travail des professionnels de l’information. Ces derniers, qu’ils soient bibliothécaires, documentalistes ou archivistes, doivent à leur tour coordonner leurs actions afin d’établir un cadre de gouvernance cohérent au bénéfice des chercheurs. Il importe de faciliter, tout en les orientant, les pratiques informationnelles sous-jacentes à une culture d’accès et de partage des données de recherche et, au-delà de celles-ci, de la science en train de se faire. REFERENCES BIBLIOGRAPHIQUES Alles, Michael et Miklos A. Vasarhelyi. (2014). Thick data: adding context to big data to enhance auditability. International Journal of Auditing Technology, 2(2), p. 95- 108. Australian National Data Service. (2015). Better data for Australian research. [Brochure]. 8 p. Disponible à : http://ands.org.au/__data/assets/pdf_file/0006/387843/better-data-for-australian-research.pdf. Bégault, Béatrice. (2011). Enjeux de la diffusion électronique des recherches : pratiques

informationnelles et validation des connaissances en sciences de l’ingénieur. Sarrebruck : Éditions universitaires européennes. 292 p. Béranger, Jérôme. (2016). La valeur éthique des big data en santé. Les Cahiers du numérique, 12, p.109-132. Bollier, David. (2010). The promise and peril of big data. Technical report. Washington, D.C. : The Aspen Institute. 56 p. Boyd, Dana et Kate Crawford. (2012). Critical questions for big data. Information, Communication

and Society, 15(5), p.662-679. Brasseur, Christophe. (2013). Enjeux et usages du big data : technologies, méthodes et mise en

œuvre. Editions Hermès. 203 p.


©RevueCOSSI2018

6

Cardon, Dominique. (2012). Regarder les données. Multitudes, 49, p. 138-142. Cohen, Corine. (2013). Business intelligence : the effectiveness of strategic intelligence and its

impact on the performance of organizations. Hoboken, NJ : Wiley-ISTE. 304 p. Colloc, Joël et Bruno Hénocque. (2016). Enjeux du big data et identifications des données médicales, Les Cahiers du numérique, 2, 216 p. Crawford, Kate, Kate Miltner et Mary Gray. (2014). Critiquing big data: politics, ethics, epistemology. International Journal of Communication, 8, p. 1663-1672 Données de recherche Canada. (2011). Portrait de la situation des données. Rapport sur le

Sommet 2011 sur les données de recherche canadiennes. 49 p. Disponible à : http://www.rdc-drc.ca/wp-content/uploads/f-Report-of-the-Canadian-Research-Data-Summit.pdf. Dumez, Hervé, Étienne Minvielle et Laurie Marrauld. (2015). Le Big Data en santé. Note complémentaire N.1 du rapport « État des lieux de l’innovation en santé numérique », 29 mai 2015. Fernandez, Alain. (2013). Les nouveaux tableaux de bord des managers : le projet Business

Intelligence clés en main. Paris : Eyrolles. 468 p. Fondation canadienne pour l’innovation. (2015). Élaborer la stratégie canadienne sur

l’infrastructure de recherche numérique : point de vue de la FCI. 22 p. Disponible à : http://www.innovation.ca/sites/default/files/Funds/cyber/elaborer-strategie-irn-pour-le-canada-nov6.pdf. Hafsi, Taïeb et Howard Thomas. (2005). The field of strategy : in search of a walking stick. European Management Journal, 23(5), p. 507–519. Hamel, Marie-Pierre et David Marguerit. (2013). Quelles possibilités offertes par l'analyse des big data pour améliorer les téléservices publics ? Revue française d'administration publique, 146(2), p. 437-448 Hearst, Marti. (2013). What is text mining ? Unpublished essay, 17 octobre 2003. Disponible à : http://people.ischool.berkeley.edu/~hearst/text-mining.html. Hoppe, Magnus. (2015). Intelligence as a discipline, not just as a practice. Journal of Intelligence

Studies in Business, 5(3), p. 47-56. Interagency Working Group on Digital Data. (2009). Harnessing the power of digital data for

science and society. Report of the Interagency Working Group on Digital Data to the Committee on Science of the National Science and Technology Council, January 2009. 24 p. Disponible à : https://www.nitrd.gov/about/harnessing_power_web.pdf. Labelle, Sarah et Jean-Baptiste Le Corf. (2012). Modalités de diffusion et processus documentaires, conditions du « détachement » des informations publiques. Analyse des discours législatifs et des portails open data territoriaux. Les enjeux de l’information et de la

communication, 3/2, p. 59-71.


©RevueCOSSI2018

7

McAfee, Andrew et Erik Brynjolfsson. (2012). Big Data : the management revolution. Harvard

Business Review, 90(10), p. 61-68. Mercanti-Guérin, Maria. (2013). L’amélioration du reciblage par les Big Data: une aide à la décision qui menace l’image de marque ? Revue Internationale d’intelligence Économique, 5, p. 153-165. Millerand, Florence. (2012). La science en réseau. Revue d'anthropologie des connaissances, 6(1), p. 163-190. Parks, Malcom. R. (2014). Big data in communication research: its contents and discontents. Journal of Communication, 64, p. 355-360 Rouvroy, Antoinette. (2014). Des données sans personne : le fétichisme de la donnée à caractère personnel à l’épreuve de l’idéologie des Big Data. Dans France, Conseil d’État. Étude annuelle

2014 du Conseil d’État – Le numérique et les droits fondamentaux. Paris : La Documentation française, p. 407-421. Disponible à : http://www.ladocumentationfrancaise.fr/var/storage/rapports-publics/144000541.pdf. Rudder, Christian. (2014). Dataclysm: who we are (when we think no one’s looking). New York, NY: Crown Publishing. 304 p. Salaün, Jean-Michel et Clément Arsenault (dir.). (2009). Introduction aux sciences de

l’information. Montréal : Presses de l’Université de Montréal. 235 p. Summons, Peter et Brian Regan. (2016). Social impact of big data in Australian healthcare. Les

Cahiers du numérique, 12, p. 13-30. Sybord, Christine. (2016). Big data et conception d’un système d’aide à la décision clinique. Vers une gestion sociocognicielle de la responsabilité médicale ? Les Cahiers du numérique, 12, p. 73-108. Vayre, Jean-Sébastien. (2014). Manipuler les données. Documenter le marché. Les implications organisationnelles du mouvement big data. Les Cahiers du Numérique, 10(1), p. 95-125. Verlaet, Lise. (2015). La deuxième révolution des systèmes d’information : vers le constructivisme numérique. Hermès La Revue, 71(2), p. 249-254. Zerbib, Romain. (2013). Les modes en gestion : une arme de diffusion massive. Revue

Internationale d’intelligence économique, 5(2), p. 197-216.


©RevueCOSSI2018

8

L’horizon d’une culture de la donnée ouverte : de l'utopie aux pratiques de gouvernance des données

Anne LEHMANS IMS UMR5218 CNRS Université de Bordeaux

[email protected] Résumé : Le développement des open data en France conduit les acteurs à s’interroger sur les stratégies et les pratiques de gestion des données à mettre en place dans les organisations concernées. L’affichage d’une politique d’ouverture des données, dans une logique affirmée de transparence, de participation et d’innovation, est susceptible de bouleverser les routines dans les modes de gestion et de contrôle de la circulation de l’information. Les principes et les formes de gouvernance des données font l’objet d’une réflexion renouvelée, l’ouverture des données faisant office de catalyseur pour introduire un principe de décision partagée dans le cycle de vie de la donnée. Un projet de recherche sur la culture des données, partant d’une enquête qualitative sur les pratiques de gestion des données, montre que, face aux demandes, aux risques et aux avantages perçus dans l’agenda de l’ouverture et de la diffusion des données ouvertes, des stratégies variées de gouvernance des données s’installent, avec des effets sur le management de l’information et la gestion des connaissances. Mots-clés : Données ouvertes, open data, gouvernance des données, gestion des données, cycle de vie de la donnée

Abstract : The development of open data in France leads stakeholders to question the strategies and data management practices to be implemented in organizations. The display of an open data policy, in a logic of transparency, participation and innovation, is likely to upset the routines in the management and control of the flow of information. The logics and forms of data governance are subject of a renewed reflection. Open data is a catalyst to introduce a shared decision-making principle into the data lifecycle. A research project on data literacy, based on discourses analysis and on a qualitative survey on data management practices, shows that, faced with the demands, risks and benefits perceived in the agenda of open data, various strategies are taking hold, with effects on the management of information and knowledge. Keywords : open data, data governance, data management, data life cycle


©RevueCOSSI2018

9

INTRODUCTION Nous assistons, depuis plusieurs années, au phénomène d’explosion des “data” ou “données”, décliné sous de multiples formes, big data (données massives), open data (données ouvertes), linked data (données liées). Si la question des données a d’abord concerné la sphère professionnelle, elle a rapidement opéré une transformation des dynamiques sociales et culturelles, faisant émerger de nouvelles problématiques économiques, sociales et politiques, et la nécessité d’une culture numérique. En effet, les données ont à voir avec la construction et la diffusion de la connaissance. L’économie de la connaissance repose sur un modèle de valorisation de l’information à partir des données disponibles pour la production de savoirs d’innovation. Cependant, ce modèle, basé sur l’appropriation privée des idées et de la création, est interrogé depuis longtemps par la société civile, les entreprises, et par des chercheurs dans plusieurs disciplines, spécialistes de l’information, économistes, informaticiens, géographes, politologues, designers. De nouvelles dynamiques territoriales émergent autour des thèmes de l’open-innovation, de la participation, de l’économie sociale et solidaire, du partage de biens matériels (Demailly, Novel, 2014) et surtout de la politique d’ouverture des données (open data) officialisée en 2011 en France avec la mission Etalab, à laquelle une grande partie de la loi pour une république numérique d’octobre 2016 est consacrée. Les données ouvertes (open data) désignent les données collectées par des organismes publics ou privés chargés d’un service public, ou les citoyens, et mises à disposition en format numérique sur des plateformes nationales ou locales permettant leur accès et leur réutilisation. Essentiellement quantitatives, elles peuvent être traitées, triées, croisées, exploitées, et visualisées à des fins de développements, de recherche, ou d’enseignement. Elles ont des caractéristiques spécifiques dans l’économie de l’information, puisqu’elles sont variées, souvent gratuites, ouvertes et exploitables, mais nécessitent des traitements informationnels pour être intégrées aux activités des professionnels ou du public. Si la question des données ouvertes évolue rapidement dans les agendas politiques, du local à l’international, la réalité des pratiques en France, si on les compare aux pratiques canadiennes, par exemple, reste hétérogène. L’affichage d’une politique d’ouverture des données est susceptible de bouleverser des formes de routine dans la gestion et le contrôle de la circulation de l’information dans les organisations. Ce sont, en particulier, les modes de gouvernance des données qui font l’objet d’une réflexion renouvelée, l’ouverture des données faisant office de catalyseur pour introduire un principe de décision partagée. On voit bien surgir la question de l’épaisseur de la donnée, qui n’existe pas en dehors de processus de gestion, de médiation et de médiatisation. Elle nécessite de nouvelles formes de gouvernance qui font entrer les usagers dans l’écosystème, entre l’accès et l’utilisation. Une recherche sur les politiques et les pratiques de médiation et d’éducation autour des données ouvertes dans les collectivités territoriales, visant à comprendre les circuits de décision et les représentations1, révèle que l’ouverture des données et les demandes sociales liées à la mise à disposition de jeux de données déclenchent des questions nouvelles. Les services chargés de la gestion des données ouvertes répondent de façon pragmatique aux demandes en s’organisant en fonction des compétences disponibles et des soutiens qu’ils trouvent au sein de la collectivité, du côté de la hiérarchie ou du côté des politiques. C’est ce que montre une enquête qualitative qui a permis de repérer des chaînes d’usages, d’analyser les discours des acteurs dans les collectivités et les valeurs qu’ils portent, pour caractériser des dynamiques de gouvernance. A partir de la problématique de la recherche, présentée dans un premier temps, on verra que ces dynamiques répondent à des injonctions contradictoires et relèvent de pratiques de bricolages,

1 Le projet IDEX Médiation et médiatisation des données pour l’éducation a été conduit par l’équipe RUDII de l’IMS, UMR5218. Voir https://dcultures.hypotheses.org/


©RevueCOSSI2018

10

de détournements des routines qui contribuent à modifier les processus de production et de gestion des données, à long terme à les enrichir. PROBLEMATIQUE : LE LIEN ENTRE GOUVERNANCE ET CULTURE DES DONNEES L’ouverture des données publiques confirme le mouvement démarré en France en 1978 par la loi créant la commission d’accès aux documents administratifs. Ce mouvement s’est accéléré depuis la création d’un grand portail data.gouv.fr en 2011 et de la mission Etalab, les lois Valter (sur la gratuité des informations publiques) en 2015 et Lemaire (loi pour une République numérique) en 2016. Dann Goncalves et Samuel Rufat (2016) rappellent que l’expression « open data » vient de la recherche publique environnementale et que le concept a été créé pour répondre à un triple besoin : partager les données pour favoriser une réflexion globale, baisser le coût de ce partage, et favoriser la participation. Du point de vue des politiques publiques, l’open data repose sur les principes de transparence, de participation citoyenne et de modernisation de l’action publique par la collaboration entre les institutions et les citoyens (El Hachani, 2015 : 5) et le souci de “réutilisation intelligente des données indépendamment de leur contexte numérique d’origine” (Noyer, Carmes, 2012 : 2). Le rapport du Secrétariat général pour la modernisation de l’action publique de 2015 sur la gouvernance de la donnée ajoute que “la mise à disposition de données libres et ouvertes, et leur réutilisation, génèrent de la valeur économique et sociale, par le biais de cinq mécanismes : la réduction des coûts de transaction, l’innovation, la réduction des asymétries d’information, la collaboration et les boucles de rétroaction” (p. 21). Si la transparence et la participation sont au coeur du discours politique sur l’ouverture des données, leur mise à disposition et leur accessibilité publique s’inscrivent dans une logique de “communs de la connaissance” (Hess et Ostrom, 2007) qui a introduit une possibilité de “gouvernance” ouverte et un nouvel enjeu de société. Cependant, pour que les données ouvertes puissent être utilisées, leur traitement nécessite des compétences informationnelles, documentaires mais aussi techniques (informatiques) et soulève des questions socio-économiques et politiques. Il s’agit non seulement d’assurer l’accessibilité de méthodes et savoir-faire pour créer et exploiter les données ouvertes, mais aussi de construire activement une démocratie participative dans le contexte émergent des “villes intelligentes” tout en favorisant le développement économique régional, notamment dans le cadre de l’économie sociale et solidaire. Le projet de recherche sur la médiation des données pour l’éducation met en relation la question de la formation aux données avec celle de leur gouvernance dans les organismes publics et privés, qui appelle de nouvelles compétences et connaissances (Capelle, Lehmans, Liquète, 2017). Il concerne la façon dont se construit l’offre de jeux de données au sein de l’écosystème informationnel régional, et les liens à nouer avec les professionnels de l’éducation, de la formation et les associations pour former aussi bien les jeunes que tous les acteurs de la société aux données et à leur appropriation. En préalable, un point important est celui de l’efficience des politiques d’ouverture des données, à travers l’instrumentation de l’action publique et la dynamique impulsée par le répertoire d’instruments utilisés dans la mise en oeuvre de la politique d’ouverture des données. L’innovation, liée à la modernisation de l’action publique, peut être considérée comme une forme d’instrumentalisation de la gouvernance (Lascoumes, Simard, 2011) à travers un récit performatif qui a des effets réels sur le cycle de vie de la donnée dans les organisations. Mais l’accélération des politiques publiques ne va pas nécessairement de pair avec leur mise en oeuvre dans les organisations, parce que l’ouverture des données représente un changement profond, du point de vue du management de l’information notamment. Dans le domaine des sciences de l’information et de la communication, les chercheurs travaillent depuis plusieurs années sur les problématiques d’ouverture des données publiques des collectivités territoriales et de l’Etat. La diffusion des données publiques est souvent présentée


©RevueCOSSI2018

11

comme faisant partie intégrante de la mission de service public (Labelle, Le Corf, 2012). Dans le même temps, les portails open data des collectivités territoriales présentent une « uniformisation des modes de communication des informations » (Idem). La mise à disposition des données devrait permettre une réutilisation et une réinterprétation dans un cadre personnalisé. Mais on voit émerger des questions auxquelles la recherche n’a encore que très partiellement répondu : le lien entre les cultures de travail, les identités professionnelles et les usages numériques des réseaux, les nouveaux collectifs de travail et les communautés épistémiques (Crowston, Jullien, Ortega, 2013), la dimension participative voire militante (Cardon, Granjon, 2010) des usages numériques. Dans toutes ces questions, c’est la gouvernance de l’information qui est en jeu. Le terme de gouvernance a longtemps connu plus de succès dans les pays anglo-saxons et au Canada qu’en France, où il a été relégué pour son caractère polysémique. Il fait néanmoins une apparition remarquable depuis quelques années dans les documents institutionnels produits par les administrations, dans lesquels il fait l’objet d’analyses et de propositions. La gouvernance, par rapport au gouvernement, a une connotation moins institutionnelle et plus dynamique : quand on parle de gouvernance, on s’intéresse aux processus réels de prise de décision plus qu’aux structures formelles, ainsi qu’à la diversité des acteurs et des modes de participation possibles (Paye, 2005). Le Secrétariat général pour la modernisation de l’action publique a remis en 2015 un rapport sur « La gouvernance de la donnée » qu’il définit comme “l’ensemble de principes et de pratiques qui visent à assurer la meilleure exploitation du potentiel des données (p. 48).” Le terme est ici très générique, se référant à des principes, donc un cadre, mais aussi des pratiques. Le rapport pointe les limitations dans le potentiel des usages des données, liées à la méconnaissance, à l’imperméabilité de la culture administrative par rapport aux dynamiques de coopération et de participation. Il préconise de partir de développements concrets, de cartographier les données disponibles, de faire évoluer les systèmes d’information et de décloisonner les administrations. Les questions qui surgissent concernent les modes de fonctionnement politique et bureaucratique des organisations, leur relation avec le public et les façons de l’intégrer à la prise de décision, les compétences professionnelles, et, de façon générale, l’écosystème informationnel. La gouvernance « associe négociations, prises de décision et émergence de consensus» (Schafer et Le Crosnier, 2011) à travers des formes de participation et d’engagement qui se structurent par le travail sur les données. Le concept de gouvernance ouverte lie les principes de transparence et de participation dans une relation complexe intégrant visibilité de l’action publique et développement des moyens d’expression, voire d’action, des citoyens. Son analyse doit tenir compte des “comportements organisationnels” qui peuvent constituer des entraves à l’ouverture (Pasquier, Villeneuve, 2007). Celle-ci a pour corollaire un principe de confiance visant à maintenir un équilibre et éviter que certains s’approprient des éléments d’information au détriment d’autres (Maurel, Chebbi, 2012 : 85). Mais les enjeux politiques de l’ouverture des données sont eux-mêmes fortement corrélés à des questions économiques dans le cadre global du big data. Les objectifs de cette première recherche sont d’identifier les représentations des usages potentiels et réels des données ouvertes. Le projet de recherche a permis d’enquêter sur le terrain de collectivités locales productrices de données auprès d’une quinzaine d’acteurs en Aquitaine, des médiateurs et des utilisateurs finaux des jeux de données ouvertes. L’équipe de recherche a mené des observations participatives avec des séances de travail sous forme d’ateliers et de focus groupes afin de comprendre les contraintes et les freins éventuels au développement d’une culture des données, ainsi que les conceptions de cette culture qui circulent dans les organisations. Plusieurs critères ont été analysés : l’offre de données, les stratégies de mise à disposition, les moyens de la gouvernance sur le plan des ressources humaines, techniques et organisationnelles, les représentations des usages sociaux possibles, les ressources et les stratégies de médiation et de formation dans l’écosystème informationnel mis en place par les acteurs, les stratégies d’évaluation qu’ils ont choisies. En parallèle des observations, l’équipe a


©RevueCOSSI2018

12

mené des entretiens compréhensifs afin d’identifier et de caractériser le discours des acteurs de terrain pour comprendre les objectifs qu’ils se fixent, leur représentation de la chaîne de production et de diffusion des données dans la sphère publique actuelle. Il s’agissait de de comparer les représentations d’acteurs entre des secteurs d’activités et des échelles géographiques différents, et de saisir l’évolution de leurs pratiques déclarées sur leurs terrains. L’enquête révèle un ensemble de bricolages, le déploiement de tactiques, au sens des « arts de faire » de Michel de Certeau (1990), dans l’épaisseur concrète des pratiques informationnelles et professionnelles. Ces bricolages ne mettent pas en question les stratégies qui soutiennent les politiques d’ouverture des données, mais en révèlent les contradictions possibles. BRICOLAGES IDEOLOGIQUES : LES CONTRADICTIONS DES SYSTEMES DES VALEURS, ENTRE INJONCTION D’INNOVATION ET TRANSPARENCE Les politiques d’ouverture des données mises en place ne rencontrent pas encore l’adhésion des organisations pour un passage à l’échelle globale, malgré l’existence de nombreuses expériences locales très positives. Le discours de la transparence relève en grande partie d’une utopie (Gallot, Verlaet, 2016) et d’une mise en scène de l’information. La transparence de l’action publique peut se décréter, mais l’ouverture et la mise à disposition de données nécessitent un réel effort, une volonté politique et sa mise en oeuvre par des services, donc des moyens. La mise à l’agenda politique et budgétaire de l’ouverture des données reste très inégale et hétérogène, soit parce que les enjeux de l’ouverture des données ne sont pas encore compris des collectivités territoriales et notamment des élus, car trop techniques et complexes, soit parce que l’ouverture met en danger l’image de la collectivité ou de l’administration et se heurte à de très fortes résistances (Goëta, Mabi, 2014). Par ailleurs, transparence et participation supposent que les citoyens sont capables de s’emparer des données, qu’ils ont la culture nécessaire pour en faire des usages variés. Les entreprises peuvent disposer de ces compétences qui nécessitent des moyens financiers pour développer, par exemple, des programmes (API), mais pour les citoyens, les usages potentiels sont beaucoup plus complexes. Ainsi, dans la double cible visée par l’ouverture des données, les entreprises et les citoyens, l’une est très dominante. Les objectifs du projet d’open government porté par des activistes du libre comme Lawrence Lessig, Tim O’Reilly ou Aaron Swartz, dans la réunion de Sébastopol, (Californie) en 2007, visant le développement d’un pouvoir de contrôle citoyen sur le gouvernement et la correction des asymétries d’information paraissent, dix ans plus tard, très lointains encore. En revanche, les objectifs économiques de soutien à l’innovation par l’ouverture d’une manne informationnelle en direction des entreprises sont bien plus clairs et faciles à atteindre, et l’on voit se développer de nouveaux services à partir des données récupérées. L’innovation concerne essentiellement le monde économique. Finalement, le risque est important de voir les politiques d’ouverture renforcer le pouvoir de ceux qui ont les moyens économiques d’en faire usage en laissant de côté les citoyens. C’est le point de vue de certains et le risque identifié par les collectivités territoriales elles-mêmes (Gurstein, 2011). Les données ouvertes illustrent très clairement la nécessité de distinguer l’accès et l’usage, la garantie de l’accès n’étant absolument pas une condition suffisante pour que des usages existent. Michael Gurstein propose un modèle d’usage des données qui prend en compte l’accès à internet, à des machines, les compétences techniques en informatique, le contenu et le format des données, les connaissances pour les interpréter, l’accompagnement et la gouvernance, qu’il définit comme les moyens financiers, juridiques, réglementaires et politiques nécessaires à la mise en oeuvre d’une ouverture qui vise les usages réels et pas seulement les déclarations ou les usages de grands groupes économiques. La gouvernance, sous toutes ses dimensions organisationnelle, normative, technique, politique, renvoie à des valeurs de référence qui sont à la base difficilement compatibles.


©RevueCOSSI2018

13

En outre, une question importante et récurrente est celle du risque pour les citoyens. En effet, dans les croisements de grandes séries de données, avec l’expertise des analystes et la mise en place d’algorithmes, donc la mise en oeuvre de moyens que seuls les Etats ou les grandes entreprises du GAFAM peuvent actionner, il est tout à fait possible de produire de l’information stratégique (avec des risques sanitaires par exemple), bien-sûr, mais surtout personnelle, même si les données ouvertes sont anonymes. Ces risques n’échappent pas aux acteurs, qui observent la disparition des derniers tabous de réutilisation de clés d’identification, sous couvert d’amélioration et d’optimisation du service public. Le risque pour les libertés individuelles n’est donc pas négligeable. Sur le plan des principes, une antinomie se révèle entre les discours de la participation et ceux de l’innovation et de l’efficience. Les valeurs de participation appellent des modes de gouvernance complexes qui associent les citoyens dans le processus de diffusion et d’usage des données, au prix d’efforts de standardisation, de description, de communication, de formation et d’accompagnement très importantes, dans une temporalité lente, par la constitution d’un réseau d’acteurs. Les valeurs d’innovation appellent une action beaucoup plus rapide, ciblée sur les besoins des entreprises qui prennent en charge les compétences nécessaires. A cette première contradiction dans les objectifs mêmes de l’ouverture des données s’ajoutent les difficultés organisationnelles. BRICOLAGES ORGANISATIONNELS ET DISCOURS DE L’EFFICIENCE : REVOIR LA GESTION DES METIERS AU DETOUR DES DONNEES Face à l’injonction politique et juridique, aux demandes provenant de la société civile ou aux choix délibérés d’ouverture des données, les collectivités ont dû mettre en place des procédures de gestion dans l’urgence. Sur le plan des discours, elles sont contraintes à l’affichage d’une dynamique à laquelle elles ne sont pas toujours préparées et qui nécessite des formes d’acculturation et des réorganisations des procédures et des modes de travail. Les problématiques d’accessibilité et d’usabilité viennent perturber les fonctionnements de services cloisonnés dans la gestion des données (autour des directions des systèmes d’information), de l’information et des documents, et mettent en relief, sinon des dysfonctionnements, du moins des résistances au changement qui les placent en porte-à-faux avec les services chargés de la communication, d’une part, les politiques, d’autre part. Du point de vue de la gouvernance, l’impulsion et le dynamisme des politiques d’ouverture des données nécessitent des investissements importants. Les contenus et les modalités de cette gouvernance dépendent souvent de l’histoire de l’organisation. Les acteurs témoignent des décalages des temporalités. La décision de mettre en place un portail a été prise, par exemple, à la suite de la publication d’un article de presse pour une collectivité, qui déclenche une décision politique à laquelle les services ne sont pas préparés, dans une logique communicationnelle qui appelle un affichage et un positionnement dans le jeu politique local. Ailleurs, ce sont les directions des systèmes d’information qui donnent l’impulsion, avec une coloration technocentrée et un public cible de développeurs. Le suivi des politiques d’ouverture repose sur les stratégies qui peuvent évoluer en fonction des services qui s’emparent de la question. Dans une collectivité, le caractère tardif et politique de l’ouverture accompagne le recrutement de responsables plutôt non techno-centrés, et finalement sensibles aux enjeux de médiation, de formation et d’accompagnement du public. Pour certains acteurs, le problème et le retard pris par les collectivités territoriales vient du fait que l’offre précède le besoin, qu’elle est projetée, avec des présupposés parfois contradictoires, alors que, dans le cas d’une plateforme d’information géographique, c’est le besoin des acteurs qui donne l’impulsion et contraint les acteurs, même privés, à céder du terrain informationnel pour améliorer leur propre réservoir.


©RevueCOSSI2018

14

Quelle que soit l’impulsion de départ, les services sont organisés en silos fonctionnels et en “métiers” communiquant peu entre eux. Ils se sont vus confrontés à un enjeu commun et transversal, qui les contraint à reconsidérer, d’une part l’organisation globale des procédures de collecte et de gestion des données, d’autre part les compétences métiers, et par dessus tout, le partage d’une vision commune de la donnée. Les acteurs témoignent du fait que cette cohérence est indispensable à l’usabilité des données. La diffusion des données environnementales implique, par exemple, que les services chargés de leur collecte connaissent la structuration de la base de données, et que la direction du système d’information soit consciente des contraintes et des spécificités liées à la collecte. En l’absence de cette coopération et de cette connaissance mutuelle, les données mises à disposition du public sont inexistantes, lacunaires, “sales”, inutilisables en l’absence d’un travail de nettoyage trop coûteux pour la plupart des usagers. Du point de vue de l’image de l’organisation, elles sont contre-productives. A l’intérieur même des organisations comme les collectivités territoriales, la culture de la donnée se construit très diversement, en fonction de l’organisation des services, des prises de position des acteurs et de leur capacité à se faire entendre en bousculant les équilibres mis en place notamment autour des systèmes d’information (Lehmans, 2017). Les élus sont souvent peu mobilisés parce que la question des données ouvertes est technique et complexe. L’impulsion de l’ouverture peut venir de services de communication, des services informatiques, des services techniques, des directions générales ou, beaucoup plus rarement, des élus. Les services qui assurent des missions techniques dans le cycle de vie de la données ne partagent pas nécessairement des représentations positives de l’open data. Ils y voient des contraintes nouvelles, des risques de bouleversement des procédures de travail en place, de remise en cause de leur mission par la publicité faite aux données statistiques, par les nécessités de standardisation ou de description dans les métadonnées, mais rarement des objectifs valorisants. Quand l’histoire de l’ouverture des données se fait sur ce modèle, la construction d’une culture de la donnée est longue et vient plutôt de l’émergence d’un demande sociale ou politique. Quand l’impulsion vient de l’intérieur, par exemple de la direction des services d’information, le cheminement est différent et la construction d’une culture partagée, parfois sur fond de compétition entre les services, plus rapide. Les organisations ont souvent mis en place des dispositifs de médiation pour faire évoluer les pratiques, notamment à travers un fonctionnement « en mode projet ». Au-delà des compétences techniques, surtout informatiques, mais aussi liées aux méthodes de collecte et de relevé des données, c’est véritablement un ensemble de pratiques informationnelles, de représentations techniques et sociales et de savoirs partagés qui est en jeu, ce qui définit le coeur même d’une culture et de la construction de l’identité professionnelle. Parmi ces pratiques, les processus de normalisation sont essentiels. BRICOLAGES NORMATIFS : GOUVERNANCE ET CULTURE DE L’INTEROPERABILITE L’ouverture des données, dans les principes, relève d’un projet ou d’un discours de partage, de transparence, de diffusion démocratique et égalitaire des bases de la connaissance. Or, si l’on considère la réalité des usages des données ouvertes au niveau d’une région par exemple, on constate que les réutilisations réelles et projetées par les diffuseurs concernent essentiellement le marché et les entreprises. Les acteurs des données ouvertes hésitent entre un discours d’ouverture vers les citoyens et de partage démocratique, et une stratégie de développement économique qui vise plutôt les entreprises, notamment celles qui vont créer des applications. Ces hésitations ont des répercussions sur les priorités thématiques d’ouverture, ainsi que sur les normes, les standards et surtout sur les licences. Concernant les standards, leur respect est la condition de possibilités de partage et d’intéropérabilité. La standardisation peut permettre de cristalliser la gouvernance des données.


©RevueCOSSI2018

15

Dans le domaine de l’information géographique, la directive INSPIRE2 de la Direction générale de l’environnement de la Commission européenne datant de 2007, “vise à établir en Europe une

infrastructure de données géographiques pour assurer l’interopérabilité entre bases de données

et faciliter la diffusion, la disponibilité, l’utilisation et la réutilisation de l’information géographique

en Europe” (Conseil national de l’information géographique). Dans ce cas, c’est au niveau politique et à l’échelon européen que des standards ont été imposés afin d’obtenir une information structurée, mise à jour et partageable, qui a permis le développement d’outils comme le Géocatalogue et le Géoportail et le fonctionnement de plateformes comme PIGMA (plateforme d’information géographique mutualisée en Aquitaine). L’application de cette directive oblige, dans l’organisation chargée de l’information géographique, les thématiciens et les informaticiens à adopter des normes, des langages, des pratiques communs visant l’interopérabilité des données. Pour les acteurs eux-mêmes, il s’agit d’une véritable culture, technique et normative, qui a donné aux services d’information géographique une longueur d’avance sur les collectivités nouvellement arrivées dans l’open data, peu sensibilisées aux nécessités fortes de standardisation et à des outils techniquement complexes, qui appellent de nouvelles compétences. Cette standardisation est la condition de la mutualisation et les médiateurs de données la mettent au coeur de leur activité en prenant en charge la formation des services producteurs aux standards et à la structuration des données. La question des licences reflète les hésitations qui marquent la naissance de l’open data à travers trois visions sensiblement différentes : celle de l’Open Knowledge Foundation qui définit l’open

data à partir des trois critères de la disponibilité et l’accès, la réutilisation et la redistribution, la participation universelle, la seconde qui « vise à une ouverture toujours plus large des données » (Goetha, 2012), celle des libertaires qui préconise la « Raw Data now ! » de Tim Berners-Lee. Dans une logique de communs de la donnée, les licences devraient privilégier le partage à l’identique, qui est contraire aux intérêts commerciaux des entreprises et un frein à l’utilisation des données ouvertes. La plupart des collectivités territoriales et Open Data France ont donc renoncé à adopter des licences trop strictes (OdBL) imposant un partage à l’identique, et fait le choix pragmatique de permettre aux entreprises de privatiser les services produits à partir des données ouvertes (licence OL créée par Etalab). L’adoption de ces licences vise l’échange né de la réciprocité du besoin d’information. Cette réciprocité s’incarne dans le principe d’interopérabilité. La problématique de l’open data a fait émerger une culture nouvelle qui ne porte plus sur des domaines d’information spécialisés mais sur une base nécessairement commune de traitement de la donnée pour offrir son accès, son usabilité, sa pérennisation, et finalement son épaisseur. Les données de faible qualité sont inutilisables dans une logique de partage, et l’amélioration de la qualité des données apparaît comme une tâche complexe, collective, qui contraint les services à travailler de concert, souvent avec un accompagnement qui vient d’un médiateur ou d’un animateur. Les données de faible qualité sont celles qui sont périmées, non structurées et/ou pas lisibles par machine. La métadonnée apparaît ainsi comme un élément pivot de la culture technique de la donnée, cristallisant des enjeux de compétence informationnelle. L’accompagnement à la création et la structuration de métadonnées est essentiel (Ben Abdallah, 2016). Le schéma DCAT qui vise à normaliser la description des catalogues d’informations publiques, maintenu par le W3C, organisé autour de l’utilisation des concepts de catalogue, de jeux de données, de vocabulaire contrôlé, de catégorie, d’agents et de ressources, peut être mise en avant. Son usage repose sur un travail d’indexation à l’aide d’un vocabulaire contrôlé. Les

2 Directive 2007/2/CE du Parlement Européen et du Conseil du 14 mars 2007 établissant une infrastructure d'information géographique dans la Communauté européenne (INSPIRE), http://cnig.gouv.fr/?page_id=8991


©RevueCOSSI2018

16

métadonnées sont ainsi un enjeu politique car elles permettent la contextualisation et l’interprétation des jeux de données, essentielles pour comprendre l’information. Mais cette dimension documentaire n’est pas prise en charge par les services informatiques qui considèrent qu’elle n’entre pas dans leur coeur de métier.

CONCLUSION : ENJEUX ET PERSPECTIVES Au-delà de la prise en considération des risques et de contraintes techniques et économiques fortes, la gouvernance des données ouvertes interroge la possibilité d’une participation citoyenne à la gestion du cycle de vie de l’information. Mais cette question du cycle de vie de l’information, au coeur des principes de gouvernance de l’information dans les entreprises, n’apparaît pas de façon évidente dans les discours, dans les pratiques et dans les normes concernant les données ouvertes. Elle appelle des formes d’explicitation des décisions et des procédures et de responsabilisation aussi bien des acteurs de l’ouverture que des usagers des données. Elle est complexe, en rupture par rapport à la culture administrative française centralisée, et croise des questions qui relèvent de l’expertise technologique. Des types de légitimité contradictoires sont en jeu, l’une axée sur la démocratie et le dialogue, l’autre sur l’expertise technique et l’efficacité. La gouvernance des données ouvertes est intimement mêlée à la construction d’une culture plurielle (Liquète, 2017) de la donnée, à la fois en interne dans les organisations, et du côté des usagers. Elle soulève des questions culturelles liées à des savoirs, des pratiques, des valeurs et des représentations partagés. Si la participation est valorisée, cette dimension culturelle devient centrale. La capacité à se saisir des données ouvertes (de même que des données personnelles) dépend de la formation des individus, et de la culture qu’ils ont pu construire dans leur parcours de formation et des espaces sociaux associatifs, familiaux, amicaux ou professionnels. L’efficacité d’une gouvernance ouverte ne peut faire l’économie de considérations éducatives, pas plus que l’éducation ne peut ignorer la question de l’ouverture des données. BIBLIOGRAPHIE Ben Adballah, N. (2016). Schéma de métadonnées pour les Open data : quelles fonctions et quelle harmonisation ? In Paquienséguy F. (dir.), Open data. Accès, territoires, citoyenneté : des

problématiques info-communicationnelles. Paris. Editions des archives contemporaines. Bonnaccorsi, J. (2016). Conclusion générale. In Paquienséguy F. (dir.), Open data. Accès,

territoires, citoyenneté : des problématiques info-communicationnelles. Paris. Editions des archives contemporaines. Capelle, C., Lehmans, A., Liquete, V. (2017). De la visibilité à la médiation : l’open data et ses usages en éducation. Colloque international « Big data et visibilité en ligne : un enjeu

pluridisciplinaire de l’économie numérique », Novembre, Fort de France, Martinique. �halshs-01633284� Cardon, D. (2014). Apprendre/désapprendre : sur la ligne de crête des apprentissages numériques. InternetActu.net, 10/01/14 http://www.internetactu.net/2014/01/10/apprendredesapprendre-sur-la-ligne-de-crete-des-apprentissages-numeriques/. Cardon, D., Granjon, F. (2010). Médiactivistes. Paris: Presses de Sciences Po (P.F.N.S.P.).


©RevueCOSSI2018

17

Certeau, M. de (1990). L’invention du quotidien. 1. Arts de faire. Paris, Gallimard. Chartron, G., Broudoux, E. (2015). Enjeux géopolitiques des données, asymétries déterminantes. Document numérique et société. In Open Data, big data : quelles valeurs ? Quels enjeux ?. Bruxelles, De Boeck, 67-83. Chignard, S. (2012). Open data, comprendre l’ouverture des données publiques. Paris, FYP. Crowston, K., Jullien, N., Ortega, F. (2013). Sustainability of Open Collaborative Communities: Analyzing Recruitment Efficiency. Technology Innovation Management Review, 3(1), 20-26. URL : http://timreview.ca/article/646 Demailly, D., Novel, A.-S. (2014). Économie du partage : enjeux et opportunités pour la transition écologique, IDDRI Studies, 03/14. El Hachani, M. (2015). Open data, collectivités et usagers : une dynamique en question. In Paquienséguy F. (dir.), Open data. Accès, territoires, citoyenneté : des problématiques info-

communicationnelles. Paris. Editions des archives contemporaines. 1-23. France, Secrétariat général pour la modernisation de l’action publique (2015). La gouvernance de la donnée, URL : http://www.modernisation.gouv.fr/sites/default/files/fichiers-attaches/rapport_agd_decembre2015.pdf. Gallot, S., Verlaet, L. (2016). La transparence : l’utopie du numérique ? Communication &

Organisation, 49(1), 203-217. Goëta, S., Mabi, C (2014). L'open data peut-il (encore) servir les citoyens ? », Mouvements, 3-79, 81-91. URL : http://www.cairn.info.docelec.u-bordeaux.fr/revue-mouvements-2014-3-page-81.htm Goncalves, D., Rufat, S. (2016). Open data et droit de la donnée : les collectivités à l’épreuve des réglementations européennes. Cybergeo : European Journal of Geography [En ligne], Science et Toile, document 787, mis en ligne le 17 août 2016. URL : http://cybergeo.revues.org/27750. Gurstein, M.B. (2011). Open data: empowering theempowered or effective data use for everyone?. First Monday.16(2).URL : http://firstmonday.org/article/view/3316/ 2764. Hess, C., Ostrom, E. (dir.) (2007). Understanding Knowledge as a Commons : From Theory to

Practice. Cambridge, The MIT Press. Labelle, S., Le Corf, J. (2012). Modalités de diffusion et processus documentaires, conditions du « détachement » des informations publiques. Analyse des discours législatifs et des portails open data territoriaux. Les Enjeux de l'information et de la communication, 13/2,(2), 209-59. Lehmans, A. (2017). Données ouvertes et redéfinition de la culture de l’information dans les organisations: Vers une culture de la donnée. Communication & Organisation, 51,(1), 15-26. Liquète, V., de Lourdes, Oliveira, I., Salgueiro Marques, Â. (2017). Les nouvelles cultures de l’information dans les organisations. Communication & Organisation, 51,(1), 5-11.


©RevueCOSSI2018

18

Maurel, D., Chebbi, A. (2012). La perception de la confiance informationnelle. Communication et

organisation, 42, URL : http://communicationorganisation.revues.org/3864. Noyer, J.M., Carmes, M. (2012). Le mouvement " Open Data " dans la grande transformation des intelligences collectives et face à la question des écritures, du web sémantique et des ontologies. URL : http://archivesic.ccsd.cnrs.fr/sic_00759618. Pasquier, M., Villeneuve, J-P. (2007). Les entraves à la transparence documentaire. ÉtablissementÉtablissement d’une Ttypologie et analyse des comportements organisationnels conduisant à empêcher ou à restreindre l’accès à l’information. Revue Internationale des

Sciences Administratives, 73(1), 163-180 Paye, O. (2005). La gouvernance : d'une notion polysémique à un concept politologique. Études

internationales, 36-1, mars, 13-4. URL : http://www.gouvernement.fr/sites/default/files/liseuse/6252/master/projet/Rapport-au-Premier-ministre-sur-la-gouvernance-de-la-donn%C3%A9e-2015.pdf. Schafer, V., Le Crosnier, H. (2011). La Neutralité de l’Internet : une question de communication. Paris, CNRS éditions.


©RevueCOSSI2018

19

Stratégies pédagogiques pour diffuser la culture des données ouvertes

Camille CAPELLE IMS UMR 5218 CNRS Université de Bordeaux

[email protected]

Marthe-Aline JUTAND CeDS (Culture et Diffusion des Savoirs), Faculté Science de l’éducation

Université de Bordeaux [email protected]

Franc MORANDI

IMS UMR 5218 CNRS Université de Bordeaux

[email protected] Résumé : Après que les industriels se soient emparés du Big Data, il en revient à la sphère sociale de s’emparer de l’Open Data. Les enseignants ont un rôle à jouer pour permettre aux élèves, en tant que futurs citoyens, d’appréhender les données, de comprendre leurs contenus et le processus ayant permis de les produire, et ainsi de développer les compétences nécessaires pour en faire usage. Il ne s’agit plus seulement de constituer des données pour valider des hypothèses, mais d’interroger la structure et le contenu de données préexistantes pour se les approprier et construire de nouveaux savoirs. Selon leurs modalités de collecte et de mise à disposition, la construction de sens et la pertinence des informations produites sont loin d’être évidentes. L’analyse des scénarios pédagogiques construits par les enseignants et des savoirs mis en jeu pour les élèves, nous conduit à mettre en évidence les besoins en matière d’offre de données ouvertes pour permettre leur appropriation citoyenne. Mots-clés : données ouvertes, open data, scénario pédagogique, design pédagogique, formation aux données, data culture Abstract : After industrialists seized Big Data, it is now up to the social sphere to take over the Open Data. The teachers have a role to play in enabling students, future citizens, to understand the question of data, to understand their content and the process by which they have been produced, and thus to develop necessary skills to make use of. It is no longer a question of learning how to build up data to validate hypotheses, but of questioning the structure and content of pre-existing data in order to build new knowledge. Depending on how they are collected and made available, the meaning construction and relevance of the information produced are not obvious. The analysis of the pedagogical scenarios constructed by the teachers and of the knowledge brought


©RevueCOSSI2018

20

into play for the pupils leads us to highlight the needs for the provision of open data in order to allow them to be appropriated by the citizens. Keywords: Open data, pedagogical scenario, pedagogical design, data training, data culture INTRODUCTION L’accès aux données publiques sous un format ouvert, réutilisable, communément appelé Open

Data, invite les citoyens à s’en saisir et à les exploiter comme communs de la connaissance (Hess et Ostrom, 2007). Ces données numériques reflètent notre quotidien sous forme « éclatée, segmentée, distribuée, décontextualisée, déshistoricisée » (Rouvroy, 2014). Il s’agit de données, la plupart du temps, chiffrées, de relevés d’informations, de mesures d’objets, de réponses à des enquêtes, de statistiques, de comptages, tout un ensemble de données collectées par les organismes publics ou privés et mises à disposition en format numérique sur des plateformes nationales ou locales. Cette mise à disposition permet leur accès pour une manipulation par les citoyens ou les entreprises, à des fins personnelles, de recherche, de diagnostic ou de mise en évidence de sens. La mise en relation, le regroupement et/ou la confrontation de différentes sources de données permettent de répondre à certaines questions posées et d’explorer des pistes de recherche. C’est ce que font, avec des données de masse, les grandes entreprises du numérique ou les services de renseignement gouvernementaux à l’aide de moyens dont ne peuvent disposer les plus petites entreprises et encore moins les citoyens. Ces « intelligences algorithmiques » influencent nos façons d’être et d’agir, en organisant l’information et ainsi en permettant de prendre des décisions (Cardon, 2015). Le premier enjeu de l’usage des données se situe alors dans la capacité à s’en saisir et à les « faire parler », à travers les inégalités de moyens pour agir avec, face aux puissances économiques et politiques, qui s’appuient sur la puissance algorithmique (approche « big data »). Le second enjeu, qui est un enjeu de citoyenneté, concerne la formation à la compréhension et à l’exploitation de données. Il concerne la place de l’intelligence cognitive et de l’approche compréhensive pour utiliser les données, à travers leurs dimensions culturelles et sociales notamment avec des informations plus qualitatives (approche « thick data »). Le mouvement de l’Open Data ouvre d’intéressantes possibilités ; en facilitant l’accès et en permettant la mise à disposition gratuite des données produites par les services publics, chacun peut accéder à des données, les mettre en regard avec d’autres données, ou produire des résumés d’informations à confronter à d’autres informations, tout ceci afin de construire du sens, de nouvelles connaissances, pour, par exemple, améliorer des prises de décisions ou pour produire de nouvelles connaissances. L’intégration des données ouvertes, comme ressources pédagogiques, ou comme concept à diffuser, reste pour l’instant très marginale dans le cadre de l’enseignement ou de la formation. Certains enseignants construisent des séquences pédagogiques mettant en œuvre ce nouvel apprentissage d’usage et de manipulation de données ouvertes. La construction de ces séquences et la mise en œuvre en classe correspond à notre objet d’étude, car la mise en analyse de ces données bouleverse « les catégories d’interprétation traditionnelles (qui) ne tiennent plus d’elles-mêmes et (…) il faut commencer par regarder avant d’interpréter » (Cardon, 2012 : 142). Après avoir exposé l’enjeu d’une approche des données ouvertes par les thick data pour former les futurs citoyens à une culture et aux usages des données, nous définissons ce que nous désignons par scénarios pédagogiques et par design pédagogique. La méthodologie choisie pour explorer les stratégies pédagogiques de formation aux données ouvertes est ensuite exposée, ainsi que les premiers résultats de la recherche. Celle-ci nous conduit à proposer une typologie de scénarios pédagogiques possibles autour des données ouvertes et à mettre en évidence des


©RevueCOSSI2018

21

besoins de mise en forme des données ouvertes en vue de permettre leur appropriation citoyenne et de favoriser la diffusion d’une culture des données. LES USAGES PEDAGOGIQUES DES DONNEES OUVERTES L’ouverture des données publiques pose avant tout des questions de choix et de stratégies qui reposent sur leur gouvernance, pour être à même de proposer une offre suffisamment claire, lisible, et documentée, permettant à chacun de s’en saisir. Il est alors important de considérer ces choix dans le processus d’appropriation des données par les usagers. Données ouvertes et enjeux : l’importance des choix de formation et de méthodes La loi Lemaire de 2016 a introduit la notion de « données d’intérêt général » qui implique que toute administration a désormais l’obligation de mettre à disposition les documents, informations et données collectés dans le cadre d’une mission de service public, dans un format électronique, en standard ouvert, permettant une exploitation entièrement libre par tous ceux qui le souhaitent (citoyens, entreprises, associations, administrations, etc.). Ces données dites « ouvertes » (open

data) sont donc des données publiques, qui ont vocation à être librement accessibles pour produire des informations, de la connaissance et développer des compétences (cf. figure 1). L’absence d’indication de modalités exactes de mises en forme des données, induit nécessairement des choix en matière de formats, licences, métadonnées, notamment, qui reposent sur la gouvernance et la politique mise en œuvre au sein de chaque administration. Or, ces choix sont essentiels étant à la source du processus d’utilisation qui peut s’illustrer à travers le schéma suivant.


©RevueCOSSI2018

22

Credit image : Redsen consulting

Figure 1 : Adaptation de la pyramide de Russel Akoff (1989) aux usages pédagogiques des données ouvertes

On peut considérer trois niveaux d’usage, que l’on peut mettre en regard avec différents objectifs pédagogiques, permettant de passer de la notion de données, à la notion d’information, puis de connaissance et enfin de compétence. Pour bien comprendre comment ce processus peut s’opérer, rappelons tout d’abord la particularité de ce type de données et les enjeux qu’elles soulèvent en matière d’appropriation à des fins d’enseignement. Ces données, parfois collectées en masse, notamment par la mise en place systématique de capteurs, concernent tous les domaines (la démographie, la santé, l’environnement, l’urbanisme, l’enseignement, la culture…) et sont ainsi susceptibles d’intéresser les enseignants et les élèves dans de nombreuses disciplines, ainsi que les chercheurs, les entrepreneurs, etc... En effet, ces données, principalement quantitatives, peuvent être traitées, triées, croisées, exploitées, et visualisées à des fins de recherche, de développement, d’innovation ou d’enseignement. Leur traitement nécessite une intelligence humaine permettant leur intégration aux activités des professionnels ou du public (analyse, évaluation, visualisation, cartographie, etc.). Cela nécessite donc des compétences informationnelles, documentaires, statistiques mais aussi techniques (informatiques) visant dans le même temps à soulever des questions socio-économiques, politiques, historiques ou géographiques. Une véritable acculturation à l’environnement propre de ces données est donc nécessaire. Dans ce processus d’acculturation aux données, une médiation, faisant référence à « l’ensemble des aides ou des supports qu’une personne peut offrir à une autre personne en vue de lui rendre plus accessible un savoir quelconque » (Rézeau, 2002) apparaît alors indispensable.


©RevueCOSSI2018

23

L’enseignant en est un acteur clé car il peut jouer son rôle de médiateur, en proposant différents scénarios pédagogiques pour former à l’aptitude d'accéder aux données à des fins de compréhension, d’usage et d’analyse, potentiellement pour des prises de décisions sociétales. C’est l’hypothèse que nous interrogeons afin d’identifier des moyens et méthodes favorisant une acculturation et une démocratisation des usages de données. Pour les élèves, manipuler ce type de données fait partie de la découverte et du développement d’une culture numérique telle qu’elle est présentée dans le socle commun de connaissances et de compétences à travers le domaine 1 « Les langages pour penser et communiquer »3, dans le programme d'Éducation aux Médias et à l’Information (EMI) en cycle 3 ou dans certains programmes d’enseignement4. L’usage des données ouvertes dans la société civile comporte aussi plusieurs enjeux éducatifs qui incitent à s’interroger sur la formation. Ces enjeux sont de plusieurs ordres :

● informationnels, car ces données livrées sans médiation nécessitent de maîtriser des techniques de recherche d’informations pour les étayer et les analyser ;

● cognitifs, car elles nécessitent des capacités d’abstraction pour les interpréter, ou pour les manipuler, sans modifier, voire fausser leur sens ;

● médiatiques, car les représentations graphiques et visuelles permettant d’illustrer les données ont un attrait qui peut séduire, mais elles peuvent cependant déformer ou orienter les informations en fonction des intentions de leurs auteurs ;

● techniques, car des compétences en informatique sont nécessaires pour travailler les données et donc permettre de donner à voir et d’en communiquer leur sens ;

● méthodologiques, car les approches quantitatives des big data tendent à imposer leur manière de voir le monde et à standardiser les analyses, au détriment d’une recherche plus compréhensive et plus fine qui pourrait s’appuyer sur les thick data.

L’approche par les « thick data » (Hine, 2015), développée dans le champ de l’ethnographie et plus particulièrement des internet studies, permet d’appréhender les données d’une autre façon que par l’approche quantitative qui consiste à appliquer des algorithmes pour traiter les données massives. Cette autre approche repose sur une approche qualitative qui implique de s’intéresser aux données dans leur épaisseur (environnement et processus de construction) pouvant se traduire à travers différentes couches d’informations relatives à une approche socio-culturelle des données, mais aussi documentaires et techniques. Cette épaisseur peut permettre de comprendre la chaîne de production des données ouvertes, par la connaissance de leur origine, des choix de leur mise en forme, leur description. Les usages des données ouvertes dans l’éducation impliquent de s’intéresser à ce type d’approche pour permettre de traduire en informations les données et construire des connaissances. Il convient en effet d’en comprendre les fondements dans toutes leurs dimensions là où l’approche par le big data ferait l’impasse de cette démarche compréhensive pouvant ainsi conduire aux risques évoqués précédemment. Antoinette Rouvroy dénonce l’instauration d’un « régime de vérité » numérique, une nouvelle manière de rendre le monde signifiant : « la réalité (...) y serait saisie (...), non plus au niveau de ses représentations et transcriptions ou de ses interprétations individuelles ou collectives, mais au niveau quasiment atomique ou génétique de la donnée, considérée comme un fait ultime, parlant d’elle-même, sans médiation » (Rouvroy 2014 : 413). La connaissance et la prise en compte des thick data, semble être une piste pour construire une démarche pédagogique. Cette démarche relève donc d’un enjeu démocratique en ce qu’elle peut permettre d’amener les

3Voirsurledécretn°2015-372:http://www.education.gouv.fr/pid25535/bulletin_officiel.html?cid_bo=878344En2016,voirlesoptions“InformatiqueetCréationNumérique”enSeconde,ou“InformationetSciencesduNumérique”

enterminalescientifique.


©RevueCOSSI2018

24

citoyens à comprendre et à agir intelligemment, à choisir, à imaginer et à innover, en prévenant les risques d’une approche purement algorithmique. Quel design pédagogique pour développer les apprentissages d’usage des données ouvertes ? Nous proposons d’analyser les stratégies professionnelles mises en œuvre par les enseignants autour des données ouvertes à travers le filtre des scénarios pédagogiques. Ces scénarios décrivent les dispositifs technologiques, l’utilisation des données, dans une mise en forme qui s’appuie sur des hypothèses concernant l’apprentissage, les compétences, ainsi que les postures et les stratégies professionnelles, dans le cadre imposé par la gouvernance de ces données. Les scénarios pédagogiques peuvent être définis comme « ensembles ordonnés d’activités, régies par des acteurs qui utilisent et produisent des ressources » (Paquette, 2005) ; ils organisent le répertoire de ressources partagées par une communauté de pratiques (Wenger, 1998). La scénarisation est associée aux gestes professionnels de l’enseignant et à une dimension de créativité dans la conception, autant qu’à un acte d’ingénierie réflexive. A la différence des schémas trop rigides ou de la description des lesson plans chez les anglo-saxons, elle organise le faire des acteurs autour d’un évènement, d’une situation qui mobilise les acteurs et induit un déroulement d’actions. Autour du projet avec des données, les scénarios peuvent associer différentes dimensions, depuis la logique pédagogique et jusqu’à la gouvernance des données, elle-même mise à l’épreuve de l’exploitation et de la réutilisation des données ouvertes par des usagers. Le scénario pédagogique a pour objet de proposer un environnement permettant de mettre en œuvre le processus d’apprentissage en s’appuyant sur des ressources pédagogiques issues d’open data fabriquées en amont (processus externe) imposant à l’enseignant un certain nombre de contraintes (cf. figure 2).

Figure 2 : Processus de scénarisation pour l’usage pédagogique des données ouvertes


©RevueCOSSI2018

25

Nous interrogeons la façon dont s’opère la transition « open data - ressources pédagogiques ». Cela implique une appropriation par l’enseignant puis par les élèves des ressources proposées pour pouvoir les transformer en informations et développer des compétences. La métaphore du scénario, de la mise en scène et de son script est utilisée pour marquer les caractères d’une planification anticipatrice et d’une logique suivie, qui organise le déroulement de l’activité à travers les différentes séquences pédagogiques qui s’y rapportent. Plus que l’objet à enseigner et à apprendre, le scénario représente la trame explicitée et communicable de l’activité. Le scénario est le résultat du processus de conception pédagogique qui prend sa source dans les différents modèles pédagogiques. Du point de vue didactique, Emmanuelle Villot-Leclerc (2007 : 18) souligne que « l’émergence du concept de scénario est révélatrice du déplacement du paradigme épistémologique de la connaissance d’une logique de la transmission à une logique d’apprentissage (Jonnaert, 2002) ». Un scénario pédagogique est constitué par deux aspects, l’un descriptif, inscrit dans les pratiques proposées par l’enseignant décrivant « ce qu’il prévoit de faire ou fait » (Villot-Leclerc ; 2007). Cet aspect se caractérise par des objets de descriptions écrits, ce qui implique que les scénarios constituent un répertoire et une typologie de pratiques partageables. Le second aspect, prospectif, est celui des intentions pédagogiques, des stratégies, un angle de prise de position sur le mode de construction de savoirs, qui modélise une intention. C’est le niveau de conception d’une activité d’enseignement et d’apprentissage donnant sa forme à l’activité pédagogique, son design. Gilbert Paquette définit le concept de « design pédagogique » comme l’« ensemble des théories et des modèles permettant de comprendre, d’améliorer, et d’appliquer des méthodes d’enseignement favorisant l’apprentissage » (Paquette, 2002, p.111). Il ajoute que « par le design des scénarios pédagogiques, le concepteur établit les liens entre les sources d’information et les différents acteurs. […] Le concepteur prévoit les types de communication, les stratégies pédagogiques, les modes de collaboration entre les acteurs » (Paquette et al., 2003). Un exemple est celui de la pédagogie inversée (flipped learning, ou apprentissage inversé), souvent plébiscitée. Ce scénario décline un design, celui de l’inversion, supportant une série d’hypothèses pédagogiques. La « pédagogie inversée » propose d’adapter l’ordre pédagogique aux activités d’apprentissage sous forme d’alternance et d’inversion : le contenu des cours (partie théorique) est accessible aux élèves en amont, à l’opposé de l’enseignement magistral, à l’aide de plateformes numériques, sous forme de ressources (proposant par exemple des capsules vidéo élaborées par l’enseignant). Les élèves s’en saisissent avant la classe, et peuvent ainsi prendre des notes, en les complétant par leurs propres recherches. Puis, le présentiel de la classe est consacré au travail d’équipe, à la mise en projet, aux activités permettant de mettre en œuvre les notions présentées. L’enseignant fournit des aides, des explications complémentaires aux élèves, selon leurs besoins spécifiques. Dans sa posture, il n’est plus un transmetteur (même s’il reste maître d’œuvre du dispositif), mais accompagne le travail de l’élève. Dans le cadre d’apprentissage par usage des données, trois approches peuvent caractériser les intentions du design pédagogique. Une première serait centrée sur les données ressources, essentiellement pour les enseignants et leurs apports, dans la verticalité du processus « enseigner ». Un second type d’approche se centre sur les activités, dans l’horizontalité du « faire apprendre », associée aux pédagogies actives. Une dernière direction organisatrice met l’accent sur des approches centrées sur les interactions, pédagogique à travers des projets organisationnels, des parcours de compétences (transversalité). Elle propose une dimension collaborative, associée à un projet de formation à l‘information et aux données, assortie de démarches d’accompagnement.


©RevueCOSSI2018

26

Les scénarios peuvent alors être examinés à différents niveaux : ● un niveau macro, le scénario général de structuration pédagogique, celui des intentions ; ● un niveau intermédiaire ou meso, le scénario d’activités qui organise une séquence

d’activités, ● un niveau micro, le scénario de déroulement d’activités.

L’entrée par la scénarisation et le design pédagogique de l’enseignant nous permet d’interroger la façon dont sont conceptualisés les usages des données en situations d’enseignement et d’accéder aux intentions pédagogiques des enseignants. Nous proposons donc d’analyser les scénarios et les stratégies professionnelles mises en œuvre pour former les élèves à ces nouveaux objets de savoirs que sont les données ouvertes. S’intéresser à la scénarisation pédagogique dans le cadre d’usages de données nécessite dans un premier temps de comprendre les différents niveaux d’usages qui peuvent être considérés comme les apprentissages devant être développés. CADRE METHODOLOGIQUE POUR L’ANALYSE DES USAGES EMERGENTS DANS L’EDUCATION La recherche s’inscrit dans le cadre d’un projet Peps Idex CNRS coordonné par l’équipe RUDII (Représentations, Usages, Développements, Ingénieries de l’Information) du laboratoire IMS UMR 5218 CNRS. Nous présentons dans un premier temps les principaux objectifs de ce projet avant de décrire la méthode d’observation et de collecte du corpus ayant permis l’analyse exposée. Le projet de recherche sur l’usage des données ouvertes pour l’éducation Le projet de recherche MVDE (Médiation et Valorisation des Données ouvertes pour l'Éducation) s’est constitué autour de la recherche en sciences de l’information et de la communication, en sciences de l’éducation, en didactique des statistiques et en didactique des sciences économiques et sociales mais aussi autour du design. Ce projet a pour ambition de diffuser la connaissance des usages des données ouvertes en milieu scolaire et d’amorcer une réflexion collective quant à ces pratiques. Au début de cette recherche, la question de l’apprentissage de l’usage des données ouvertes n’apparaît qu’en toile de fond de certains programmes disciplinaires (sciences de gestion ou sciences économiques et sociales) dans l’enseignement secondaire. La notion de données est abordée au sens large (données numériques, données personnelles, données de référence,...), notamment en mettant à l’épreuve l’apprentissage permettant de développer des compétences numériques chez les élèves. En revanche, celle de « données ouvertes » ne figure dans aucune directive ministérielle ni curricula. L’intégration des données ouvertes dans l’enseignement n’est donc pas une injonction institutionnelle, et très peu, voire aucune ressource pédagogique n’est proposée aux enseignants. Un collectif de chercheurs, d’enseignants du secondaire et de l’enseignement supérieur, mais aussi de professionnels et d’étudiants s’est réuni dans l’objectif d’amorcer une réflexion collective sur l’intégration de l’usage de ces données dans la formation, et de réfléchir à des propositions concrètes permettant de faciliter leur manipulation et leur appropriation dans l’enseignement. L’observation d’usages émergents dans l’éducation, la mise en relation des acteurs et la réflexion collective autour des besoins et ressources facilitant le développement des usages pédagogiques des données ouvertes sont principalement visés. Les acteurs qui s’intéressent à cette question ont été identifiés en Aquitaine, autour d’enseignants de l’ESPE, d’Inspecteurs pédagogiques Régionaux notamment en sciences économiques et


©RevueCOSSI2018

27

sociales, du CLEMI (Centre de Liaison pour l’Education aux Médias et à l’Information) au rectorat, d’enseignants de sciences de gestion, d’associations comme la FING (Fédération Internet Nouvelle Génération), et de professionnels5. Ce travail a été facilité par l’intégration dans un groupe de Travaux Académiques Mutualisés (TraAM)6 sur le thème « Datavisualisation et cyber-citoyenneté ». Ce groupe de travail a permis d’identifier des enseignants en sciences de gestion, en sciences économiques et sociales, en technologie ou en informatique, s’intéressant à la question des données ouvertes, certains s’en étant déjà emparés pour leur enseignement. Ils participent à la réflexion autour des données ouvertes et construisent des séquences pédagogiques dans des disciplines et selon des approches variées avec des élèves de niveaux collège, lycée et BTS. Observations, entretiens et analyse du design pédagogique La méthodologie adoptée pour ce projet repose sur l’approche ethnographique issue des travaux de l’École de Chicago qui consiste à s’immerger au cœur des pratiques afin d’acquérir une meilleure compréhension de l’activité du groupe observé. Elle a dans un premier temps consisté à participer aux réunions de groupe de travail TraAM et à interviewer des acteurs de différents profils : inspecteurs et cadres de l’éducation, enseignants, élèves, responsables de la mise en accès de données publiques des collectivités. Nous avons mené une vingtaine d’entretiens semi-directifs. Les axes sur lesquels nous les avons interrogés concernent leur avis sur :

● La représentation de l’offre de données ouvertes : diversité, dimensions sociales et politiques, en lien avec une discipline ou non ;

● Les portails de données, les types de données utilisés, et les outils et tutoriels éventuels utilisés pour la visualisation de données, et les formes de représentations graphiques de l’information choisies ;

● Les besoins de formations aux données, aux outils, aux développements de compétences techniques ou disciplinaires ;

● Les usages pédagogiques : fréquence, contenu, adossement à des dispositifs et des programmes, ainsi que les modalités d’organisation (projet, accompagnement, travail collaboratif, pluridisciplinaire ou non) ;

● Les notions à aborder : big data, communs de la connaissance, algorithmes, compétences professionnelles de traitement des données, critique de l’information, etc…

● Les dimensions économique et politique des données (communs de la connaissance) ; ● L’émergence d’une communauté épistémique sur ces questions : réseaux interne à

l’Education Nationale, liens avec l’extérieur, participation en ligne et présence sur les réseaux sociaux.

Puis, le travail des enseignants a été suivi au long de l’année scolaire et nous avons collecté un ensemble de documents relatifs à leur travail en classe, à savoir des fiches projets en réponse un appel de la Délégation pour l’Education aux Médias et à l’Information, leurs descriptifs de séquences pédagogiques, leurs supports de cours, des fiches d’aides pour les élèves, un wiki alimenté par des enseignants, des productions d’élèves. Nous avons comparé leurs perceptions de l’usage pédagogique des données ouvertes à travers les discours recueillis, et avons analysé leurs documents pédagogiques. Nous nous sommes intéressés aux choix pédagogiques permettant d’identifier le processus de conception de l’activité 5ArmelleGilliard,expertetravaillantsurlaquestiondesdonnéesouvertes,voirhttp://www.lareinemerlin.org/6Pourplusd’informations,voir:http://eduscol.education.fr/cid98083/les-travaux-academiques-mutualises-traams-des-

laboratoires-des-pratiques-numeriques.html


©RevueCOSSI2018

28

d’apprentissage, ainsi que les stratégies et positions des enseignants visant à sensibiliser les élèves aux problématiques liées aux données, à leur traitement et à leurs usages. Ces éléments nous permettent de caractériser différents types de scénarios pédagogiques et de design de l’activité en classe. CARACTERISATION DES SCENARIOS PEDAGOGIQUES D’USAGE DES DONNEES OUVERTES EN CLASSE Trois types de scénarios pédagogiques sont identifiés. Nous les désignons comme scénario transmissif, scénario participatif et scénario d’autonomisation. Cette typologie témoigne de la construction en cours d’une culture professionnelle autour des données ouvertes. Le scénario transmissif : préparation des données par l’enseignant Dans le scénario dit « transmissif » (Figure 3), l’enseignant prépare un jeu de données adapté à ses enseignements disciplinaires, à partir duquel les élèves répondent à une question de cours. Ce scénario repose sur plusieurs contraintes identifiées par les enseignants pour réutiliser des jeux de données ouvertes dans un but pédagogique. D’une part, les jeux de données disponibles répondent, la plupart du temps, difficilement aux objectifs pédagogiques que l’enseignant souhaite aborder avec sa classe, objectifs le plus souvent liés à une approche disciplinaire. L’offre de jeux de données, encore très limitée et lacunaire, conduit les enseignants à sélectionner des fichiers et à les retravailler pour les rendre pertinents et exploitables. Pour certains, l’usage de données ouvertes ne doit pas s’imposer comme une contrainte dans le scénario pédagogique. Il s’agit d’abord pour eux de former les élèves à des connaissances disciplinaires dans lesquelles les enseignements techniques peinent à trouver leur place, alors qu’ils sont souvent associés aux enseignements disciplinaires à l’ère du numérique. D’autre part, l’usage de ces données « nécessite des connaissances techniques, ne serait-ce que

pour ouvrir les données dans le bon logiciel » (enseignant de technologie). Les libellés des variables, rédigés par des experts du domaine et parfois abrégés, rendent certains jeux de données difficiles à comprendre pour des personnes extérieures. Les enseignants effectuent alors souvent un premier travail de reformulation et simplification du fichier de données visant à le rendre plus lisible. Ce travail va parfois plus loin. Il peut nécessiter de convertir le format de fichier ou même de le modifier ou le compléter pour éviter son incomplétude. Ce travail est souvent présenté comme nécessaire de la part de l’enseignant pour permettre de rendre les données accessibles aux élèves dans des délais souvent restreints. Les savoirs travaillés avec les élèves ne reposent donc pas ici sur le traitement des données, jugé trop technique ou chronophage, mais plutôt sur l’analyse des données en relation avec une question de cours et sur leur représentation graphique informationnelle. Des supports pédagogiques, fiches ou ressources d’aides, peuvent être préparés par l’enseignant qui anticipe ainsi sur les difficultés des élèves.


©RevueCOSSI2018

29

Figure 3 : Le scénario transmissif

L’approche pédagogique choisie s’inscrit ici plutôt dans la verticalité visant des apprentissages déductifs puisque l’enseignant définit les savoirs à enseigner en appui de ressources précises. Ces ressources ont fait l’objet d’une transformation par l’enseignant pour en faire des ressources directement exploitables en classe par les élèves, à des fins d’apprentissages disciplinaires plutôt que d’usages des données ouvertes telles qu’elles sont mises à disposition sur les plateformes d’open data. Néanmoins, dans cette configuration le scénario proposé par l’enseignant peut contenir une intention de mise en activité des élèves suivant une approche horizontale, visant à faire apprendre aux élèves par eux-mêmes en travaillant à l’aide des ressources à disposition. Pour l’enseignant ici, les jeux de données produits et mis à disposition par les organismes publics, ne permettent pas directement une utilisation pédagogique, pour des raisons de contraintes de temps, mais aussi compte tenu des objectifs pédagogiques qui se rapportent avant tout à un programme disciplinaire. Dans ce cas, la problématisation vient davantage de l’enseignant metteur en scène de l’activité, que des élèves. Le scénario participatif : production de données et contribution de la part des élèves Un scénario participatif (Figure 4) peut viser différents objectifs. Nous en avons observé deux. Le premier inscrit la mise en activité des élèves dans la culture du libre sur internet avec pour intention pédagogique de faire découvrir et participer les élèves à une démarche collaborative open source. Le second inscrit la mise en activité des élèves sur un plan de participation à la politique locale à travers la collecte de données dans leur environnement proche pour produire des informations directement utiles à la communauté. Pour le premier objectif nous décrivons l’exemple d’une enseignante du primaire ayant développé un projet de type cartographique, de contribution de données sur une carte collaborative en ligne (ex : Umap d’Openstreetmap, Framacarte, etc.). Elèves et enseignants peuvent ainsi travailler


©RevueCOSSI2018

30

sur un territoire, autour de l’établissement scolaire ou proche de chez eux, pour collecter les données nécessaires et pour pouvoir les mettre à disposition dans le format attendu sur le dispositif. Pour cette enseignante, il s’agit de permettre aux élèves de « construire leur propre

représentation de ce que peut être Internet, la culture contributive du réseau, la connaissance

comme bien commun élaboré collectivement ». L’intention pédagogique est ici clairement liée à des choix et à un engagement de l’enseignante pour la culture du partage, la culture du libre, qui privilégie l’ouverture des données en tant que communs de la connaissance. La création et la mise en forme des données par les élèves permet ici d’éviter les difficultés liées aux formats et aux contenus des jeux de données existants sur les plateformes. Cette approche permet ainsi de comprendre comment se collectent et se produisent les données et facilite le processus d’interprétation puisque les données sont collectées dans leur contexte pour répondre à un besoin d’information. La recontextualisation des données n’est donc pas ici une problématique dans l’activité pédagogique. Celle-ci est par ailleurs modélisée par le dispositif en ligne qui implique de collecter des données de types et de formats précis, par exemple sur la géolocalisation, le type d’objets relevés, etc. Pour le second objectif, nous prenons l’exemple d’un enseignant de sciences économiques et sociales qui définit un cadre pédagogique en laissant le choix aux élèves de déterminer la nature des données qui les intéressent pour participer à la vie de leur établissement et être force de proposition (proposition d’aménagements des temps scolaires pour réduire les temps d’attente à la cantine ou pour fluidifier les entrées et sorties dans l’établissement). Pour lui, le choix repose sur des apprentissages liés à la compréhension du processus par la production des données. L’enseignant guide les élèves qui identifient les données dont ils ont besoin pour répondre à une ou plusieurs questions et les recherchent sur des plateformes ou les collectent eux-mêmes. Il s’agit d’aller recueillir des données au sein de leur établissement scolaire et de les organiser pour les analyser. Dans ce contexte, les enseignants choisissent de travailler les compétences d’investigation et de collecte des données avec les élèves. Comme l’indique cet enseignant, «produire de l’information chiffrée locale qui n’existe pas pour montrer l’impact que cela peut avoir

sur les décisions locales» est un objectif pédagogique. Produire des données qui n’existent pas suppose de faire un travail de relevés et de mesures, qui peut parfois être long et fastidieux tout particulièrement dans le temps pédagogique imparti. La séquence pédagogique est donc plutôt envisagée sur le mode de projet. Elle aboutira à la création d’une information visuelle et à sa communication auprès de l’établissement qui viendra appuyer les propositions concrètes des élèves. La pédagogie active visant l’apprentissage par projet amène les élèves à fixer leur objectif : celui d’apporter des réponses et propositions concrètes par rapport à ce qui a été observé.


©RevueCOSSI2018

31

Figure 4 : Le scénario participatif

On est ici pleinement dans une dimension horizontale du « faire apprendre » par l’activité, ainsi qu’une dimension organisatrice centrée sur les interactions soutenues par l’enseignant qui attend un résultat précis et accompagne les élèves pour atteindre cet objectif. Les élèves doivent rechercher des données existantes ou les produire pour répondre aux questions qu’ils posent. Une fois les données recueillies, ils devront retravailler les données initiales pour créer une information et mettre en scène des connaissances afin de répondre précisément à la question posée par l'enseignant.

Le scénario d’autonomisation : usage critique et construction collective du sens sur le mode de projet Dans le scénario d’autonomisation (Figure 5), les élèves choisissent un jeu de données ouvertes disponible sur une plateforme d’open data et apprennent avec l’enseignant à « faire parler » les données. L’objectif est alors d’apprendre aux élèves à manipuler les données, pour en comprendre le sens et à construire une problématique autour. Comme l’explique un enseignant de technologie, il s’agit de « traiter des données de la vie réelle, d’être producteur d’informations

et de pouvoir communiquer avec ces informations ». Ce travail mené par des enseignants notamment en technologie ou en mathématiques en collège dans une perspective d'Éducation aux Médias et à l’Information, consiste à comprendre l’usage qui peut être fait des données réelles découvertes dans les jeux de données existants sur les plateformes d’open data. La démarche proposée aux élèves est de problématiser et de construire des hypothèses pour les infirmer ou les confirmer à partir d’un jeu de données sélectionné. Il peut également arriver que les élèves formulent des questions qui appellent d’autres données que celles qui sont disponibles. Ainsi, lorsque le jeu de données qui les intéresse n’est pas accessible, les enseignants accompagnent les élèves pour en faire la demande auprès des organismes concernés. Cette démarche associe connaissances et compétences aux questions de citoyenneté pour identifier le bon interlocuteur et formuler sa demande. Quand le jeu de données est obtenu, l’utilisation d’un tableur puis d’outils de visualisation de données permettent aux élèves de leur donner une forme et de communiquer


©RevueCOSSI2018

32

le message souhaité. Les élèves produisent ainsi des infographies ou peuvent aller jusqu’au développement web d’applications au niveau du BTS.

Figure 5 : Le scénario d’autonomisation

Ce scénario s’inscrit ici clairement dans un modèle horizontal et transversal à travers un projet impliquant le développement de compétences, la collaboration et visant l’autonomisation des élèves par la mise en œuvre de leur propre projet. La dimension collaborative, associée au projet et assortie de démarches d’accompagnement est aussi présente. Les enseignants interviennent surtout pour soulever des questions qui se posent pour pouvoir interpréter les données et s’intéressent pour l’évaluation aussi bien au processus mis en œuvre qu’à la production des élèves. Dans tous les scénarios pédagogiques, la production finale d’informations se fait sous forme de visualisation. L’analyse fait apparaître également que les méthodes de production des données sont parfois abordées, mais que, dans l’ensemble, l’accent est mis davantage sur l’exploitation des données (ce qu’on en fait), plutôt que sur la recherche d’information et de précision assurant la fiabilité de l’interprétation (ce qu’elles permettent de savoir réellement), par exemple à l’aide de métadonnées ou de recherches sur le contexte de production des données. Développer la capacité des élèves à avoir une lecture critique de la production des données est pourtant un objectif pédagogique transversal visé dans l’enseignement, et l'Éducation aux Médias et à l’Information en est le fil conducteur. L’engouement et l’attrait de la datavisualisation des données chez les élèves, peuvent parfois prendre le dessus sur cet objectif. Cependant, on voit bien qu’« il s’agit moins de s’attacher à la mise en données (datafication) du monde par la raison informatique qu’à la mise en expériences du monde par le design numérique.» (Vial, 2015). Ainsi, l’approche « thick data » est clairement plébiscitée pour apprendre à utiliser les données ouvertes.


©RevueCOSSI2018

33

DISCUSSION : LES CONDITIONS DE CONSTRUCTION D’UNE CULTURE AUTOUR DES DONNEES OUVERTES L’utilisation pédagogique des données repose sur des scénarios établis par les enseignants en appui sur leur propre culture des données. Cette culture peut être plus fortement influencée par une culture disciplinaire (lorsqu’il s’agit en priorité de répondre à des objectifs curriculaires) ; numérique (liée aux enjeux du partage des ressources et de l’open source) ; citoyenne (liée à l’accompagnement des élèves dans des initiatives participatives au sein d’une communauté) ; technique (lorsqu’il s’agit de permettre aux élèves de s’autonomiser dans leurs usages des objets et outils numériques). Les modèles de design et de scénarios de l’activité pédagogique construits par les enseignants mettent en évidence les étapes de travail nécessaires pour sélectionner, transformer, transposer les ressources sociétales (les jeux de données mis à disposition) en ressources pour apprendre. Nous identifions donc plusieurs obstacles dans l’usage des données ouvertes telles qu’elles sont aujourd’hui accessibles sur les plateformes. En effet, très peu d’enseignants s’engagent véritablement dans la mise en activité des élèves à partir de jeux de données directement issus des plateformes d’accès. Les enseignants choisissent plus souvent la construction de données avec les élèves plutôt que la réutilisation de données préexistantes. La dimension « thick data » qui permet d’interpréter et de comprendre reste difficilement accessible pour les élèves mais aussi pour les enseignants. Ainsi, pour développer l’acculturation aux données, il apparaît essentiel de faciliter l’accessibilité grâce à des ressources de médiation, voire de formation. Une possibilité serait de mettre en place un travail avec des documentalistes permettant d’indexer les données, notamment à l’aide de métadonnées, afin d’en faciliter la lecture et l’intelligibilité par des personnes extérieures à leur contexte de production d’origine. La documentarisation, entendue comme « le travail consistant à équiper un support pérenne des attributs qui faciliteront sa circulation dans l’espace, le temps et les communautés d’interprétation » (Zacklad, 2007 : 23), ainsi qu’une redocumentarisation (Salaün, 2007), nous paraissent être des étapes clés dans le processus de production des jeux de données ouvertes. La mise en forme des données ouvertes (leur design) gagnerait donc à être pensée avec les acteurs de l’éducation et les documentalistes, acteurs incontournables des médiations liées aux nouveaux objets numériques. BIBLIOGRAPHIE Ackoff, R.L. (1989). From Data to Wisdom. Journal of Applies Systems Analysis, 16, 3–9. Boyd, D., & Crawford, K. (2012). Critical questions for big data: Provocations for a cultural, technological, and scholarly phenomenon. Information, communication & society, 15(5). 662-679. Cardon, D. (2012). Regarder les données. Multitudes, 2(49), 138-142. Repéré à : http://www.cairn.info.docelec.u-bordeaux.fr/revue-multitudes-2012-2-page-138.htm Cardon, D. (2012). A quoi rêvent les algorithmes : Nos vies à l’heure des big data. Paris : Seuil. Gurstein, M. B. (2011). Open data: Empowering the empowered or effective data use for everyone?. First Monday, 16(2). Hess, C., Ostrom, E., (dir.) (2007). Understanding Knowledge as a Commons : From Theory to

Practice. Cambridge: The MIT Press.


©RevueCOSSI2018

34

Hine, C. (2015). Ethnography for the Internet. Embedded, Embodied and Everyday, London: Bloomsbury. Morandi, F. ( 2006). Introduction à la pédagogie. Paris : Armand Colin. Morandi, F. (2006a). Modèles et méthodes en pédagogie. Paris : Nathan. Paquette, G. (2002). Apprentissage sur Internet : des plateformes aux portails d’objets à base de connaissance. In S. Pierre (Eds.), Innovations et tendances en technologies de formation et

d’apprentissage. Presses de l’école polytechnique de Montréal, 1-30. Paquette, G., Bourdeau, J., Basque, J., Leonard, M., Henri, F., & Maina, M., (2003). Construction d'une base de connaissances et d'une banque de ressources pour le domaine du téléapprentissage. Sciences et Techniques Éducatives, 10. Rézeau, J. (2002). Médiation, médiatisation et instruments d’enseignement : du triangle au « carré pédagogique ». ASp, 35-36, 183-200. Rouvroy, A. (2014). Des données sans personne : le fétichisme de la donnée à caractère personnel à l'épreuve de l'idéologie des Big Data. In J. Richard & L. Cytermann (dir.) Etude

annuelle du Conseil d'Etat "Le numérique et les droits fondamentaux". La documentation française. Salaün, J.M. (2007). La redocumentarisation, un défi pour les sciences de l’information. Études

de communication, 30, Repéré à : http://edc.revues.org/428 Vial, S. (2014). De la spécificité du projet en design : une démonstration. Communication et

organisation, n° 46, 17-32. Wenger, E. (1998). Communities of practice: learning, meaning and identity. New York: Cambridge University Press. Zacklad, M. (2007). Une théorisation communicationnelle et documentaire des TIC, In Brossaud, C. et Rebert, B. (dirs) Humanités numérique 2, Socio-informatique et démocratie cognitive. Paris : Hermès Science Publications, 20-35.


©RevueCOSSI2018

35

Les PME croient-elles aux données massives (big data) ?

Christian MARCON Laboratoire CEREGE (Centre de Recherche en Gestion) – EA 1722

Institut d'Administration des Entreprises Université de Poitiers

[email protected] Résumé : A l’heure de l’emballement des discours sur les big data, annoncées comme quasi miraculeuses, les entreprises devraient faire preuve de réserve pour être régulièrement confrontées à des modes managériales annonciatrices de lendemains rentables, à l’image de du knowledge management dans les années 2000, dont les performances réelles appellent circonspection. Les petites entreprises françaises sont particulièrement exposées à ce phénomène. Sous le feu des messages commerciaux et d’un discours ambiant, elles s’interrogent sans doute, sans que l’on dispose d’une véritable étude de leur compréhension de la notion de big data, de leurs discours sur le sujet, des pratiques qu’elles ont engagées, de leurs choix, leurs attentes, la manière dont elles envisagent de mesurer le retour sur investissement si elles ont choisi de s’y engager Cet article propose les résultats d’une étude qualitative menée auprès d’un groupe de 23 petites entreprises, avec analyse des verbatim et discussion des résultats. L’étude montre l’émergence d’une nouvelle prophétie auto-réalisatrice autour des big data. Mots-clés : big data, PME, discours, prophétie autoréalisatrice Summary : Even if the use of big data is announced as almost miraculous, firms would be well inspired to be careful, considering the fact that they have been regularly confronted with managerial waves that foreshadow profitable tomorrows, such as knowledge management in 2000, whose actual performance calls for circumspection. French small companies are particularly exposed to this phenomenon. Overwhelmed by commercial messages and an ambient discourse, they doubtless question themselves. But we miss a real study of their understanding of the notion of big data, of their discourses on the subject, the practices they have developped, theirs expectations and their way to o measure the return on investment if they have chosen to engage in a big data strategy. This article presents the results of a qualitative study conducted with a group of 23 small companies, with analysis of the verbatim and discussion of the results. The study shows the emergence of a new self-fulfilling prophecy around big data. Key-words: big data, small and medium size firms, self-fulfilling prophecy INTRODUCTION


©RevueCOSSI2018

36

La place désormais massive des discours consacrés au big data dans l’univers des entreprises et de leurs médias professionnels donne le sentiment que le monde du management connaît nouvel un emballement, à l’imitation de ce qui se passa au début des années 2000 avec le knowledge management (KM) appelé, disait-on, à transformer radicalement les organisations. Il fallut quelques années avant que l’on admette que le KM, confronté à un management qui n’entendait pas se départir sans résistance de son pouvoir hiérarchique, n’était finalement ni aussi simple, ni aussi rapidement performant qu’on l’avait annoncé et que le recours aux technologies n’en garantissait pas le succès (Frost, 2014). Les mises-en-garde précoces (McDermott, 1999 ; Wilson, 2002) n’y avaient rien fait. Que disent les professionnels et les revues pro-business ? Que les données massives, parfois présentées comme des informations massives sans qu’aucune distinction ne soit faite entre donnée et information, peuvent se transformer en « or compétitif » pour peu que l’on développe de nouvelles habiletés pour les traiter et un nouveau style de management adapté : « Businesses

are collecting more data than they know what to do with. To turn this into competitive gold, they’ll

need new skills and a new management style” (McAfee & Brynjolfsson, 2012, p. 59). En arrière-plan, le postulat de Deming et Drucker que ce qui ne se mesure pas ne se manage pas, posture quantitativiste classique dans le domaine des sciences de gestion. En France, le décalage considérable entre l’abondance des sources professionnelles qui prônent le recours aux données massives, présentées comme « l’arme fatale » de la performance concurrentielle et le faible nombre d’articles de recherche confortant cette assertion est frappant. En témoigne une analyse opérée sur la base d’articles Cairn7 et plus largement sur www.scholargoogle.fr. Ce dernier moteur de recherche répertorie environ 200 textes qui montrent des tentatives pour appréhender l’impact possible des données massives sur une multitude de secteurs (alimentation, santé, biologie, tourisme, transport, formation, traduction bibliothèque…), les doutes éthiques et anthropologiques des penseurs, les questionnements des chercheurs quant à l’impact que le big data peut avoir sur leurs sciences. Certes, il est commun que les recherches consacrées à la mesure des résultats réels soient publiées avec un décalage temporel par rapport à la mise en œuvre des pratiques observées. Pour reprendre le cas du KM, celui-ci a émergé au début des années 1990 (Veybel & Prieur, 2003), commencé à rencontrer un véritable succès dans les entreprises au milieu de cette même décennie et suscité vers la fin des années 90 une abondance de publications scientifiques relatives aux succès et insuccès du procédé. Nous ne sommes donc pas surpris du questionnement porté aujourd’hui sur le big data par les chercheurs et du manque de mesure du retour sur investissement. Mais nous appréhendons les dégâts qu’un enthousiasme irraisonné pourrait causer à notre société en général et, dans le cas particulier de cette communication, aux petits entrepreneurs. L’étude dont nous présentons les résultats dans cet article a pour objectif d’explorer, sur le terrain, la manière dont les PME s’approprient le discours sur le big data et l’intègrent dans leurs pratiques. Nous situons notre questionnement dans une réflexion sur les prophéties auto-réalisatrices (1), présentons ensuite la méthode de recherche mise en œuvre (2) et donnons et interprétons les résultats obtenus en matière de réception du discours sur le big data (3) et de pratiques (4) dans un échantillon de petites entreprises.

7 Recherches réalisées le 20 janvier 2017


©RevueCOSSI2018

37

LES PETITES ET MOYENNES ENTREPRISES FACE AU DILEMME D’UNE PROPHETIE AUTO-REALISATRICE Robert K. Merton a conceptualisé à la fin des années 1940 le mécanisme de la prophétie auto-réalisatrice (self-fulfilling prophecy) : une croyance a d’autant plus de chances de voir ses conséquences annoncées se réaliser que les gens y croient. La question de départ de cet article est la suivante : les PME croient-elles que le big data est leur avenir ? Si tel est le cas, elles vont massivement adhérer à la démarche, adopter ses outils, adapter leurs pratiques et, dans quelques années, il aura été démontré que le big data était effectivement l’avenir des PME puisqu’elles se le sont approprié… S’il est un secteur qui croit fermement à la pertinence du big data pour les PME, c’est celui des prestataires de services. Une recherche effectuée en associant big data et PME fait ressortir une multitude de sites attelés à expliquer que le big data n’est pas réservé aux grandes entreprises. L’argument central qui soutient ces discours, une fois avancées les promesses de gains de performance, est l’existence d’outils d’analyse « tout à fait accessibles ». Ainsi, la CCI de Paris : « Le Big Data n’est pas seulement réservé aux grandes entreprises qui auraient les moyens

financiers de l’exploiter. S’il demande certaines capacités de stockage et de traitement de

données, les coûts ne sont pas exorbitants : de nombreux services efficaces et fiables existent

[…] pour un moindre coût. »8 Si les dirigeants de PME se fient à ces sirènes commerciales, ils se tourneront vers les outils du big data et la prophétie se réalisera. L’étude menée par Lazarfeld à l’occasion de la campagne américaine de 1940 avait montré que les électeurs les moins informés et les plus indécis étaient les plus susceptibles d’être influencés par les médias (Miège, 2004, p. 7). Il est donc envisageable, par un mécanisme similaire, que des dirigeants de TPE de province, n’ayant pas de compétences particulières dans le numérique et dans les domaines que l’on peut associer au big data, soient particulièrement réceptifs aux discours commerciaux, largement repris dans les médias professionnels, économiques voire assez grand public et croient aux vertus de l’exploitation massive des données. Car ce n’est pas actuellement les publications scientifiques qui peuvent les en dissuader, ni qui peuvent simplement offrir un autre angle de réflexion. Une nouvelle recherche opérée sur Cairn avec la même association de mots clés ne remonte que 43 articles dont aucun, en réalité, n’associe les deux occurrences. Il nous semble donc qu’en France aucun travail n’est paru à ce jour qui étudie l’introduction des pratiques de big data dans les PME. Aucun résultat de performance, ni même aucune étude de la réception du discours par les dirigeants ou les cadres des PME9. Ceux-ci sont fortement absents des études parues. Cependant, pour situer notre travail, sans doute devons-nous faire référence à l’étude réalisée par Harris Interactive auprès de 1500 Français en 201610. Celle-ci, notamment, indique que :

- 87 % des Français se disent mal informés sur le big data ; - 59 % ne savent pas ce que signifie l’expression ; - 6 sur 10 doutent de la capacité des entreprises à faire un usage « raisonnable et

responsable » des données collectées et 81 % estiment que la big data sera à l’origine d’un fichage des habitants.

8 http://www.cci-paris-idf.fr/informations-territoriales/ile-de-france/actualites/big-data-une-opportunite-pour-les-tpe-et-pme-ile-de-france 9 Quant à penser que des travaux scientifiques publiés aux Etats-Unis ou, plus généralement en langue anglaise, pourraient avoir une quelconque influence sur la réflexion des dirigeants de PME françaises, il s’agit, nous semble-t-il, d’une chimère. 10 http://harris-interactive.fr/opinion_polls/big-data-quen-pensent-les-francais/


©RevueCOSSI2018

38

- 78 % pensent que le recours aux données massives va s’accroitre. EPISTEMOLOGIE DESCRIPTIVE

Considérant le manque d’informations évoqué ci-dessus, nous avons choisi de mener une étude destinée à comprendre les perceptions et pratiques des PME en matière de big data. En termes d’épistémologie descriptive, l’étude a pris la forme d’une étude par interviews individuelles semi-qualitatives, réalisées par des étudiants de master 2 formés à la recherche qualitative11, avec analyse des verbatim rassemblés et discussion des résultats. 23 salariés de petites entreprises ou organisations françaises implantées hors région Ile-de-France, ont été interrogés12. Aucune des entreprises n’était prestataire en services de type big data. Le verbatim de ces entretiens représente 86 pages au total. 28 pages en ont été extraites et analysées, en raison de leur rapport direct avec les questions posées. Agences de communication Assurance Commerce Salle de sport Etude notariale Laboratoire pharmaceutique Installation de génie climatique

Structure d’assurance maladie

Société d’équipement de bureau

Commerce de vêtements en ligne

Créateur de plusieurs entreprises

Bureau d’étude spécialisé dans les matériaux

Agence de développement économique

Agence de formation scolaire Acadomia

Producteur de polymères

Centre de danse Agent Immobilier Centre de danse

Tableau .1 Secteurs d’activité des entreprises ayant été incluses dans l’étude

A cet échantillon d’entreprises ont été posées des questions visant à comprendre la manière dont elles appréhendent la notion de big data, le discours sur le sujet, les pratiques qu’elles peuvent avoir engagées, leurs choix, leurs attentes, la manière dont elles envisagent de mesurer le retour sur investissement si elles ont choisi de s’y engager. Les questions posées, avec des formulations adaptées pour tenir compte de la dynamique de chaque entretien, sont présentées en annexe 1. LA RECEPTION DU DISCOURS SUR LE BIG DATA 13 Data et big data : une compréhension très approximative

11 Le groupe se constituait de 14 étudiants ayant choisi de suivre un enseignement d’introduction à la recherche en sciences de l’information et la communication. 12 Pour mémoire, selon l’INSEE, 96,8 % des entreprises françaises sont des TPE (Très Petites Entreprises – chiffres 2012). 13 D’une manière générale, nous faisons le choix de citer simplement entre guillemets les extraits de verbatim lorsqu’ils ne dépassent pas cinq occurrences et que ces occurrences nous semblent représenter de manière suffisamment solide la globalité des avis exprimés. Quand nous semble souhaitable pour le lecteur d’avoir accès à un plus grand nombre de réponses données par les personnes interrogées, ces réponses sont regroupées dans un tableau, qu’elles soient présentées in extenso, ou de manière partielle. La totalité du verbatim est mise à disposition des chercheurs, dans sa forme brute, sur notre blog : http://blogs.univ-poitiers.fr/c-marcon/


©RevueCOSSI2018

39

Marc Vanhuele (2017, p.29) rappelle que les big data ont trois utilités principales : « révolutionner la gestion de la relation avec le client » (CRM), « améliorer les processus opérationnels » (suivi d’une flotte de camions ou d’objets, usine 4.0) et constituer la base « de nouveaux modèles de création de valeur » (santé, assurance…). Globalement, les personnes interrogées ont une bonne appréhension du terme data, qu’elles associent à la donnée. En revanche, la compréhension de la notion de big data est beaucoup moins assurée et assez éloignée des utilités indiquées par Vanhuele. La plupart des personnes interrogées voient perçoivent les big data comme une méga base de données. Quatre réponses seulement évoquent l’exploitation des données : extraction, compilation, traitement et analyse. Aucune personne n’évoque l’idée d’un traitement statistique des données – traitement statistique qui se trouve pourtant au centre de la démarche. Des acteurs mal informés qui n’appréhendent pas les usages La faible compréhension des big data s’explique principalement par le manque d’information des interviewés. 11 personnes sur 18 – ce qui nous semble considérable, reconnaissent ne pas ou peu s’informer. Le verbatim est, sur ce point, éloquent : « Tu es la première personne qui m’en parle » ou « J’en entend parler mais je ne m’informe pas spécialement. ». Prégnance des urgences quotidiennes ? Manque d’intérêt ? Difficile de répondre. Ceux qui ont entendu parler du sujet évoquent des médias généralistes comme la télévision ou l’occasion d’une recherche sur le web. Sur ce point, les interrogés ne s’avèrent pas mieux informés que les Français moyens.

1. Je ne m’informe pas à ce sujet mais j’en entend parler de temps en temps. 2. Après je m’y intéresse beaucoup plus depuis que nous en avons parlé avec l’asso. Je

regarde beaucoup de reportages à la télévision, j’ai eu l’occasion de regarder un reportage sur le big data justement,

3. Je vois beaucoup d’information autour de ces sujets-là. Par contre nous, aujourd’hui, on n’a pas d’outils. Ça nous semble hors de portée de pouvoir faire des analyses et exploiter ces sources d’informations, à notre échelle.

4. T’es la première personne qui m’en parle ! 5. […] Ce n’est pas un sujet qui m’a passionné, je ne me suis pas plongée dedans en gros 6. Oh, bah, je ne connaissais pas vraiment, donc j’ai tapé « big data » sur Internet. [Avant de

faire tes recherches, est-ce que tu avais une vague idée de ce que pouvait être le big data ?] (Rires) Tu vois je pensais peut-être à de la bouffe... Non plus sérieusement, je savais que ça avait peut-être un rapport avec l’informatique.

7. La télévision principalement 8. Je m’informe sans plus. Je surveille vite fait les grandes actualités mais ça ne fait pas partie

de ma veille quotidienne. 9. J’entends essentiellement parler du Big Data grâce à internet, la presse spécialisée, et mes

partenaires hébergeurs 10. Pas beaucoup d'informations sur le sujet. 11. Principalement le Web. Je ne vois que le Web. Ça, et peut-être des personnes spécialisées

dans l’informatique. 12. Pendant une période, je me suis assez documenté sur les neurosciences, les technologies

NBIC, l’intelligence artificiel […]. Tout ce qui tourne autour de Laurent Alexandre, le séquençage AND. C’est par cette vois que j’ai pris connaissance du terme big data.

13. Je ne m’informe pas du tout sur le sujet. 14. J’en entends parler mais je ne m’informe pas spécialement sur le sujet. 15. Je n’ai pas de source d’information. Je n’en ai pas cherché non plus. Ce n’est pas quelque

chose de très concret, 16. Je n’ai pas de sources d’information sur le Big Data. Je ne vois pas à quoi ça peut faire


©RevueCOSSI2018

40

référence. […] Le Big Data j’en ai déjà entendu parler, juste le mot et la notion mais je n’ai jamais eu besoin d’accéder à ces informations. Du moins, je ne me suis jamais posé la question de dire « comment je vais y accéder parce que j’en ai besoin. » Je l’associe plus aux informations liées à la consommation.

17. Je me suis intéressé il y a quelques temps à tout ce qui relève de la sécurité informatique. C’est surtout par ce biais là que j’ai entendu parler de Big Data. Mais plutôt indirectement du coup. Sinon, c’est quand même un sujet de société.

18. J'en entends parler un peu mais, comme ça ne m'intéresse pas vraiment. J'y fais pas attention en fait, tu vois ?

Tableau 2 Modes d'information sur le big data (Réponses in extenso)

Il apparaît que les personnes interrogées ont une vision très hétérogène, pour ne pas dire hétéroclite, de l’utilité des big data. Celles-ci sont assimilées principalement à l’une des utilités du big date,la CRM (Consumer relationship Management) : clients actuels, clients potentiels, fidélisation des clients… Certains associent le big data à la publicité, aux bannières publicitaires, au marketing, voire au stockage de données, à la sécurité, à l’espionnage… Un seul interrogé donne une approche plus fine en disant qu’il s’agit de « réaliser des analyses prédictives sur les comportements des publics cibles ». Un positionnement dans l’entreprise logiquement mal appréhendé. Sans surprise, l’appréhension très floue de ce que sont les big data conduit les interrogés à hésiter sur l’attribution de la responsabilité de leur mise en œuvre dans l’organisation. Dans la TPE (Très Petite Entreprise), la responsabilité incombe au dirigeant, « évidemment ». Comment pourrait-il en être autrement ? Par contre, dès que l’interrogé fait partie d’une entreprise de petite taille mais néanmoins déjà structurée, l’affectation de la responsabilité devient variable. Un tiers des interrogés (8 sur 23) suggère de confier au service informatique la responsabilité du sujet, ce qui semble assez logique étant donné le caractère globalement perçu de « base de données ». Quatre suggèrent le service marketing. Trois personnes recommandent la création d’un « service dédié » sous la responsabilité d’un « responsable du big data ». Deux considèrent que le domaine relève de la veille ou de l’intelligence économique, avec le support d’un personnel chargé d’analyses prospectives et stratégiques. Pour le reste, d’aucuns évoque le service ressources humaines, ou le service financier. Au final, si les big data relèvent de spécialistes actuellement recherchés sous le vocable de « data

scientists », aucune des personnes interrogées ne semble le savoir. Malgré une piètre connaissance, la conviction que le big data est une opportunité D’une manière qui pourrait être étonnante, mais que l’abondance d’un discours ambiant même très vaguement compris nous semble expliquer, les personnes interviewées, qui ne savent pas finalement ce qu’est le big data, sont largement convaincues qu’il s’agit là d’une opportunité. Sur les vingt avis exprimés, neuf sont catégoriques, ce que résume l’extrait d’entretien suivant assez définitif et lapidaire : « forcément une source d’opportunités ». Huit autres avis voient dans le big

data à la fois une source d’opportunités et de risques. 17 personnes sur 20 ont donc une projection très positive ou plutôt positive sur l’apport du big data.

1. Une opportunité, évidemment. C’est plus pratique, surtout pour nous.


©RevueCOSSI2018

41

2. Pour moi source d’opportunités. Ça nous permet d’avoir une meilleure visibilité sur nos clients potentiels. Après ça peut être risqué d’y consacrer trop de temps et de ne pas utiliser les bases de données.

3. Ça peut être les deux, un risque et bénéfique parce que c’est d’ouvrir comme ça ses flux de données directement sur un cloud, un nuage ou tout ça c’est embêtant parce que c’est quand même ouvert

4. C’est les deux. C’est une opportunité pour ceux qui vont pouvoir faire du traitement sur des données massives et c’est un risque pour ceux qui ne le feront pas, en fait parce que c’est une arme en fait qui va être différenciante, qui l’est déjà et qui le sera de plus en plus dans les années à venir.

5. C’est à la fois l'un et l’autre. (...) du gain en temps pour le travail et l'analyse et du risque en termes de sécurité et de dépersonnalisation du service

6. Moi j’ai plutôt tendance à dire que c’est une opportunité. […] Dès qu’on apporte du changement, on a peur. […]

7. J’imagine que c’est très pratique et par moment, ces bases de données, si ça concerne chaque individu, ça me parait aussi un peu dangereux. […]

8. Ça ne peut pas être un risque. 9. Le Big Data serait pour mon entreprise une réelle opportunité.� 10. Le Big Data est à la fois une source de risques et d'opportunités. […] 11. Pour cibler la publicité ça peut être intéressant. Je ne vois pas forcément d’inconvénient, vu

que l’entrepreneur est là pour faire de l’argent. 12. C’est forcément une source d’opportunité car tu peux avoir plein de nouvelles informations, et

des données que tu n’as pas. Mais après ça peut avoir un risque de se fier uniquement à celles-ci. […]

13. Pour une activité, c’est une opportunité de business, après je ne connais pas toutes les utilisations qu’on peut en faire.

14. Le traitement automatique des données est toujours un risque parce que l’automatisme est basé sur un certain nombre d’éléments d’algorithme qui vont permettre de sélectionner les données. […]�

15. Les deux. Risque dans le sens où ça peut être mal exploité, mais c’est toujours plus d’informations […] donc ça peut être une opportunité pour mieux comprendre et déceler de nouvelles opportunités, […] Ce n’est pas quelque chose qui me fait peur.

16. Je dirais un peu des deux. Les opportunités, c’est vraiment de mieux sentir la clientèle selon les endroits où on travaille en France. […] Le risque, après, c’est plus de comparer les différents employés des différents endroits, en ne travaillant que sur ces data là et pas sur les facteurs d’environnement […]. Donc il y a quand même aussi une grosse partie de risques.

17. Je ne dirai ni l'un ni l'autre, en fait. Je ne vois pas à quoi ça pourrait nous servir aujourd'hui 18. Les deux. Risque de rupture de confidentialité et donc plaintes au tribunal, si mauvaise

anonymisation ou croisement de données complémentaires. Opportunité de marchés par prédiction de nouvelles tendances de consommation.

19. Il s’agira d’opportunité quand la formation sera plus numérique et qu’il sera nécessaire de proposer à un nombre important d’apprenants des formations en e-learning.

20. C’est une opportunité parce que ça permet de retrouver bien plus facilement et dès qu’on le souhaite.

Tableau 3 L'opportunité du big data pour les entreprises interrogées (Extraits)

LES PRATIQUES DES PETITES ENTREPRISES


©RevueCOSSI2018

42

Un champ de pratiques fourre-tout ? La majorité des acteurs interrogés (14 sur 23), après avoir reconnu ne rien comprendre au sujet, confie que leur entreprise n’a pas recours à ce genre de pratique. C’est cohérent. La surprise vient plutôt des personnes qui disent que leur entreprise recourt au big data. L’on sent une hésitation, un doute dans les propos, comme le montrent ces extraits d’interviews :

« Je ne sais pas à partir de quand on dit big data mais je suppose que oui. » « On recueille des données, on les garde sur nos clients, ce qu’ils ont acheté, où ils habitent, etc. Maintenant on les exploite assez peu. » « Alors je ne sais pas si on peut appeler ça faire appel au big data mais nous avons un classeur Excel avec l’ensemble de nos adhérents. » « A partir de quand ça devient du big data ? C’est une notion qui m’échappe et est assez floue. On traite effectivement de la donnée. » « Je ne sais pas si on peut dire « Big » Data, mais on collecte de la donnée provenant de nos clients, oui et on s’en sert. Ce n’est pas à grande échelle parce que je ne sais pas si on peut dire que c’est à grande échelle pour les données de 400-500 clients. »

Les pratiques de collecte d’information sont très éparses. Elles vont de la collecte sur les plateformes de réseaux à la réalisation d’un fichier Excel… Le tout conforte l’impression de manque de maîtrise qui se dégage des étapes précédentes. En témoignent ces quelques citations

« Elles peuvent venir de n’importe où. Du client, du vendeur, d’une institution, d’une mairie… » « Pour trouver ces données nous utilisons notre réseau, LinkedIn, Google, Facebook ou encore twitter comme je te l’ai dit précédemment. Nous essayons de récolter un maximum d’informations comme les numéros de téléphone, adresse mail, nom, prénom, fonction ... » « Grâce à un classeur Excel lors de l’inscription des nouveaux adhérents à la salle de sport »

« Alors on en collecte par de la veille client, pour savoir quand ils commandent, leur comportement d’achat etc. On reçoit toutes ces informations lorsqu’ils viennent et commandent sur notre site et on essaie d’analyser ça. »

« Sur l’aspect recherche on utilise essentiellement les moteurs de recherche. Après nous avons besoin par exemple de données météorologiques on fait appel aux fournisseurs donc météo France, si c’est des données statistiques on va faire appel à l’INSEE » « Toutes nos données on les demande, soit par téléphone, soit sur des fiches, à nos clients. Et au fur à mesure, un client qui nous appelle avec un autre numéro de téléphone par exemple, nous allons le rentrer de nouveau et l’ajouter. Après on collecte aussi toutes


©RevueCOSSI2018

43

les relations qu’on a avec nos clients, pour que tout soit bien marqué, pour qu’un collègue qui reprend le dossier, qui reçoit un coup de fil, n’ait pas à tout redemander. »

Une évaluation du retour sur investissement délicate Si le big data était qualifié de source de « competitive gold » par McAfee et Brynjolfsson, ainsi que nous l’avons mentionné plus haut dans cet article, les interviewés de notre étude sont loin d’en être convaincus. Leur approche de l’apport en retour sur investissement navigue entre un scepticisme assumé, une logique de mesure de résultat assez simple et la conviction que le retour est difficilement mesurable mais « doit » se ressentir en termes de bénéfice stratégique pour la direction de l’entreprise. La sélection extraite du verbatim présentée ci-dessous illustre ces positions.

« Je ne vois pas comment évaluer un retour sur investissement dans notre cas. » « La numérisation permet un développement exponentiel de notre activité. Et le retour sur investissement est facile à évaluer. On compare le coup de l’achat de la donnée à la production réalisée, et voilà on sait. » « C’est toujours difficile à évaluer. […] Après il y a aussi un coût. Des outils peuvent être performants mais ils coutent cher. » « On n'a pas d’outils spécifiques pour ça, on va chercher la donnée et on la traite nous-mêmes, donc nous n’avons pas de réel investissement. […] C’est essentiellement au niveau de la direction de l’entreprise […] Pour la stratégie. »

Les entreprises beaucoup plus bénéficiaires que les consommateurs A la question : « Selon vous, à qui profite le big data aujourd’hui ? », les interviewés répondent : les grandes entreprises (9 réponses) ou les entreprise (7 réponses). Très peu ont une réponse plus inclusive (« tout le monde », 3 réponses). Surtout, nombreux sont ceux qui estiment que les entreprises seront beaucoup plus bénéficiaires que les consommateurs et que big data pose des problèmes de sécurité des données : 13 personnes y décèlent un risque de sécurité ; 4 perçoivent un problème de sécurité mais estiment que « naturellement » les dispositifs sont sécurisés ; 6 seulement ne voient aucun problème de sécurité. Les professionnels répondent là comme les citoyens interrogés par Harris Interactive.


©RevueCOSSI2018

44

1. Pour moi ce sont les grandes entreprises. Pour eux c’est une ressource indispensable dans leur stratégie. Nous le faisons vraiment à une petite échelle nous.

2. C’est quand même les grandes entreprises, le secteur technologique. On parlait tout à l’heure des activités annexes d’intelligence artificielle, tous les algorithmes de deep

learning, qui n’ont que de sens et de valeur par la quantité de données qu’on est capable d’injecter. Ces données là il y a peu d’acteurs qui les ont […]

3. Toujours les mêmes j’imagine. […] Ça va être les Google et Amazon et compagnie. 4. Oui des grosses entreprises qui commercialisent leur produit via les connaissances qu’ils

ont des autres. 5. Principalement les grandes entreprises pour moi, des grosses boîtes comme Carrefour

doivent collecter un nombre impressionnant de données sur nous je suppose. 6. Clairement à l’entreprise. Je ne suis pas sûr que le consommateur sache ce que c’est. Les

entreprises qui ont le temps de passer à la moulinette une multitude d’informations peuvent avoir une meilleure compréhension du monde.

7. Essentiellement aux très grandes entreprises. 8. Le Big Data profite aujourd’hui aux entreprises et à l'Etat au dépend des consommateurs 9. Pour moi, cela profite d’autant plus aux états et aux entreprises. Aux états pour la

surveillance […] Et pour les entreprises c’est le côté économique qui gagne, amenant la consommation de masse, la fidélisation grâce aux publicités ciblées.

10. Aux GAFA, principalement les américains avec la Silicon Valley. […] 11. Pour moi le Big Data profite plus aux entreprises commerciales. Ça sert vraiment par

rapport au commerce pour pouvoir cibler les gens. 12. Google, Facebook et autres multinationales d'internet. 13. Surtout aux grands groupes qui travaillent en B to C. 14. Les entreprises structurées. Plutôt les grosses et les moyennes entreprises. Parce qu’il y a

quand même un coût et un temps de traitement qui est important.

Tableau 4 A qui profite le big data ? (Extraits)


©RevueCOSSI2018

45

1. Bien sûr. On peut se les faire voler ou les perdre. […] Au final, il y a toujours un risque quelque part quand on traite de la donnée sensible et importante.

2. Oui je pense. Quand on voit qu’une entreprise partenaire nous a donné très facilement sa base de données on peut s’inquiéter de la monétarisation du big data.

3. Dans n’importe quel sens, toute donnée doit être protégé, par exemple jamais je ne laisserai un fichier avec les adresses des clients à la vue de tous. Chaque donnée doit être sécurisée.

4. Je pense que oui. Mais aujourd’hui je ne pense pas qu’on soit en mesure de se battre contre ça.

5. Mais oui c’est quand même un peu dangereux. Surtout sur nos identités propres, […] 6. Oui 7. Bah oui, quand même. Je sais très bien que vos données comme les miennes sont

revendues un peu tout le temps. […] 8. Oui toujours, avec Yahoo qui a encore été piraté. Oui il a un danger, les numéros de

cartes bancaires des individués. […] 9. Après...qu’est-ce que tu peux avoir comme risque à part donner tes coordonnés

bancaires ? On dit toujours faut pas donner son adresse mail ? Ok, pourquoi ?! Ok ils vont l’utiliser, mais qu’ils les utilisent s’ils peuvent ! Si ça peut les aider à créer des trucs plus appropriés à chacun. Après je suis peut-être naïve. [...] N’importe où ils peuvent récupérer des données de toute façon. Le moindre truc que tu fais tu es enregistré.

10. Oui vraiment. Des entreprises privées qui collectent des données privées sur des privés c’est toujours dangereux. Mais c’est le jeu. Je suis un peu fataliste mais je ne vois pas comment on pourrait freiner ça.

11. Oui, si on a tout dans un même endroit. Oui, nécessairement si on est dépendant de quelqu’un ça pose un risque. �

12. Oh oui ! Le peu que j’ai pu regarder, à une époque où je m‘intéressais à la sécurité informatique, pour moi c’est une catastrophe de stocker tout ça.

13. Ah bah oui ! Mais nous ça on le sait depuis longtemps de toute façon qu'il n'y a pas de sécurité justement, vis à vis de nos propres données.

14. Oui important. Voir l'histoire des données anonymées des taxis new-yorkais croisées avec des articles de presse people qui ont permis de trouver les adresses de vedettes people.

15. Oui, bien sûr, car internet permet de « tracer » tout ce que nous faisons, toutes nos envies, cela pose un problème éthique.

Tableau 5 Avis exprimant des doutes relatifs à la sécurité des données (Extraits)

Ceci explique sans doute le fait que très majoritairement les répondants sont « à titre personnel » défavorables au big data (12 réponses) ou s’y disent favorables mais avec de solides réserves. Des limites multiples dans le recours au big data Interrogés sur les limites qu’ils perçoivent au recours au big data, les répondants hésitent quant à l’angle d’observation à adopter. Doivent-ils se situer en tant qu’entrepreneurs et envisager les limites techniques ou se placer en tant que citoyens et considérer les enjeux à ce niveau-là ? Les deux registres de discours sont très présents, comme dans les extraits ci-dessous.


©RevueCOSSI2018

46

1. C’est ce que je disais tout à l’heure, on est dépendant d’une machine dans laquelle on met toutes nos données confidentielles. Et puis c’est qu’un espace de stockage, rien de plus.

2. La sécurisation de la données et l'exploitation qu’on en fait de ces données c’est les limites car faut faire attention à l’intrusion dans la vie privée

3. On ne pourra jamais remplacer l’intuition qu’a un être humain. Ok, on peut sortir du chiffre et des tendances mais ça s’arrête là. L’intuition est plus performante que les chiffres. Le Big data n’est qu’un outil. Ce n’est pas lui qui fait l’analyse à votre place.

4. Les limites qui me paraissent évidentes son sa maitrise et son usage le plus éthique possible.�

5. Pour moi les limites sont physiques. Le stockage de données nécessite des ordinateurs et des serveurs très puissants avec des limites physiques. Une fois qu'ils seront mis au point et systématisés, les ordinateurs quantiques seront plus appropriés pour traiter du Big Data

6. Je dirais qu’il y a une question environnementale derrière ça. Ça demande beaucoup d’énergie ces trucs-là, non ? Il me semble que oui et que pour l’environnement ce n’est pas terrible. Mais sinon en limites je ne sais pas… Le fait que ça pousse à la consommation de masse que je trouve malsain… Mais c’est tout.

7. En fait c’est au consommateur, de faire attention. […] 8. Justement la diffusion de toutes ces données qui pourraient être revendues, recéder,

ou mal gérer. Enfin les limites du big data c’est vraiment liés à la sécurité. » 9. La qualité des données, ce n’est pas le nombre qui compte mais la manière dont on va

les collecter. […] 10. Pas de limite visible pour l'instant excepté la crainte des consommateurs

Tableau 6 Discours technique et discours citoyen sur les limites du big data (Extraits)

CONCLUSION Manifestement, l’échantillon interrogé de manière relativement approfondie au moyen d’une trame qualitative, ne fait pas preuve d’un grand enthousiasme à l’égard des big data. Il affiche une confiance très moyenne dans l’efficacité, l’accessibilité, la sécurité voire même la nécessité des big data pour les petites et moyennes entreprises. Rappelons toutefois que les entreprises de notre échantillon sont très largement de petites entreprises. Pour autant, quinze répondants sur les 23 se disent convaincus que le big data est promis à un bel avenir et va « exploser » dès les temps prochains. On note simplement un peu de questionnement sur l’après big data, pouvant signifier en creux le sentiment qu’il s’agit d’une mode qui passera. L’une des personnes s’interroge même sur son possible effondrement. A final, il ressort de notre étude que les big data se présentent comme un credence service paradoxal : des salariés, exerçant généralement des postes à responsabilité dans des petites entreprises, tout en doutant fortement de leur pertinence pour ce qui les concerne et en reconnaissant leur médiocre connaissance du sujet, affirment leur conviction que celles-ci vont connaître un très grand succès. Nous y percevons, une nouvelle fois, un phénomène de prophétie auto-réalisatrice généré par la répétition moutonnière, en particulier médiatique mais aussi des


©RevueCOSSI2018

47

instances professionnelles, d’un discours de gestion « prêt à penser »14 (Zerbib, 2013, 2017), sans prise de distance critique, bien construit par un secteur d’activité naissant, à la recherche du développement de son business. BIBLIOGRAPHIE Akhavan P., Mostafa J., Fathian M. (2005), Exploring Failure Factors onf Implementing Knowledge Management Systems in Organizations, Journal of Knwoledge ManagementPractice, vol. 6 Disponible en ligne : https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2188273 Cointot J-C & Eychenne Y. (2014) La révolution Big Data, Editions Dunod, 240 p. Frost A. (2014), A Synthesis of Knowledge Management Failure Factors, www.knowldege-management-tools.net , 21 p. Fossion G. & Faulx D. (2016) Comment la participation à une recherche contribue au développement professionnel : le cas des exemples à l’université, Recherches Qualitatives, Hors série n° 2, p. 221-236 McAfee A. & Brynjolfsson E. (2012) Big Data: The Management Revolution, Harvard

Business Review, october, p. 61-68 Mc Dermott, R. (1999) Why Information Technology Inspired But Cannot Deliver Knowledge Management, California Management Review, vol 41, n° 4, p. 103-117 Miège B. (2013) La pensée communicationnelle, Presses Universitaires de Grenoble, 126 p. Rouvroy A. (2014) Des donneés sans personne : le fétichisme de la donnée à caractère personnel à l’épreuve de l’idéologie des Big Data, Disponible en ligne : http://works.bepress.com/antoine e_rouvroy/55/ Vanhuele M., in Bouzeghoub M. & Mosser R. (dir) (2017) Les big data à découvert, CNRS Editions, 364p Veybel L. & Prieur P. (2003), Le knowledge management dans tous ses états, Editions Eyrolles, Paris, 129 p. Wilson T.D. (2002) The Nonsense of « Knowledge Management », Information

Research, n°8 n°1, octobre 2002. Disponible en ligne : http://www.iwp.jku.at/born/mpwfst/06/nonsenseofwm/p144.html Zerbib, R. (2013) Les modes en gestion : une arme de diffusion massive. Revue

Internationale d’intelligence économique, 5(2), p. 197-216. Zerbib R. (2017), La fabrique du prêt à penser. Mécanismes de diffusion et adoption

des outils de gestion, Editions L’Harmattan, 160 p.

14 Zerbib R., 2017, La fabrique du prêt à penser. Mécanismes de diffusion et adoption des outils de

gestion, Editions L’Harmattan, 160 p.


©RevueCOSSI2018

48

- - - - - - - - - - -

ANNEXE 1. Trame du questionnaire d’entretien utilisé pour l’étude 1. Je vous propose de commencer par quelques questions générales. Nous en viendrons après

à votre entreprise. ¡ Quand je vous dis "data", ça évoque quoi pour vous ? ¡ Et le big data, ça signifie quoi, selon vous ? ¡ Quelles sont, en général, vos sources d'information sur ce sujet ? Si non

connaissance du big data : est-ce que cela veut dire que vous n'en entendez jamais parler ?

¡ Et, toujours une manière générale, à quoi est réputé servir le big data ? ¡ Selon vous, qui prend/ qui devrait prendre en charge les questions de big data dans

une entreprise ? ¡ Dernière question générale, selon vous le big data est-il source de risques ou au

contraire d'opportunités pour votre activité ?

Venons-en maintenant à votre entreprise...

2. Votre entreprise fait elle appel aujourd'hui au big data ?

Si OUI : ¡ Comment collectez-vous les données ? ¡ Quelle exploitation en faites-vous ? Quel tri faites-vous dans les données ? ¡ Quelles sont les données que vous conservez ? ¡ Comment stockez-vous ces données ? ¡ Avez-vous mis en place un dispositif de sécurisation des données ? ¡ Actuellement, qu'est-ce que cela apporte à votre entreprise ? Arrivez-vous à évaluer

le retour sur investissement dans ce domaine ? ¡ Comment intégrez-vous les données stratégiques dans votre processus décisionnel

? Qui collabore dans l'exploitation des données ? Si NON :

¡ Pourquoi ne faites-vous pas appel au big data ? (collecte étendue; collecte massive) ¡ Vous n'en éprouvez pas le besoin ? ¡ Par manque de savoir-faire ? ¡ Manque de financement ? ¡ Manque de temps ? ¡ Avez-vous déjà utilisé les big data ? Pourquoi avez-vous arrêté ? (si déjà utilisé :

quel impact ?) ¡ Malgré tout, estimez-vous qu'il vous serait utile de recourir au big data ? Pourquoi ?

Qu'est-ce que l'utilisation du big data pourrait apporter à votre activité ? ¡ Quelles sont les données que vous pourriez conserver et exploiter ? ¡ Avez-vous envisagé ou pourriez-vous envisager de faire appel à une société

spécialisée dans ce domaine ?

3. J'aimerais vous poser maintenant quelques questions sur l'utilité et les limites de l'usage massif des données.

¡ A votre avis, à qui profite le big data aujourd'hui ? (entreprises / citoyens ou consommateurs / Etat)


©RevueCOSSI2018

49

¡ Pour vous, le recours au big data pose-t-il un problème de sécurité des données ? ¡ Dans le cadre de votre entreprise, vous est-il arrivé de renoncer à utiliser des

données précisément pour un problème de sécurité ? ¡ A titre personnel, êtes-vous favorable à la collecte et l'utilisation de données privées

? ¡ Faut-il réguler la monétisation des Data ? ¡ Quelles sont les limites au Big Data ?

Pour terminer, selon vous, quel est le devenir du big data ?


©RevueCOSSI2018

50

De la RMA à la guerre infocentrée : retours d’expérience quant aux limites des promesses de la

numérisation et des big data

Patrick CANSELL UPEM - Laboratoire DICEN-Idf

[email protected]

Lucile DESMOULINS UPEM - Laboratoire DICEN-Idf

[email protected]

Résumé : Dans les années 1980, les forces armées amorcèrent une révolution technologique et organisationnelle, par l’intégration massive de technologies de l’information et de la communication. La Revolution in Military Affairs, initiée aux États-Unis, vise à métamorphoser l’approche du commandement et de la réalisation des opérations militaires à travers le développement de solutions intégrées de renseignement, d’interconnexion et de commandement. La RMA s’incarne aujourd’hui à l’échelle du combattant individuel français dans un concept de « système fantassin » valorisé par l’information et qui contribuerait à la « domination informationnelle » sur des théâtres d’opération. Les premiers retours d’expérience, en particulier ceux d’Irak et d’Afghanistan, invitent toutefois à relativiser les capacités analytiques et prédictives des mécanismes algorithmiques nourris par des « systèmes fantassin » en situation réelle de conflit armé. Ils évoquent aussi l’infobésité des usagers au niveau du management opérationnel, leur méfiance quant à la fiabilité des transmissions et décisions stratégiques.

Mots clés : Décision – Network Centric Warfare – Guerre - Intelligence stratégique – big data – intelligence artificielle – RMA

Abstract : In the 1980s, the armed forces began a technological and organizational revolution, through the massive integration of information and communication technologies. The Revolution in Military Affairs, initiated in the United States, aimed to transform the approach to command and execution of military operations through the development of integrated intelligence, interconnection and command solutions. The RMA is today embodied at the individual soldier level by the concept of "infantry soldier system" valued by information. This equipment is supposed to contribute to "information domination" during military operations. Initial feedbacks, especially from Iraq and Afghanistan, however, suggest that the analytical and predictive capabilities of algorithmic mechanisms fueled by "infantry soldier system" in real situations of armed conflict should be put into perspective. They also stress on the infobesity of users at the level of


©RevueCOSSI2018

51

operational management, their mistrust as to the reliability of transmissions and strategic decisions.

Key words : Decision – Network Centric Warfare – War – Strategic Intelligence – big data – artificial intelligence – RMA

INTRODUCTION

Les « big data » s’étalent sur les couvertures des magazines, tantôt présentées comme le moyen d’améliorer le quotidien, la santé, la sécurité de tout un chacun, tantôt comme le nouvel or noir digital des entreprises. Elles souffrent en contrepartie d’un soupçon de risque majeur en termes de limitation des libertés publiques et de surveillance généralisée. La mise en œuvre des promesses des big data sur le travail au sein d’une organisation singulière, les forces armées, permet de nuancer concrètement les promesses de la numérisation et des big data. Les forces armées se caractérisent par le caractère historique précoce de la réflexion et du pilotage stratégique des démarches d’intelligence et de « numérisation ». L’intégration du numérique et des big data dans les démarches d’intelligence, de commandement et de déploiement des opérations aux niveaux stratégique, opératif et tactique, y est donc a fortiori très avancée. Les informations intégrées dans le cycle du renseignement et les moyens de collecte, de traitement et de diffusion de ces informations sont par exemple désormais numérisés. De leurs côtés, les États-majors ont investi massivement dans un concept de combat « infocentré » et dans l’ « infovalorisation » des forces, depuis plus de 15 ans. Du fait de leur singularité, l’observation des forces armées peut d’ores et déjà fournir un retour d’expérience et des pistes de réflexion pour d’autres types d’organisations (entreprises, autres institutions, ONGs).

NUMÉRISATION, CULTURE NUMÉRIQUE GÉNÉRALISÉE ET RÉVOLUTION DANS LES AFFAIRES MILITAIRES

Au tournant des années 1980, les forces armées amorcèrent une révolution technique, technologique et organisationnelle par l’intégration massive des technologies de l’information et de la communication. La Revolution in Military Affairs (RMA) initiée aux États-Unis a métamorphosé l’approche du commandement et des opérations militaires. Les efforts d’ « infovalorisation » se dirigèrent vers l’investissement et le développement de solutions numériques d’acquisition, de transmission et de traitement de renseignements, ainsi que de commandement intégré (Command & Control) : outils, systèmes, tels que satellites, drones, radars, moyens de navigation, moyens d’influence ou de guerre électronique (« ELINT ») et « cyber ». L’idéal d’interconnexion et d’interopérabilité des systèmes d’armes s’incarne jusqu’au niveau du combattant individuel, intégré dans un « système fantassin ».

Dans un contexte de gigantisme du volume des données produites et traitées en amont comme lors des opérations militaires, la domination informationnelle s’est imposée comme un objectif intermédiaire dans des espaces de bataille hyper-numérisés. Ce combattant symbolise, au même titre que les robots ou les drones armés, l’évolution de l’approche du commandement et de la mise en œuvre des opérations militaires à travers le développement de nouvelles solutions de renseignement et de traitement de l’information, d’interopérabilité et de commandement intégré.

Dans la lignée des travaux de Josyane Jouet, l’étude des modalités concrètes de fabrication des datas par des usagers (le stratège qui pilote une opération ou le militaire présent sur un théâtre d’opération) contribue à illustrer « la prééminence du social dans les modalités d'utilisation des objets techniques » (Jouët, 1992, p.26). Elle s’intègre aussi dans une réflexion critique de


©RevueCOSSI2018

52

l’idéalisation des potentialités des big data en termes de performance, d’efficacité de la prise de décision, de prédictibilité des comportements de l’ensemble des parties prenantes à un conflit ou à une action militaire de stratégies (Brasseur, 2013) et de résorption d’éventuels dilemmes éthiques. Elle apporte un éclairage sur les modalités, processus d’intégration et usages par les forces armées des technologies et des systèmes d’information et de communication, entamée il y a plus de 20 ans. Cette enquête illustre ainsi les débuts d’une prise de conscience des limites de la pensée dominante quant à l’omnipotence analytique et prédictive des data et des algorithmes visant à automatiser la décision et l’action qu’il s’agisse de dominer un théâtre d’opérations militaires, ou un marché.

Fruit de la réflexion conjointe de deux enseignants-chercheurs en sciences de l’information et de la communication, passionnés de stratégie militaire qui exercent en tant que consultants spécialistes de la gestion de crise, des stratégies d’influence et des démarches d’intelligence économique auprès de forces armées, cette communication fait suite à un travail poussé de veille, à une série de rencontres et de discussions informelles dans le cadre d’une forme d’ethnographie organisationnelle extensive. L’un des auteurs a mis à profit ses expériences d’officier de réserve, diplômé « Etat-Major », au sein de la Direction du Renseignement Militaire, en charge de questions de prospective.

Le concept de « Revolution in Military Affairs » (RMA) s’est développé aux États-Unis à la fin des années 1970 (Gros, 2010). La notion de « révolution » est ici considérée comme une rupture doctrinale majeure menant à un emploi des forces radicalement innovant, susceptible de remporter la décision non du simple fait d’une supériorité quantitative ou technologique des matériels, mais grâce à leur emploi. La Blitzkrieg allemande de 1940, considérée comme l’une de ces « révolutions », reposait ainsi non sur le seul développement de nouveaux chars et de nouveaux avions - puisque les Alliés disposaient eux-mêmes de matériels comparables -, mais sur une utilisation de rupture. La combinaison d’armes anciennes et nouvelles généra de nouvelles capacités et doctrines d’emploi qui se sont révélées décisives, face à un ennemi imprégné jusqu’à l’aveuglement par les concepts de guerres de position et d’usure. On parle de révolution non pas parce que le changement de doctrine a été brusque, mais parce qu’il a été d’une amplitude diamétrale (« magnitude ») (Welch, 1999).

Le contexte d’émergence de la RMA est tout sauf anodin : à la fin des années 1970, les stratèges du Pentagone ne sont pas parvenus à penser de nouvelles doctrines et usages rendus possibles par les technologies de l’information et de la communication et par l’électronique, à l’inverse des officiers soviétiques qui inventèrent le concept de « révolution militaro-technique ». Les forces soviétiques supprimèrent en effet les échelons hiérarchiques intermédiaires et parvinrent à des concepts tels que celui de « reconnaissance – frappe » où celui qui collecte l’information (l’observateur qui a les jumelles et voit l’adversaire), ordonne directement le tir des moyens d’appui-feu sur l’adversaire en sans passer par les étapes traditionnelle de validation par les différents échelons hiérarchiques. La prise de conscience de la supériorité stratégique soviétique fut un véritable choc pour les stratèges américains Dès lors, c’est-à-dire au milieu des années 1980, ces derniers considérèrent que les forces US étaient obsolètes, incapables de remporter un conflit autrement que par la masse des moyens déployés : « being bigger, not smarter » déplore alors le Général David C. Jones, chef d’État-major des armées des États-Unis (Luttwak, 1985).

En réponse à la posture innovante des Soviétiques, la « RMA », mise en œuvre à partir de la fin des années 1980, a visé à bouleverser l’appareil militaire américain, selon trois axes. Le premier axe est technologique avec un basculement des efforts de R&D vers les TIC, les outils de commandement (Command & Control), les moyens de reconnaissance terrestre, aérienne et satellitaire, le renseignement (HUMINT, ELINT, SIGINT) ou encore la cyber-sécurité et la guerre


©RevueCOSSI2018

53

électronique ; il s’agit notamment d’intégrer l’information et ses technologies aux équipements et de les organiser en réseau. On parle en France à ce sujet d’« infovalorisation ».

Le deuxième axe est matériel. De nombreux équipements sont modernisés pour améliorer leur intégration au sein de ce que l’on appelle un « système » de forces. Beaucoup d’équipements sont remplacés car jugés obsolètes et « data-incompatibles ». Les équipements et systèmes nouveaux intègrent dès leur conception les enjeux et les moyens de leur « infovalorisation » et même une capacité à intégrer des technologies futures lors de leur modernisation. Un système d’armes peut en effet rester en service plusieurs décennies. Le concept de « Soldier System », par exemple, traduit en français par « Système Fantassin » décrit un combattant « infovalorisé », à savoir nourri, traversé, médiateur et capteur d’informations. Capteurs et effecteurs sont ainsi « dé-solidarisables », les capteurs (moyens de reconnaissance, de ciblage, etc.) et les effecteurs (armes et munitions) communiquant entre eux à distance. Les munitions de précision peuvent entrer en scène et générer de nouveaux paradigmes tels que la guerre « zéro mort », ou des concepts tels que celui de « frappe chirurgicale ». La Guerre du Golfe, en 1991, « a été un vrai tournant dans l'histoire militaire. (…) Les nouvelles technologies ont en effet permis aux avions et aux armements de devenir extrêmement précis et d'agir de manière permanente : de jour, de nuit et par mauvais temps. (…) On a beaucoup parlé du guidage par laser, mais il existe d'autres moyens, comme le GPS, le radar ou des systèmes optiques. Si on possède les coordonnées précises d'une cible, on ne peut pas la rater » explique à la presse le Général Jean Rannou, chef d'État-major de l'Armée de l'air française de 1995 à 2000 (Jean Dominique Merchet, « La première stratégie c'est le renseignement », in Libération, 23/10/2001). La surmultiplication des capteurs est le corollaire de cette tendance. Celle des masses et des flux de données, en est la conséquence.

La RMA comprend enfin un axe humain. Tant au niveau des hommes sur le terrain qu’au niveau du commandement, la réalisation des missions a été repensée en intégrant la dimension numérique. Les forces armées semblent parvenir à une certaine maturité dans leur numérisation, mais les retours d’expérience au niveau du « management » opérationnel ont dénoncé précocement les effets pervers de l’infobésité et de l’automatisation des transmissions de données, ainsi que les capacités prédictives limitées des mécanismes algorithmiques appliquées aux situations de conflits armés, notamment lors de l’opération Iraki Freedom).

Dès 2003, la première brigade numérique américaine a été déployée en opération en Irak, suite à d’ambitieux programmes de digitalisation des forces armées, notamment l’Army Transformation, un impressionnant programme de modernisation des forces terrestres américaines. Le déploiement de cette première « BCT », (Brigade Combat Team), unité entièrement « infovalorisée » et équipée de matériels légers (blindés à roues Stryker notamment), devait marquer la rupture avec les « Legacy Forces », les lourdes unités conventionnelles héritées de la Guerre Froide, caractérisées par l’absence du digital et en principe condamnées à disparaître.

UN PARALLÈLE ENTRE LA PENSÉE STRATÉGIQUE INTÉGRATIVE DU MONDE CIVIL ET L’OBJECTIF RÉMANENT DE RÉDUIRE LE « BROUILLARD DE LA GUERRE »

La pensée stratégique française considère l’information comme la matière première de la décision et de l’action militaire (Lacoste, 1995). Dans les entreprises, les démarches d’intelligence stratégique (IS) intègrent l’ensemble des actions outillées, précises et ciblées désignées par les vocables de documentation, de(s) veille(s), de « due diligence », de sécurité de l’information, de protection du patrimoine immatériel, d’analyse concurrentielle, d’aide à la décision, de prospective ou d’influence/contre-influence. L’adjectif stratégique n’a donc ici aucune acception militaire, il


©RevueCOSSI2018

54

vient caractériser le niveau où les démarches d’intelligence peuvent être mises profit. En l’occurrence, le niveau le plus élevé de la prise de décision en entreprise, celle du projet et de la stratégie d’entreprise peuvent bénéficier de démarches d’intelligence économique. De la même manière, l’intelligence économique peut intéresser des prises de décisions d’investissement en R&D, en matières premières, des décisions en matière de choix de fournisseurs, des décisions commerciales, marketing, packaging, etc. La principale caractéristique de l’IS est qu’elle ne se limite pas à des actions "partielles" menées isolément dans des fonctions différentes des organisations, elle suppose une réflexion qui articule le stratégique et le tactique, et une coordination des actions d’intelligence économique. Le succès de ces actions procède alors de la cohérence de la réflexion en amont et d’un pilotage en continu, ainsi de leur degré d’intégration. Par intégration, on entend « interaction entre tous les niveaux de l'activité, auxquels s'exerce la fonction d'intelligence économique depuis la base ([les acteurs] internes à l'entreprise) en passant par des niveaux intermédiaires (interprofessionnels, locaux) jusqu'aux niveaux nationaux (stratégies concertées entre les différents centres de décision), transnationaux (groupes multinationaux) ou internationaux (stratégies d'influence des États-nations [et des organisations internationales]) » (Martre, 1994, p.12).

Du côté des militaires, les systèmes d’armes deviennent communicants, “intelligents”, complémentaires et intégrés, ce qui a permis une accélération majeure du rythme des batailles, de leur « tempo », et la nécessité d’une gestion stratégique en temps réel de la masse des données générées (Luttwak, 1985, Ibrügger, 1998, Gros, 2010, Gerasimov, 2016). Les parallèles entre le monde des entreprises et des organisations civiles, et le monde des forces armées s’impose en lien avec ce critère de l’accélération (Rosa, 2010).

Deux concepts clefs sont au cœur de la RMA. Tout d’abord, celui d’« Information Dominance » ou « supériorité informationnelle » représente l’« avantage opérationnel obtenu par la capacité à collecter, traiter et disséminer un courant ininterrompu d’informations, tout en exploitant ou interdisant à l’adversaire cette même capacité » (Vandomme, 2010). Nous retrouvons ici une conception particulièrement proche des définitions originelles de maîtrise et de protection de l’information que doit permettre l’Intelligence Economique. Notons que ces définitions sont postérieures de quelques années seulement aux premiers programmes visant à l’application de la RMA. Le deuxième concept, celui de Network-Centric Warfare (NCW) ou guerre infocentrée implique l’intégration en réseau de l’ensemble des capteurs et effecteurs du champ de bataille, « le traitement en temps réel (ou quasi-réel) des données et des informations, leur transformation en savoir et leur transmission vers les unités de feu pour un combat de précision » (De Neve, 2011). Dans le monde civil, se sont progressivement développés des outils de veille devenus « collaboratif », des « réseaux sociaux d’entreprise » supposés faciliter les flux et la création d’informations et de connaissances et autres plateformes visant à la mise en réseau des acteurs, porteurs de savoir et décideurs (Cansel, 1995, David, 2005, Mesguisch et al., 2008, Moinet, 2009, Rouach, 2010, Saleh et al., 2013, Husson, 2017).

Pour les forces armées, la numérisation doit contribuer à réduire ce que Clausewitz appelait le « brouillard de la guerre ». Lors des campagnes de la Révolution et de l’Empire, la notion de brouillard correspondait à la part d’incertitude inhérente à la conduite des opérations, à la méconnaissance de la réalité de ses propres capacités comme de celles de l’adversaire, aux « frictions » générées par les erreurs et incidents, et qu’il fallaitt s’efforcer de réduire par la pratique du renseignement tactique (Clausewitz, 1832). Aujourd'hui ce « brouillard » naît notamment de la complexité du terrain (zones urbaines ou montagneuses, grottes, jungle), du contexte politico-diplomatique, ou encore de la nécessité d’identifier et localiser des adversaires, parfois mêlés aux civils, et ses propres troupes pour éviter notamment tout « friendly fire », ces tirs fratricides à l’origine de pertes inacceptables.


©RevueCOSSI2018

55

La supériorité informationnelle n’est pas ici synonyme d’accès privilégié à des informations en masse (big data) ou de capacité accrue de traitement d’informations à forte valeur ajoutée (thick data – ce qui est le cas pour les métiers du « renseignement » y compris. militaire). Il s’agit, à l’échelle de l’organisation des forces, de la capacité à interconnecter les systèmes d’armes et des combattants eux-mêmes devenus des éléments du « système de force » avec les systèmes de commandement, de communication, de surveillance et de renseignement (integrated weapons

and data systems) pour créer des flux spécifiques de données et d’informations à forte valeur ajoutée. S’ajoute à cela le critère de l’anticipation car ces flux ne peuvent jouer de rôle-clé que s’ils ont préalablement pensés et structurés en fonction d’enjeux opérationnels, techniques, logistiques, etc. Ce système de commandement intégré (Command & Control, C2, ou C4ISTAR plus dans sa version élaborée) a été formalisé par l’Amiral Owens de l’US Navy, qui conceptualisa la notion désormais incontournable de « System of systems », que l’on peut traduire ainsi par « méta-système » de forces.

En terme de mise en œuvre, ce méta-système inclut l’architecture et la gestion des interactions de tous les systèmes d’armes et capteurs, et de toutes les données issues ou générées par les plateformes, les blindés, les véhicules logistiques, les robots, les outils de « vétronique » pour traiter ces données, par et pour les combattants (localisation, ordres, voix, image, et demain paramètres vitaux, niveau de stress, ou encore état des approvisionnements en munitions, niveaux des batteries, etc.), par et pour les moyens de soutien ainsi que le commandement. Précisions que concrètement, les outils de « vétronique » sont des sortes de boitiers embarqués sur des véhicules militaires, ces derniers permettent la gestion centralisée des systèmes d’information et de contrôle des ressources électroniques et informatiques captées et reçues, ils intègrent des calculateurs embarqués hyper puissants et compacts.

Le concept d’Information Warfare intègre ainsi l’ensemble des mesures prises par un chef militaire pour imposer sa supériorité dans la maîtrise de l’information des forces engagées (guerre électronique, chiffrement, furtivité, contre-influence, etc.) : celle de ses forces comme celle de l’adversaire.

LES LIMITES DES AMBITIONS DU BIG DATA

Dans les entreprises, les directeurs, managers et simples salariés sont comme enjoints d’adhérer à une idéologie enchanteresse accréditant des promesses numériques de rapidité, d’accessibilité, d’efficacité, d’opportunités à saisir, idéologie qui procède directement d’un paradigme gestionnaire de rationalité pure. Les dispositifs de veille poussent des messages vers les collaborateurs, chacun devenant analyste de son propre environnement informationnel. De tels dispositifs d’autonomisation et d’accès facilité à l’information ont été testés au sein des forces armées, y compris par la création d’un « internet du champ de bataille ». L’opération Iraki Freedom a été l’occasion d’expérimenter à grande échelle, dès 2003, ces solutions innovantes de remontée, partage et diffusion d’informations, exploitant la masse de données produites par tous les échelons des forces.

Dès son premier déploiement, la « Brigade Combat Team » (BCT) a été marquée par l’échec, outre le fait qu’elle arriva trop tard pour combattre les forces conventionnelles de Saddam Hussein, elle n’était pas prête pour l’offensive terrestre initiale et son déploiement fut ralenti par des soucis diplomatiques avec la Turquie qui refusera notamment son passage. Elle ne fut donc engagée que dans des opérations de contre-insurrection face aux « insurgés irakiens ». Cet échec est en premier lieu conceptuel. Les systèmes d’information et en particulier l’« internet du champ de bataille » mis à disposition des différents échelons de combattants fonctionnèrent essentiellement en mode « pull » : on mit à la disposition des combattants, des chefs d’unités, de


©RevueCOSSI2018

56

sections, une masse d’informations supposées intéressantes pour qu’ils puissent littéralement y piocher des informations utiles. Mais en fait les combattants n’en eurent pas le temps et se perdirent dans les méandres de ces ressources.

Le second effet est encore plus grave puisqu’il concerne la valeur ajoutée supposée d’une unité digitalisée. Un ancien commandant d’un régiment de cavalerie de l’armée américaine, Col. H.R. McMaster, le formule ainsi : « Les chefs auront tendance à attendre de recevoir des informations plutôt que de prendre des décisions claires. En effet, ils doivent agir avec prudence pour protéger la survie de leurs troupes. On observe toute l’ironie de forces créées pour être rapides et agiles, mais qui se révèlent être l’exact inverse » (Grossman, 2005). Le problème que génère la surinformation, est que les chefs militaire sur le terrain, qui sont l’équivalent militaires des managers de proximité, hésitent à déployer leurs troupes tant qu’ils ne sont pas sûrs de ne plus obtenir d’informations plus pertinentes et/ou précises dans la double visée d’optimiser les chances de succès d’une opération et d’économiser des ressources - en particulier la vie d’hommes. En voulant rationaliser la prise de décision, et donc en attendant de recevoir plus d’informations pour réduire au maximum les incertitudes, les BCT expérimentèrent un paradoxe : ces forces numérisées supposées être plus rapides car info-valorisées, se montrèrent plus lentes et indécises, et donc moins agiles que des combattants plus rustiques, ayant moins informations et basant leurs décisions tactiques sur une forme d’instinct sans soubassements conceptuels. À ces problèmes décisionnels, s’ajoute le problème prosaïque du poids d’équipements high-tech dénoncé par les soldats dans leurs retours d’expérience.

La masse de données collectée pose de surcroit deux problèmes majeurs. En premier lieu, on distingue un problème de traitement des données, face à une volumétrie considérable et en croissance exponentielle, alimentée par la multiplication des capteurs interconnectés et des moyens de renseignement de tous types. Le Big Data et l’intelligence artificielle sont supposés apporter, à un horizon non déterminé mais supposé proche, une réponse satisfaisante à cette impasse digitale. Le big data est en effet supposé être couplé, à terme, à des logiciels de traitement analytique et à des algorithmes prédictifs, visant en particulier à rendre intelligibles des masses de données éparses, à anticiper l’évolution du contexte des opérations comme les comportements de l’adversaire. Les stratèges souhaitent ainsi anticiper des événements et comportements très variés : les actions des forces adverses, les embuscades, les mouvements de population, l’opinion publique, les décisions politico-stratégiques des adversaires… En second lieu, cette masse de données génère une dépendance croissante à ce que l’on appelle « l’infostructure », dépendance proportionnelle à la masse d’informations collectée, traitée, diffusée. Or, les déploiements récents ont lieu dans des zones où les communications passent particulièrement mal : milieux complexes (centres urbains en 3 dimensions, montagnes) ou vastes territoires non homogènes (plateaux désertiques), où les défaillances et insuffisances des technologies et capacités de l’infostructure militaire sont patentes.

En observant l’évolution technico-opérationnelle du combat, on peut distinguer trois paradoxes évidents quant à l’exposition sur le terrain et à la perception que les politiques se font du rôle des combattants infovalorisés. Tout d’abord, les combattants directement exposés à leur adversaire sont parmi ceux qui ont le plus besoin d’« intelligence » et donc d’information à forte valeur ajoutée, validée, précise et pertinente, mais aussi ceux qui ont le moins de temps pour consommer de l’information. Ensuite, les combattants directement exposés à leur adversaire sont une source essentielle d’« intelligence », capables de produire la meilleure information sur celui-ci, mais sont ceux qui ont peu de temps pour en produire. La tendance est d’ailleurs à les équiper ou à les faire accompagner ou survoler de capteurs capables de transmettre en temps réel des données sans perturber leur engagement.


©RevueCOSSI2018

57

Enfin, les technologies sont présentées comme des « démultiplicateurs » de force, mais leur implémentation est souvent réalisée en parallèle de réductions importantes des effectifs opérationnels. Les TIC ont été un prétexte à la réduction des effectifs. Et les big datas sont aujourd’hui présentées, à l’instar d’un argumentaire prégnant dans le civil, comme une solution miracle susceptible de palier à toutes les difficultés. Chaque génération d’équipements est supposée être toujours plus performante, et justifier la réduction des effectifs. Cependant, les autorités ont pris leurs distances vis-à-vis de ce paradigme désormais, face aux engagements extérieurs et aux opérations intérieures (face au terrorisme notamment). En France comme aux Etats-Unis, on recompte en « boots » les unités déployables / déployés. Le « paradigme augmentatif » a été réinstauré en lieu et place d’un « paradigme substitutif » (Zacklad, 2012). Les premiers retours d’expérience soulignent ainsi les limites de la numérisation et des big data, et notamment les résistances qu’ils suscitent en terme de méfiance quant aux promesses d’automatisation des transmissions, de capacités prédictives des mécanismes algorithmiques, et de limites opérationnelles (infobésité, notamment du « management », à savoir le commandement opérationnel).

En toute logique, les forces armées limitent le champ d’exploitation des big data aux activités du renseignement militaire et d’intérêt militaire, en particulier dans les opérations « hybrides », soit des missions restreintes de surveillance des médias sociaux, de création de corpus documentaires permettant des requêtes ciblées sur des individus précis. La réalité des usages militaires reste éloignée des ambitions d’anticipation algorithmiques d’attaques terroristes supposées contribuer à une forme de « situation awareness ». D’autres applications plus réalistes concernent la guerre-cyber ou « cyberwarfare » (Haridas, 2015), qui offre de vraies potentialités notamment dans le tracking des hackers et la détection de signaux d’alerte parfois qualifiés de faibles (Alloing, Moinet, 2016). Les big data ne sont en fait qu’une ressource complémentaire, essentielle pour certaines applications dites de renseignement, utiles pour capter et traiter des flux de données structurées liées à certaines situations d’emploi des forces, mais elles ne sont pas une panacée.

Derrière la notion de « big data » appliquée au champ des études stratégiques réside le travail de capitalisation par les forces armées de tout ce qu’elles peuvent collecter pour éventuellement, le cas échéant, lors d’une enquête sur une personne précise, être en mesure de disposer de ressources pour des actions de renseignement et de monitoring des cyber menaces. Les big datas ont donc principalement un intérêt pour la surveillance des médias sociaux, la création de corpus documentaires pour permettre des investigations sur des individus, et appréhender des questions de cyber-sécurité. Or, ces usages ne sont pas absolument pas transposables au civil, et ils n’ont pas de liens avec les usages de démarche d’intelligence stratégique et des situations de prise de décision au niveau du top-management des entreprises !

Enfin, concernant les risques d’attaque terroriste, les militaires sont formels quant à l’inanité des outils de big datas. Si une patrouille peut avoir une connaissance de terrain qui lui permettra d’estimer « au doigt mouillé » le degré de réalité d’un risque d’attaque terroriste. Un algorithme pourra lui aussi montrer qu’un risque existe à partir des données remontées par une patrouille, mais il sera incapable de le confirmer en avance de phase, de le prédire suffisamment précocement et avec suffisamment de certitude pour qu’une patrouille puisse intégrer cette donnée dans sa prise de décision. Prévoir le passage à l’acte de civils radicalisés jusqu’au terrorisme fait partie de sphère du fantasme bien illustrée par l’intrigue de films comme I-Robot ou Minority Report. Et nulle force armée répondant aux critères occidentaux d’engagement de la force n’oserait par exemple justifier une frappe préventive sur des civils en arguant du fait qu’il s’agit de la décision optimale d’un algorithme. Pire, les situations de conflit armé ne sont pas modélisables selon des critères permanents, logiques et rationnels tels que l’on peut en trouver dans la finance, le droit ou même la médecine : « Pour une armée bien préparée, chacun des


©RevueCOSSI2018

58

éléments qui concourt à la conduite des opérations se réduit à une formule simple : déplacement d’un point à un autre ; maniement d’une arme maîtrisée par des centaines d’entraînements ; transmission et compréhension d’ordres formulés sans ambiguïtés… Mais la combinaison de tous ces éléments peut atteindre une extraordinaire complexité, face à un ennemi réel qui s’évertue à saper la moindre initiative en utilisation sa réflexion stratégique et ses forces. » (Luttwak, 1985, p.26). Une intelligence artificielle pourrait mener des opérations militaires ou même diriger un système d’armes dans un environnement complexe si elle « comprenait » l’art de la guerre et développait ses propres ruses, dans un contexte où la « règle » n’existe pas. « Il est extraordinairement difficile de prédire le déroulement d’une guerre. Chaque guerre suppose la redéfinition d’une nouvelle doctrine stratégique. Chaque guerre est unique, et appelle des choix quant à sa logique propre plutôt que la mise en œuvre de modèles pré-définis », expliquait, dès avant le second conflit mondial, le théoricien russe Aleksandr Svechin (Gerasimov, 2016). En effet, dans le contexte militaire, la stratégie va consister à privilégier des méthodes d’action parfois en apparence contre-productives où prédominent la ruse et la « tactique » : « (…) des préparatifs manifestement bâclés, (…) des approches en apparence trop dangereuses ; (…) le combat de nuit ou par mauvais temps… Voilà autant de manifestions courantes de l’ingéniosité tactique, conformes à l’essence même de la guerre » (Luttwak, 1985, p.25).

CONCLUSION : BIG DATA, ALGORITHMES, INTELLIGENCE ARTIFICIELLE, ET NOUVELLES DOCTRINES D’EMPLOI DE LA FORCE

À titre d’illustration des faiblesses et vulnérabilités des outils big data et de l’intelligence artificielle appliquée à la « chose » militaire, l’exemple russe est particulièrement instructif. La doctrine stratégique Gerasimov, du nom du Chef d’État-major des forces de la Fédération de Russie, est en effet particulièrement illustrative des effets de rupture des doctrines, plaidant pour une vision réflexive, pilotée et intégrative, des stratégies militaires.

Cette doctrine plaide pour le déploiement conjoint et intégré par des systèmes de communication et de commandement d’actions politiques, diplomatiques, médiatiques, cyber et militaires, au service d’une guerre non pas totale, mais globale, contre un adversaire donné. La doctrine d’emploi des cyberforces russes vise ainsi non pas à réaliser des actions ciblées en complément des opérations militaires, mais à mener de vastes opérations simultanées et conjointes à visées multiples (guerre électronique, guerre d’influence, paralysie des moyens, médias et infrastructures adverses). On parle alors de conflit « non-linéaire » (Bartles 2016) dans lequel un adversaire plus faible technologiquement compense son désavantage en termes informationnel en leurrant son adversaire par des opérations coordonnées de désinformation, de déstabilisation et de leurres visant particulièrement le système de décision adverse et les algorithmes qui l’alimentent (Chin Hui Han, 2016).

Aujourd’hui, cette guerre nouvelle se traduit par des doctrines d’emploi très offensives, mixant les opérations conventionnelles, celles menées par des irréguliers (rebelles, indépendantistes par exemple) et les opérations ciblant justement les big data et les algorithmes décisionnels des adversaires, devenus des cibles à part entière. Il va s’agir en effet de leurrer, tromper les moyens logiciels de l’ennemi. Ces doctrines se traduisent, par exemple, par la mise en place de flottes de robots sur les médias sociaux notamment, afin de générer du bruit et simuler des mouvements d’opinion, des campagnes de désinformation ou encore de fausses contestations potentiellement violentes. Il va s’agir d’interpréter le mode opératoire de l’intelligence artificielle de l’adversaire pour générer des signaux visant à l’induire en erreur : pollution de données, actions visant à tromper (ce que l’on appelle la « déception ») pour générer de multiples « opérations Fortitude » digitales comme physiques. Cette appellation s’inspire du nom de l’opération de leurrage de l’État-Major allemand au moment du débarquement en Normandie, simulant une action


©RevueCOSSI2018

59

d’envergure sur le Pas de Calais. Les « big data » offrent alors paradoxalement des moyens pour agir contre le camp qui les possède et les exploite, et l’intelligence artificielle devient une cible comme les autres, et potentiellement une vulnérabilité majeure. Du côté russe, le pragmatisme domine et les data sont considérées comme des ressource clefs sur des thématiques précises et comme une dimension à part entière du fonctionnement et de l’efficience du système de forces, mais non comme une solution globale et miraculeuse de production rapide de décisions optimales.

Big, thick, integrated, autonomous… Chacun des adjectifs auxquels le mot data a été accolé est porteur d’utopies positivistes, qu’il s’agisse de gagner des marchés ou des conflits. La manière dont l’information et les data ont été pensées par les stratèges militaires peut apporter un éclairage aux débats sur les data, pétrole du XXIe siècle… Comme l’exprimait l’Amiral Owens devant le Congrès américain en 2001 de manière prémonitoire : « Ce n’est pas la masse des données accumulées qui va conditionner nos succès, c’est la force de nos connaissances, qu’il s’agisse de la guerre en Somalie ou de la lutte anti-terroriste dans nos frontières ou à l’étranger. Ce qui compte, c’est le savoir » (Shimko, 2010). Et, par essence, la connaissance et le savoir sont incarnés.

REFERENCES BIBLIOGRAPHIQUES Alloing, C. & Moinet, N. (2016). Les signaux faibles : du mythe à la mystification. Hermès, La Revue, 76,(3), 86-92. Bartles, Charles K. (2016). Getting Gerasomov Right. USACAC Military Review. 30-38 - Fort Leavenworth (USA/KS). Cansell, Patrick. (2003). Management de l’information et connaissance du marché :

développement des pratiques collectives d'intelligence économique et de management de

l'information (…) ». Thèse de Doctorat : Sciences de l’Information et de la Communication. CESD : Université Paris-Est Marne-la-Vallée. Chin, Hui Han. (2016). Mskirovka in the Information Age. Pointer, Journal of the Singapore Armed

Forces (vol. 42, n°1 - 2016), 39-50. Clausewitz, C. von. (1832). De la Guerre. Paris: Payot & Rivages, impr. 2014. Cohen, C. (2013). Business intelligence: the effectiveness of strategic intelligence and its impact

on the performance of organizations. Hoboken, NJ : Wiley-ISTE. David, A. (dir.). (2005), Organisation des connaissances dans les systèmes d’information orientés utilisation. Actes du colloque international de ISKO-France, 28-29 avril 2005, Presses Universitaires de Nancy. David, C. P. (2016). Repenser la sécurité, nouvelles menaces nouvelles politiques. Montréal : Fides, Collection Points Chauds. De Neve, A. (2011). Mutations technologiques et transformations militaires : que reste-t-il du discours de la RMA ?. Pyramide. Centre d’Etudes et de Recherche en Administration Publique, 27-52.


©RevueCOSSI2018

60

Gerasimov, V. (2016). The Value of Science is in the Foresight - New Challenges Demand

Rethinking the Forms and Methods of Carrying out Combat Operations. USCAC Military Review,

Fort Leavenworth (USA/KS), 23-29. Gray, C. (2004). Strategy for Chaos: Revolutions in Military Affairs and the Evidence of History (Strategy and History). Oxford: Routledge. Gros, P. et al. (2010). Du Network-Centric à la stabilisation : émergence des « nouveaux »

concepts et innovation militaire. 91-128. Paris : IRSEM. Grossman E. M. (2005). Does the modular brigade need armed recon facilitators? Army Cavalry regiment may be last bastion. “Fight for information”. Inside The Pentagon, February 10, 2005. INSIDER, http://defense.iwpnewsstand.com/insider.asp, Inside Washington Publishers.] Haridas, M. (2015). Redefining Military Intelligence Using Big Data Analytics. Scholar Warrior. CLAWS - Centre for Landwarfare Studies. Automne 2015, 72-78. Hoppe, M. (2015). Intelligence as a discipline, not just as a practice. Journal of Intelligence Studies

in Business, 5(3), 47-56. Husson, S.. (2017). La transformation digitale en entreprise, quels enjeux pour les veilleurs. Mémoire professionnel. Master 2 IE-ISART, sous la direction de Patrick Cansell. UPEM/IFIS. Ibügger, L. (1998). The Revolution in Military Affairs. Nato Parliamentary Assembly, Science and Technology Committee. NATO. Jouet, J. (1992). Pratiques de communication et changement social. Habilitation à diriger des recherches : Sci. de la comm : Grenoble 3. Lacoste, P. (1995). Culture française du Renseignement. Actes du colloque. CESD. Luttwack, E. N. (2002). Le grand livre de la stratégie. Paris : Éditions Odile Jacob. Mesguich, V., Diallo, A., Jdey, A., Bergeret, C., Dumas, S., Séménéri, M .. & Remize, M. (2008). Où va la veille ?. Documentaliste-Sciences de l'Information, vol. 45,(4), 58-69. Moinet, N. (2009). Du « savoir pour agir » au « connaître est agir »: L'intelligence économique face au défi de la communication. Les Cahiers du numérique, vol. 5,(4), 53-77. Rouach, D. (2010). La veille technologique et l’intelligence économique. Collection : Que sais-je ?, Paris : PUF. Rosa, H. (2010). Accélération. Une critique sociale du temps. Paris : La Découverte, coll. Théorie critique. Saleh, I., Zacklad, M., Leleu-Merviel, S., Jeanneret, Y., Massou, L., Roxin, I., Soulages, F., Bouhaï, N. (coord. par) (2013). Pratiques et usages numériques. H2PTM’13, Hermes Science publications, Lavoisier. Shimoko, K. L. (2010). The Iraq Wars and America’s Military Revolution. London (UK) : Cambridge University Press.


©RevueCOSSI2018

61

Vandomme, R. (2010). Du renseignement à l’influence : le rôle des opérations d’information. Cahiers Strathrobyn n°6. Toronto (Canada) : Centre des Etudes sur la Sécurité nationale. 9-87. Welsch, T. J. (1999). Revolution in military affairs: One perspective. In Omory Frances, Sommerville M. A. (eds.), Strenght through cooperation: Military Forces in the Asia-Pacific

Region. Washington DC: National Defense University press. Zacklad, M. (2012). Vers une informatique au service de l’homme. Personnel, 527, 63-64.


©RevueCOSSI2018

62

Projets Big Data des entreprises : quelles transformations organisationnelles ?

Soumaya BOUAFIA Université de Pau et des Pays de l’Adour

[email protected]

Jacques JAUSSAUD Université de Pau et des Pays de l’Adour

[email protected] Résumé : Le concept de Big Data suscite de nombreuses questions quant à son appropriation. Certaines relèvent des aspects technologiques et humains, et sont à ce jour en grande partie maitrisées. Selon Walker (2015) le phénomène Big Data arrive en effet aujourd’hui à maturité et pose de nouvelles questions, notamment comment valoriser ces masses de données. La valeur tirée du Big Data diffère d’une entreprise à l’autre, selon la finalité qui lui est donnée, et l’usage qui en est réalisé. Certaines organisations privilégient les systèmes d’automatisation et les algorithmes pour exploiter leurs données (Davenport, 2014 ; Bénavent, 2014). D’autres ajoutent les technologies du Big Data aux systèmes existants, pour améliorer la performance de leur organisation. Il existe donc plusieurs modèles d’usage et d’analyse des données du Big Data par les entreprises (Bénavent 2014). Quelles sont la nature et l’ampleur des transformations organisationnelles requises par chacune de ces approches ? Nous tentons dans cette contribution de répondre à partir d’une base de données originale que nous avons constituée, de 46 projets Big Data d’entreprises américaines, européennes et asiatiques issues de différents secteurs d’activité. Mots-clés : Big Data, modèles d’usage, stratégie, transformations organisationnelles Abstract : The concept of Big Data raises many questions on its adoption. Some are technological and human, and to date largely answered. According to Walker (2015), the Big Data phenomenon is now mature and raises new questions, notably on how to leverage these voluminous data. The value derived from Big Data differs from one company to another, depending on the aim and the use that is made of it. Some organizations emphasize automation systems and algorithms to exploit their data (Davenport, 2014; Bénavent, 2014). Others add Big Data technologies to existing systems to improve the performance of their organization. There are therefore several approaches to the use of Big Data by companies (Bénavent 2014). What are the nature and extent of the organizational transformations required by each of these approaches? In this contribution, we try to answer this question, based on an original database that we


©RevueCOSSI2018

63

have built, of 46 Big Data projects of American, European and Asian companies from different sectors of activity. Keywords : Big Data, Use patterns, Strategy, Organizational transformation INTRODUCTION Le Big Data a connu une forte médiatisation durant ces dernières années, et suscite de nombreuses questions sur son appropriation. Pourtant la gestion de données massives n’est plus une nouveauté pour les entreprises. Selon Sedkaoui et Monino (2016), l’engouement porté à l’égard du Big Data s’est accentué depuis la publication de plusieurs rapports par le McKinsey

Institute, en 2010 et 2011, sur ce sujet des mégadonnées. Mais au delà d’un simple phénomène de mode, il faut comprendre que ce qui suscite tant d’intérêt pour le Big Data, c’est ce qui en fait sa particularité. Il s’agit en premier lieu de ses caractéristiques, les 3V : Volume, Variété et Vélocité. Ces caractéristiques sont différentes de celles connues à ce jour dans la gestion des bases de données classiques. A ce propos, Davenport et al (2012) note que ce qui distingue les mégadonnées, ce n’est pas tant leur volume imposant, mais le manque de structure de celles-ci, le flux constant de leur production, ainsi que les méthodes d’analyses qu’elles requièrent. L’originalité du Big Data, réside également dans ses apports sans précédents. Selon Walker (2015) les solutions technologiques et humaines du Big Data étant en grande partie maîtrisées, la question prioritaire à traiter est comment valoriser ces mégadonnées. Il note à ce propos que le développement des entreprises d’aujourd’hui provient surtout de la création et du management d’actifs des données, et non d’actifs physiques. Ce besoin de développer de nouveaux modèles orientés par la valeur et l’apport des mégadonnées a été noté par de nombreux autres auteurs (Davenport, 2014 ; Bénavent, 2014; Vossen, 2014 ; Brynjolfsson et McAfee, 2012 ; Bughin et alii, 2011). Développer le Big Data dans son entreprise renvoie à la question de l’adoption d’une nouvelle technologie (Besson et Rowe, 2011 ; Bénavent, 2014 ; Ciborra et Lanzana, 1999). Cette question est amplifiée par l’aspect expérimental du phénomène. Dans une enquête menée auprès de grandes entreprises, Davenport et Dichey (2013) soulignent que 41% des entreprises n’ont pas de stratégie claire en matière de Big Data. Ils soulèvent également un certain nombre de questions, en particulier les suivantes : « Les grandes données doivent-elles être dirigées vers

des personnes ou des machines ? Les données les plus importantes concernent-elles les clients

ou les opérations ?».

Les réponses diffèrent sans doute selon le type de projet Big Data développé par l’entreprise. A cet égard, comment définir son projet Big Data ? Quelle orientation lui donner ? Nous souhaitons dans cet article contribuer à apporter des réponses sur les formes possibles de l’insertion du Big Data dans l’organisation. Quelles sont la nature et l’ampleur des transformations organisationnelles requises pour chacun de ces projets ? Nous tentons de répondre à cette question, à partir d’une base de données originale de 46 projets Big Data que nous avons constituée, d’entreprises américaines, européennes et asiatiques issues de différents secteurs d’activité.


©RevueCOSSI2018

64

Pour répondre à la question de la nature et de l’ampleur des transformations organisationnelles requises par le Big Data, nous allons dans un premier temps, faire un bref examen des travaux réalisés en lien avec ce thème. Nous mettrons l’accent sur les relations entre organisations et technologies de l’information. Nous présentons ensuite notre étude empirique à partir de la construction d’une base de données de 46 projets Big Data, à travers laquelle nous étudions les degrés de transformations organisationnelles occasionnées. Big Data et transformations organisationnelles - un état de l’art Pour définir le concept de Big Data, on retrouve souvent le sigle 3V : Volume, Variété et Vitesse. L’aspect volumétrique du Big Data fait référence à l’importante quantité de données produites et consommées, mais aussi aux solutions disponibles permettant de gérer ces volumes. Le rythme célère auquel ces données sont générées est appelé Vélocité, c’est une source de différentiation très prisée par les entreprises. En effet, répondre en temps-réel à ses clients peut générer un réel avantage concurrentiel. Concernant la Variété, cet attribut est le résultat de l’importante diversité des formats de données récoltées depuis les différentes sources que sont les tablettes, les smartphones, les objets connectés, etc. Ces caractéristiques des 3V distinguent le concept de Big Data, car la question de la gestion des données massives n’est pas une nouveauté pour les entreprises. A ce propos Davenport (2014) note que ce qui fait la particularité du Big Data, ce n’est pas tant leur volume imposant que le manque de structure de celles-ci, le flux constant de production des données, ainsi que les méthodes d’analyses qu’elles requièrent, différentes de celles de l’analytique classique. L’attrait du Big Data prisé pour les entreprises ne réside pas tant dans les données elles mêmes et leurs volumes, que dans la valeur qu’on peut en tirer après transformation. Cette valeur peut prendre différentes formes : des informations auxquelles l’entreprise n’avait pas accès avant, une meilleure prise de décision, ou de nouveaux produits et services offerts à travers les données (Davenport, 2014 ; Bénavent, 2014 ; Hartmann et al, 2014) De nombreux exemples d’entreprises ayant tiré profit du Big Data sont cités dans la littérature académique et professionnelle (The Economist, 2010 ; Brynjolfsson et al, 2012 ; Hagen et al, 2013 ; Davenport, 2014). Ainsi Walmart, entreprise américaine spécialisée dans la grande distribution, modifie le modèle d’affaires de ce secteur par ses usages des technologies du Big Data. L’enseigne met en place un système de gestion des stocks permettant à ses fournisseurs de suivre à tout moment, et dans tous ses magasins, l’état de stock de leurs produits. Ou encore Cablecom, un opérateur télécom suisse, est parvenu à faire baisser le taux d’attrition de ses clients de 25% à 5%, grâce aux analyses des données massives (The Economist, 2010). Le Big Data est souvent caractérisé par son aspect expérimental. En effet, les technologies impliquées étant nouvelles, de nombreuses entreprises se lancent dans des projets Big Data en mode expérimentation, afin d’estimer l’opportunité d’investir en masse dans ces technologies (Hagen et al, 2013 ; Bughin et al, 2010 ; Davenport, 2014). Il existe clairement un manque de visibilité sur les transformations pouvant être engendrées ou requises par le Big Data. A ce propos Davenport (2014) note : « La jeunesse du Big Data ne nous permet pas encore de percevoir précisément les transformations organisationnelles induites. Les premiers résultats obtenus dans les grandes entreprises suggèrent que les grandes données seront associées aux données et aux groupes d’analyses existants, mais cela pourrait évoluer au cours des prochaines années»


©RevueCOSSI2018

65

Les transformations produites par le Big Data peuvent être envisagées à différents niveaux, celui par exemple des nouveaux modèles d’affaires pour les entreprises, ou celui des grandes missions des Etats. Pour ce qui est des entreprises, les transformations sont notamment d’ordre organisationnel : il s’agit alors de mettre en place de nouvelles structures et de nouveaux modes de management, voire de nouvelles cultures adaptées aux besoins et aux potentialités du Big Data. Dans la littérature, il existe peu de travaux consacrés au sujet de la transformation organisationnelle qu’implique le Big Data. Les auteurs ayant traité cette question abordent le sujet sous différents angles. Par exemple Brynjolfsson et McAfee (2012) parlent de data driven

business concernant les transformations des modes de prise de décision des managers. Il est question de prendre des décisions en se basant sur les analyses et les données du Big Data, et moins sur l’intuition. Les auteurs ont d’ailleurs mené une étude auprès d’entreprises ayant emprunté ce type de démarche. Les résultats obtenus mentionnent que les entreprises de type data-driven sont plus productives (de 5%) et ont plus de profits (6%) que leurs concurrents. Davenport (2014) souligne la nécessité de s’adapter aux changements des processus technologiques, du management, et de la culture de l’entreprise. Par exemple pour le traitement des données du Big Data, l’auteur note le besoin de recruter de nouveaux profils, des data-

scientist, capables de manipuler, analyser, développer des applications à partir de ces grandes masses de données, et communiquer des résultats. Il est aussi question de s’orienter vers plus d’agilité dans les approches de traitements de données, et d’intégrer plus de données externes, en plus des données historiques internes de l’entreprise. Pour sa part Vossen (2014) note qu’il n’est pas nécessaire de mettre en place une architecture spécifique aux besoins du Big Data. L’auteur préconise dans ce cas, de mobiliser les nouvelles solutions technologiques disponibles sur le marché. Celles-ci sont alors intégrées aux systèmes opérationnels existants, en alignement avec la stratégie et l’architecture système de l’entreprise. Dans la littérature des organisations, de nombreux auteurs mobilisent des travaux qui s’inscrivent dans la théorie de la contingence structurelle (Lawrence et Lorsch, 1967), selon laquelle la structure organisationnelle d’une entreprise doit s’adapter à l’évolution de l’environnement dans lequel elle se trouve. Par exemple, Mintzberg (1990) parle de configurations organisationnelles pour désigner qu’il n’existe pas un seul type d’organisation adapté à toutes les entreprises. Ces configurations sont le résultat de combinaisons spécifiques d’un certain nombre d’attributs: « les parties composantes de l’organisation, les mécanismes de coordination de leur travail, et les facteurs de contingence (âge et taille de l’entreprise, technologies de l’entreprise, etc.) ». Dans l’environnement du Big Data, Bénavent (2014) évoque aussi cette notion de contingence structurelle, en soulignant qu’il n’existe pas une seule façon de faire ou un seule type d’organisation pour le Big Data. L’auteur distingue quatre modèles d’usage pour les entreprises mobilisant des projets Big Data (Tableau.1). Ces modèles sont le résultat de combinaisons spécifiques des ressources et compétences mobilisées par ces projets, du degré de transformation organisationnelle engendrée, ainsi que de la finalité d’usage espérée. Cette dernière peut être: améliorer la connaissance, améliorer les prises de décision, automatiser les activités, ou créer de nouveaux produits et services. Ainsi, une entreprise dont le projet Big Data cherche à améliorer ses connaissances n’exige pas, selon Bénavent (2014), de changements particuliers de son organisation, et mobilise des compétences de type « analystes des données ». Par ailleurs, un projet dont l’objectif est d’automatiser des tâches ou une activité de l’entreprise nécessite des développements


©RevueCOSSI2018

66

informatiques importants, sans modifier toutefois son organisation en profondeur. De ce fait l’entreprise doit surtout réunir des compétences d’ingénieurs spécialisés dans les développements technologiques. La création de services nouveaux à partir du Big data, y compris dans la logique de l’économie du partage, requiert au contraire de transformer profondément l’organisation qui va le produire (Tableau 1).

Modèle Finalité Compétences requises

Transformation de l’organisation

Connaissance Amélioration des études

Data_scientist Non

Automatisation Gain de productivité, réduction de coûts

Ingénieurs_spécialistes Oui

Empowerment Renseignement, aide à la décision

Ingénieurs_spécialistes, Marketeurs

Oui

Services Création de services, consommation collaborative

Diversifiées Oui

Tableau 1 : Typologie des modèles d'usage du Big Data selon Bénavent (2014)

La question de la transformation organisationnelle a souvent été abordée dans la littérature du management des systèmes d’information (Venkatraman et al, 1999 ; Daft 2010 ; Besson et Rowe, 2011). Selon ces différents auteurs, les changements importants survenus dans les organisations durant ces deux dernières décennies, sont liés aux technologies. Cela s’explique par l’usage croissant des solutions telles que les progiciels de gestion, et surtout par l’arrivée d’Internet. En citant différents auteurs de cette littérature, Besson et Rowe (2011) évoquent trois types d’actions de transformations possibles par les technologies: (1) une transformation radicale qui modifie en profondeur les processus et les affaires de l’entreprise (Venkatraman, 1994), (2) une transformation dite « de bricolage » qui intègre en continu des réglages et des solutions aux problèmes rencontrés lors du déploiement de la technologie sur le terrain (Ciborra, 1992), et (3) une transformation permanente et volontaire inspirée par la nature même de l’entreprise bâtie sur les technologies de l’information (Janson et al, 1997). Le Big Data étant en grande partie un nouveau phénomène technologique, Bénavent (2014), en référence à Ciborra et Lanzara (1994), souligne la nécessité d’adapter l’organisation de l’entreprise aux besoins des technologies du Big Data. Afin de comprendre ce qui caractérise une transformation organisationnelle, il faut rappeler ce qu’est une organisation. Mintzberg (1982) fait référence aux deux fondements essentiels que sont division/spécialisation et coordination pour définir l’organisation. Pour lui, la structure organisationnelle est: «la somme totale des moyens utilisés pour diviser le travail entre tâches distinctes et pour assurer la coordination nécessaire entre ces tâches». On peut ainsi considérer qu’une transformation organisationnelle se produit, si des modifications surviennent au niveau de la division des tâches, ou au niveau de leur coordination. De ce point de vue, et en ligne avec les types de transformation identifiés par Besson et Rowe (2011), il semble clair que certains projets Big Data, parmi les plus connus, se caractérisent par


©RevueCOSSI2018

67

un changement radical de l’organisation, comme le cas Rolls Royce dans ses usines aéronautiques, dont nous reparlerons plus loin. D’autres projets s’inscrivent plutôt dans la logique d’évolution permanente de l’organisation en fonction des solutions technologiques mises en place. Quelles sont la nature et l’ampleur des transformations organisationnelles requises par les différents types de projets Big-data ? Pour préciser cette question, notre démarche empirique sera fondée sur la construction d’une base de données de 46 projets Big Data. DEMARCHE EMPIRIQUE

Pour répondre à notre question de recherche, nous nous sommes appuyés sur une méthodologie de recherche qualitative par étude de cas. Cette dernière est adaptée à notre champ de recherche, de nature exploratoire (Yin, 2009; Simon & Cassel, 2012 ; Dumez, 2012). Notre méthode repose sur l’identification d’un certain nombre de projets d’envergure en matière de Big Data, 46 précisément ici. Nous avons réuni sur ces différents projets un ensemble d’informations à partir de sources diverses. Chaque projet représente une étude de cas à part entière, dans laquelle nous avons tenté de comprendre quels usages sont faits du Big Data, quelles stratégies ont été retenues, et quelles tendances semblent se dessiner. Concernant la collecte des données, nous avons identifié des projets Big Data, déployés ou en cours de déploiement, dans des organisations issues de tous types de secteurs d’activité. Notre recherche couvre plusieurs pays, la France, le Royaume-Uni et les Etats-Unis principalement, mais aussi des pays d’Asie, le Japon et la Chine pour l’essentiel. Notre échantillon offre une large variété de projets Big Data, respectant à la fois les critères de diversité et de saturation attendus dans ce type de recherche qualitative (Symon et Cassel, 2012). Nos sources de données sont variées. Il s’agit principalement des revues professionnelles, de divers sites web, de divers blogs, ainsi que des livres ou des articles académiques. Nous avons recoupé autant que faire se peut ces différentes sources pour chacun des projets, de façon à s’assurer de la fiabilité de l’information que nous retenions, en évitant les biais liés à telle ou telle source, et afin d’acquérir une compréhension plus solide de chaque projet (Gagnon, 2012; Yin, 2009). Nous n’avons pas retenu les projets sur lesquels nous n’avions que trop peu d’information, ou ceux sur lesquels nous n’avions que trop peu de sources d’information, ce qui rendait difficiles les recoupements. Pour chaque cas étudié, nous avons analysé les données issues des différentes sources, et nous sommes assurés de la concordance des informations (triangulation). Nous avons ensuite créé une base de données dans laquelle nous regroupons l’ensemble des cas étudiés. Chaque entrée de la base de données représente un cas, renseigné et classé selon les différentes variables permettant de décrire chacun des projets, telles que sa dimension (échelle locale ou globale), son année de mise en œuvre, un bref descriptif du projet lui-même, et son apport à l’activité de l’entreprise. Nous avons également renseigné les variables nom de l’entreprise, secteur d’activité, le pays d’origine de l’entreprise et celui du projet. Pour le traitement des données collectées, nous avons eu recours à la méthode du codage théorique. En s’inspirant de certains développements théoriques soigneusement choisis, cette méthode nous permet de délimiter les variables susceptibles d’aider à formuler la réponse à notre question de recherche. Un codage pur émanant directement du matériau aurait été difficile à réaliser dans ce contexte exploratoire, en donnant lieu à une quantité d’information plus importante et des résultats trop généraux (Eisenhardht, 1989). Nous avons donc dans un premiers temps identifié les différentes variables de codification, que nous avons mobilisées. Ces variables sont définies à partir des concepts théoriques des modèles d’usage du Big Data (Bénavent, 2014) et des théories de transformations organisationnelles liées aux TIC (Besson et Rowe, 2011). Rappelons que Bénavent (2014) suggère qu’il n’existe pas une configuration unique pour la mobilisation du Big Data. Il note que chaque projet implique des modalités spécifiques de trois


©RevueCOSSI2018

68

variables clés que sont : les compétences et les ressources mobilisées, la finalité d’usage du Big Data et la transformation organisationnelle requise. Ainsi, pour construire notre base de données, nous avons dans un premier temps identifié les modalités possibles de ces variables. Il s’agissait donc de choisir, dans une logique de codification, les modalités permettant de préciser la finalité du projet, les compétences mobilisées, et la transformation de l’organisation Concernant la finalité, nous avons vu que l’objectif de l’utilisation des données diffère d’un projet à un autre. Cela peut être l’amélioration des études dans le cas du modèle de la connaissance, ou la réduction des coûts et l’amélioration des gains de productivité dans le cas du modèle de l’automatisation. Dans le modèle de l’empowerment, l’objectif est de renseigner les utilisateurs et de les aider dans leur prise de décisions. Enfin, les finalités d’usage dans le modèle des plateformes sont la création de services et la consommation collaborative. Par conséquent, nous décidions d’affecter pour chaque projet à la variable « finalité » l’une des quatre modalités suivantes : amélioration_études, gain_productivité, aide_décision, création_services, Ensuite, dans le cas d’un projet Big Data, on peut sans doute considérer plusieurs types de compétences et ressources mobilisées. Concernant les ressources, les données du Big Data par exemple, ou les algorithmes développés pour les exploiter peuvent être cités. On retrouve aussi des compétences diversifiées, celles qui tournent autour de métiers permettant d’exploiter les données, tels que les métiers d’ingénieurs mobilisés pour le développement des projets Big Data, ou de data-scientist assurant notamment l’analyse des données générées (Bénavent, 2014). Ces profils diffèrent selon le type de projet, plus précisément selon les modalités de la variable précédente, la finalité. Ainsi, dans un projet dont la finalité est d’apporter plus de connaissance, on retrouve une dominante de profils de data-scientist, ou d’analystes chevronnés des méga-données dans leur domaine d’utilisation. Un projet dont la finalité est de créer des services nécessite des profils variés de juristes, d’analystes, et d’informaticiens, etc. Par ailleurs, les projets qui s’inscrivent dans des modèles d’automatisation ou d’empowerment mobilisent des profils surtout techniques, tels que les développeurs et les ingénieurs en systèmes d’information. Par conséquent, nous désignons pour cette variable « des ressources et des compétences mobilisées » les modalités suivantes : data-scientist, ingénieurs spécialisés, et compétences diversifiées. Concernant la transformation de l’organisation : Certains projets Big Data exigent de revoir l’organisation de l’entreprise, alors que d’autres s’ajoutent et s’intègrent à l’organisation existante, sans besoin de réforme majeure. Ainsi, dans la typologie des quatre modèles d’usages de Bénavent (2014), l’auteur souligne qu’un modèle tel que celui de la connaissance, n’engendre pas des changements considérables, si ce n’est une amélioration incrémentale des processus existants. Tandis que des modèles comme celui de l’automatisation, de l’empowerment ou des plateformes, contribuent à la transformation d’un point de vue organisation du travail et usages. Concernant cette variable, elle peut donc prendre deux modalités dans la typologie de Bénavent (2014) : « transformation_organisation » ou « pas de transformation ». Rappelons, par ailleurs, que Besson (2011) considère qu’il existe trois types de transformations possibles dans le cadre de l’intégration de nouvelles technologies par les entreprises, transformation radicale de l’organisation, « bricolage. », et transformation continue. Dans l’examen de nos données, nous avons jugé pour notre part utile de préciser les modalités de la variable de transformation organisationnelle, en retenant trois degrés possibles. Il est ainsi question d’aucune transformation pour certains projets Big Data, en fait ceux dont la finalité est d’améliorer la connaissance de l’entreprise et ses process existants. Les projets opérés via des bricolages et des améliorations continues n’exigent pas de transformation profonde ; on parle dans ce cas d’« adaptation de l’organisation ». Enfin, certains projets, innovants pour la plupart, nécessitent et engendrent de profonds changements de l’organisation ; nous codifierons alors par la modalité « transformation ».


©RevueCOSSI2018

69

Nous avons donc identifié pour cette variable de la transformation_organisationnelle, trois modalités : pas de transformation, adaptation de l’organisation, et transformation de l’organisation. Mais afin de déterminer le type de transformation organisationnelle requise pour chacun des projets Big Data, nous avons pris en compte les deux composantes essentielles de la définition de l’organisation que sont la division des tâches et leur coordination (Mintzberg, 1982). On considère ainsi qu’il y a une transformation organisationnelle s’il y a transformation dans la division des tâches et/ou leur coordination. Nous avons de ce fait identifié les variables « transformation division tâches » et « transformation coordination tâches » afin de caractériser le type de transformation requise par un projet Big Data. Chacune de ces deux variables peut prendre trois modalités : (1) « non » pour désigner qu’il n’y a pas de transformation au niveau de la division des tâches ou de la coordination des tâches, (2) « un peu », pour indiquer qu’une transformation, peu importante, est observée au niveau de la division des tâches ou au niveau de leur coordination, et enfin (3) la modalité « beaucoup », pour désigner une importante transformation au niveau de la division des tâches ou dans leur coordination. Au total, nous considérons ainsi qu’il n’y a pas de transformation organisationnelle pour un projet Big Data, s’il n’y a ni transformation au niveau de la division des tâches, ni dans leur coordination, c’est à dire que les modalités des deux variables « transformation division tâches » ou « transformation coordination tâches » indiquent « non ». L’adaptation organisationnelle est notée si une ou les deux modalités des variables « transformation division tâches » ou « transformation coordination tâches » désignent qu’il y a « un peu » de transformation. Nous estimons enfin qu’il y a transformation organisationnelle si une ou les deux modalités des variables « transformation division tâches » ou « transformation coordination tâches » indiquent « beaucoup » de transformation. ANALYSE DES RESULTATS ET DISCUSSION Sur les 46 cas étudiés dans notre base de données, nous avons pu classer sans grande difficulté les différents projets Big Data selon chacun des modèles de la typologie proposée par Bénavent (2014). Cela-dit, concernant le volet de la transformation organisationnelle, notre codification, par souci de précision, distingue trois modalités et non deux. Nous avons ainsi répertorié 10 projets « sans transformation organisationnelle », 15 projets avec « adaptation de l’organisation », et 21 projets avec « transformation organisationnelle » (Tableau 2). Sur les projets Big Data sans transformation organisationnelle, nous pouvons citer l’exemple de la chaine M6 TV, qui mobilise les mégadonnées pour améliorer l’efficacité des campagnes publicitaires de ses clients (annonceurs et agences média). Pour cela l’entreprise fait appel à un partenaire spécialiste du Big Data, « Quinten», à qui elle donne accès à son importante base de données de campagnes publicitaires (plus de 1200 campagnes). Sur la base des résultats d’analyses obtenus, l’entreprise a été capable de proposer des services personnalisés à ses clients, par exemple révéler des faits inconnus par le passé. Il a été ainsi possible de découvrir l'importance des périodes d'été et des week-ends pour la diffusion des publicités des petites et moyennes marques. A travers l’étude de cas de M6 TV, nous avons constaté que l’entreprise ne met pas en place une organisation spécifique. Afin d’améliorer la connaissance des campagnes publicitaires de ses clients, la direction marketing de l’entreprise, fait appel à des spécialistes en analyse des données (des data-scientist) en s’alliant à « Quinten ». Il n’a pas été question de transformer les tâches des employés, ni leur coordination. Ceci a permis in fine de proposer de nouveaux services plus personnalisés aux clients. Concernant les projets Big Data impliquant une adaptation de l’organisation de l’entreprise, on peut citer le cas de Darty, une entreprise française spécialisée dans la distribution de matériel informatique et d’électroménager. L’enseigne mobilise le Big Data dans le cadre du projet de


©RevueCOSSI2018

70

digitalisation de ses magasins. L’objectif premier d’usage des données est ici d’assister les vendeurs et les conseillers dans leur processus de vente. Ces derniers auront un accès direct et en temps réel (via tablettes et Smartphones) à toutes les informations nécessaires. Cette mobilisation des données par Darty, correspond à la modalité d’ « Aide-décision » dans les modèles d’usages des données de Bénavent (2014). Pour concrétiser ce projet, Darty a opté pour la refonte de son architecture IT, vers une architecture SOA (Service Oriented Architecture), et pour le développement d'interfaces digitales différenciées par types d'utilisateurs (Clients, vendeurs, etc.). Pour cela, l’entreprise mobilise des compétences d’ingénieurs spécialisés, afin de réaliser les développements informatiques et les systèmes adéquats. Concernant l’organisation, on remarque dans le cas de Darty, qu’il n’est pas question de transformation radicale, mais de transformation continue. Les solutions du Big Data sont intégrées de façon progressive et expérimentale. L’entreprise ne déploie pas d'investissements importants, les ROI sont estimés au fur et à mesure de l'avancement du projet Big Data. Il n’est pas non plus question pour l’enseigne, de modifier les tâches de ses employés, mais d’en améliorer l’exécution en leur apportant un support technologique. Cela correspond à un peu de transformation dans la coordination des tâches des collaborateurs. Au vu de ces différents éléments, nous avons donc renseigné la variable de transformation organisationnelle (transformation_Orga) par la modalité adaptation de l’organisation (« Adaptation_Orga »). A propos des projets impliquant des transformations organisationnelles significatives, nous distinguons deux types d’entreprises, des entreprises matures, et des start-up dont l’essentiel des activités s’opère via des plateformes technologiques. On peut citer pour le premier cas l’exemple de Rolls Royce, et sa division spécialisée dans la construction de moteurs d’avion. Selon Paul Stein, directeur scientifique chez Rolls Royce (Marr, 2015), le Big Data est mobilisé par l’entreprise pour trois activités principales : le design, la fabrication et le support après-vente. Ainsi sur le volet de la maintenance, le Big Data est mobilisé par le fabricant pour la conception de ses moteurs. Les techniques de calculs très sophistiqués permettent de visualiser des développements assez complexes, et de décider rapidement de la validation ou pas du produit conçu. En termes de compétences mobilisées, Rolls Royce fait massivement appel à des ingénieurs spécialistes. L’entreprise a lancé des partenariats avec les meilleures universités du Royaume Uni et du monde entier, afin de palier au manque des profils qualifiés dans l'engineering et l'analyse de données. Rolls Royce dispose de plusieurs centres de services à travers le monde, dédiés à l’analyse des données issues des capteurs. Par exemple, un des bureaux les plus importants se trouve au siège de l’entreprise, à Derby. Il compte une équipe d’une trentaine d’ingénieurs, relayée par 150 autres, qui travaillent constamment à l’analyse des données issues des capteurs des moteurs d’avions du fabricant. On remarque ainsi que la modalité de la variable « Compétences-mobilisées » correspond à celle du modèle d’« ingénieurs-spécialisés »


©RevueCOSSI2018

71

Tableau 2 : Aperçu de la base de données

Nom Entreprise/Projet Compétence/Ressources Transformation division tâches

Transformation coordination

tâches Transformation_Orga Finalité

Orange "Sauvons les LiveBox" Ingénieurs_spécialistes non un peu Adaptation_Orga Aide_décision AT&T "Tower Outage Analyzer" Ingénieurs_spécialistes non un peu Adaptation_Orga Aide_décision

Darty Ingénieurs_spécialistes non un peu Adaptation_Orga Aide_décision Campagne électorale Obama

2012 Ingénieurs_spécialistes beaucoup beaucoup Transformation_Orga Aide_décision

Disney "Programme MyMagic+" Diversifiées un peu beaucoup Adaptation_Orga Aide_décision Tesco Data_scientist non un peu Adaptation_Orga Amélioration_études

Citigroup Data_scientist non non Pas de transformation Amélioration_études Sears Holding Data_scientist non non Adaptation_Orga Amélioration_études

Fnac Data_scientist non non Pas de transformation Amélioration_études Indy Race 500 McLaren Ingénieurs_spécialistes non un peu Adaptation_Orga Aide_décision

Le Tour de France Ingénieurs_spécialistes non un peu Adaptation_Orga Aide_décision M6 Data_scientist non non Pas de transformation Amélioration_études

Airbus Ingénieurs_spécialistes non un peu Adaptation_Orga Aide_décision Boeing Ingénieurs_spécialistes non un peu Adaptation_Orga Aide_décision

Pratt & Whitney Ingénieurs_spécialistes beaucoup beaucoup Transformation_Orga Aide_décision Tesla Ingénieurs_spécialistes beaucoup beaucoup Transformation_Orga Aide_décision Netflix Ingénieurs_spécialistes beaucoup beaucoup Transformation_Orga Gain_Productivité

Amazon Ingénieurs_spécialistes beaucoup beaucoup Transformation_Orga Gain_Productivité Rolls Royce Ingénieurs_spécialistes un peu beaucoup Transformation_Orga Gain_Productivité

Acxiom Data_scientist non non Pas de transformation Amélioration_études Uber (1) Diversifiées beaucoup beaucoup Transformation_Orga Création_services Uber (2) Diversifiées beaucoup beaucoup Transformation_Orga Création_services

Didi Kuaidi Diversifiées beaucoup beaucoup Transformation_Orga Création_services TaskRabbit Diversifiées beaucoup beaucoup Transformation_Orga Création_services

Airbnb Diversifiées beaucoup beaucoup Transformation_Orga Création_services


©RevueCOSSI2018

72

Concernant la transformation de l’organisation, l’entreprise manifeste clairement son ambition d’intégrer les données dans ses différents process de design, de fabrication et de maintenance. Par exemple, pour toutes ses nouvelles installations d’usines, Rolls Royce veille à intégrer les nouvelles technologies dans ses process de fabrication. C’est le cas pour ses deux nouvelles usines au Royaume-Uni, spécialisées dans la fabrication de disques pour moteurs à réaction. Celles-ci intègrent des technologies de pointe permettant de rendre plus « intelligents » les procédés de fabrication, et d’améliorer les modes de contrôle de qualité. De ce fait nous avons déduit que dans son usage du Big Data, l’entreprise Rolls Royce transforme son organisation à différents niveaux, en premier lieu dans ses modes de prise de décisions en maintenance, et dans le design et la fabrication. L’objectif de l’entreprise est d’automatiser un certain nombre de ses activités, de recherche de pannes, de conception, de production ou de logistique, en ayant toujours recours aux données. Ces changements impliquant clairement des transformations importantes au niveau de la définition des tâches, et dans leur coordination. Au total, nous nous trouvons bien dans une situation de « transformation de l’organisation » pour une société mature. En ce qui concerne les entreprises de type plateforme, concernées elles aussi par les transformations organisationnelles importantes, on peut citer le cas de « Taskrabbit ». Il s’agit d’une application d'entraide permettant de mettre en relation des particuliers du même voisinage, pour effectuer des tâches ou pourvoir des jobs ponctuels avec rémunération. Le modèle de cette plateforme se rapproche de celui des services au sens de Bénavent (2014), car il véhicule une finalité de consommation collaborative, où c’est la communauté de l’application qui crée de la valeur. On peut aussi observer que les compétences mobilisées dans ce cas de figure sont diversifiées : il s’agit en premier lieu de celles des utilisateurs de la plateforme, considérés aussi comme des employés, ainsi que celles de ses fondateurs et des employés internes (Ingénieurs spécialisés, juristes, marketeurs, etc). Nous considérons que ce modèle de Taskrabbit engendre de nombreuses transformations organisationnelles. Celles-ci concernent en premier lieu la division des tâches, où on fait appel à une nouvelle catégorie de travailleurs, rémunérés "à la micro tâche". De même que pour Uber, on parle d'un nouveau modèle d'économie, "l'économie des petits boulots" ou "Gig economy". Les transformations engendrées concernent aussi l’organisation de la mobilisation des ressources. On parle de consommation-collaborative accentuée par l’usage des algorithmes et par une meilleure disponibilité des données. Par « consommation collaborative » on désigne l'usage d'un bien ou d’un service augmenté par le partage, l'échange, la vente ou la location. Cette optimisation de l'usage est une réponse à la sous-utilisation supposée de ces biens ou services. Uber, Airbnb, Blablacar, et bien d’autres rendent possible ce partage en favorisant, par leurs applications en ligne, la rencontre des offres et des demandes. Sur la base des 46 projets étudiés, il se confirme que l’ampleur de la transformation organisationnelle varie considérablement selon les cas. L’examen attentif des projets nous a conduits à saisir l’ampleur de la transformation selon trois niveaux, que nous avons codifiée en « Pas de transformation », « Adaptation de l’orga » et « Transformation ». Cette codification en trois niveaux nous semble, après manipulation de la base, tout à fait satisfaisante. Le tableau 3 récapitule les configurations de modalités identifiées à partir de notre base de données. Une comparaison rapide avec le tableau 1 montre notamment que notre travail nuance les résultats de Bénavent (2014), en soulignant que les changements organisationnels sont plus importants dans le modèle de l’Empowerment (Aide à la décision) que dans celui de l’Automatisation.


©RevueCOSSI2018

73

Ressources compétences mobilisée

Finalité d’usage des données

Transformation division tâches

Transformation coordination tâches

Transformation organisationnelle requise

Data_scientist Améliorer la connaissance Non Non Pas de

transformation

Ingénieurs_spécialisés Automatisation Un peu Non

Adaptation de l’organisation Non Un peu

Un peu Un peu

Ingénieurs_spécialisés Aide à la décision Beaucoup Non/Un peu

Transformation de l’organisation Non/Un peu Beaucoup

Beaucoup Beaucoup

Diversifiées Création de produits/service

Beaucoup Non/Un peu Transformation de l’organisation

Non/Un peu Beaucoup

Beaucoup Beaucoup

Tableau 3 Les transformations organisationnelles requises pour le Big Data, configurations de modalités rencontrées (construit sur la base de Bénavent, 2014; Besson et Rowe, 2011; Mintzberg,

1982)

CONCLUSION Au vu de la littérature, les discours sur le sujet du Big Data sont nombreux et très variés. Ils vont de propos enthousiastes sur ses apports sans précédents, jusqu’à des déclarations moins positives et plus orientées vers les risques et les menaces qu’impliquent ces données massives. L’aspect expérimental du Big Data rend encore incertaines les réponses aux questions soulevées. Celles-ci, concernent différents niveaux de l’organisation ; elles relèvent de différentes disciplines (gestion, communication, mathématiques, etc.), et touchent différents secteurs d’activités (santé, enseignement, finance, etc.). Nous avons tenté pour notre part, à travers cette contribution, d’apporter quelques éclaircissements sur les transformations organisationnelles qu’impliquent les projets Big Data. Nous avons tenté de répondre à la question suivante : Quelles sont la nature et l’ampleur des transformations organisationnelles requises pour de tels projets ? Pour pouvoir répondre, nous avons procédé à un travail empirique en mobilisant les théories sur les relations entre technologies et organisation (Besson et Rowe, 2011), et sur les modèles d’usages du Big Data (Bénavent, 2014). Nous avons construit une base de données de 46 projets Big Data. L’analyse de ces données nous a permis de vérifier qu’il existe, en effet, différents niveaux et types de transformations organisationnelles pour les entreprises déployant des projets Big Data. Nous notons également que ces transformations organisationnelles dépendent en grande partie de l’objectif d’usage des données. Ainsi, les entreprises ayant pour finalité d’améliorer leurs connaissances à travers une meilleure disponibilité des données, ne manifestent pas le besoin d’effectuer des changements organisationnels. Il s’agit dans ce cas de figure de faire appel aux compétences de data_scientist et d’enrichir les analyses. Les résultats sont ensuite mobilisés à travers l’organisation habituelle, dans une optique d’amélioration de l’existant. Nous avons pu le voir dans le cas de M6, qui a pu développer les offres des campagnes publicitaires de ses clients. Par ailleurs, pour les projets Big Data impliquant des transformations organisationnelles, nous avons jugé utile de préciser le degré même de cette transformation


©RevueCOSSI2018

74

organisationnelle. Rappelons que Bénavent (2014) distingue deux types de transformations organisationnelles dans sa typologie des modèles d’usage du Big Data (« pas de transformation » ou « transformation de l’organisation »). Or, au vu de la littérature (Besson et Rowe, 2011 ; Venkatraman, 1994 ; Ciborra, 1992) et en considération de la diversité des situations rencontrées dans les 46 cas que nous avons répertoriés pour la construction de notre base de données, nous distinguons trois types de transformations : « Pas de transformation de l’organisation », « Adaptation de l’organisation » ou « Transformation radicale/profonde de l’organisation ». Nous avons des projets qui nécessitent une transformation organisationnelle radicale, alors que d’autres n’exigent qu’une adaptation de l’organisation sans changements profonds. Ces derniers s’inscrivent le plus souvent dans une approche de transformation organisationnelle continue. C’est le cas de Darty analysé. L’entreprise met en place des solutions de Big Data pour accompagner ses employés dans leurs différentes fonctions (Vente, Marketing, Logistique, etc.). Pour cela l’entreprise choisit d’intégrer les solutions technologiques de façon incrémentale, et organise des formations pour ses employés. Ceci correspond à une évolution des systèmes d’information et des technologies de l’entreprise, autrement dit à une adaptation de l’organisation. Une transformation organisationnelle est profonde ou radicale si on observe des changements au niveau de la division des tâches de travail, ou dans leur coordination (Mintzberg, 1982). Nous avons pu ainsi identifier dans la base de données 21 projets correspondant à ce cas de figure, tels que l’exemple de Rolls-Royce, ou celui de Taskrabbit pour lequel il est question d’une nouvelle catégorie de tâches et de travailleurs ponctuels. Les entreprises mettant en œuvre des transformations de ce type sont pour nombre d’entre elles des entreprises d’un nouveau genre, que Bénavent (2014) caractérise de « plateformes », en référence aux plateformes technologiques qui constituent les activités/ressources clé de ces entreprises. BIBLIOGRAPHIE Bénavent, C. (2014). Big Data: no best way. Le libellio AEGIS, 10(4), 5-14. Besson, P. et Rowe, F. (2011). Perspectives sur le phénomène de transformation organisationnelle. Systèmes d’information & management. 16(1), 3-34. Brynjolfsson, E. et McAfee, A. (2012). Big Data: The management Revolution. Harvard Business Review. Bughin, J., Livingston, J. et Marwaha, S. (2011). Seizing the potential of ‘Big Data’. McKinsey Quarterly. Bughin, J., Manyika, J. et Chui, M. (2010), Clouds, big data, and smart assets: Ten tech-enabled business trends to watch, McKinsey Quarterly. Ciborra, C. (1992). From Thinking to Tinkering: The Grassroots of Strategic Information Systems. Information Society, 8(4), 297-309. Ciborra, C. et Lanzarra, G.F. (1999). Hospitality and IT. in Ljungberg Fredrik [ed] Informatics in the Next Millennium, Lund (Sweden), Studentlitteratur, 161-176.


©RevueCOSSI2018

75

Daft, R.L. (2010). Organization Theory and Design (10th Edition). Mason: Southwestern Cengage Learning. Davenport, T., Barth, P. et Bean, R. (2012). How ‘Big Data’ is Different. MIT Sloan Management Review, 54, 1. Davenport, T., et Dyché, J. (2013). Big Data in Big Companies. International Institute For Analytics Davenport,T. (2014). Stratégies Big Data. Paris: Les Editions Pearson. Dumez, H, (2013). Méthodologie de la recherche qualitative, Vuibert Eisenhardht K-M, (1989), Building theories from case study research, The Academy of Management Review, Vol.14, 4, 532-550. Gagnon, Y-C., (2012), L’étude de cas comme methode de recherche, 2ème edition, Presses de l’université du Québec Hagen,C., Marco, C., Dan W., Ajay, Y., Khalid, K. Jason, M., et Hugo, E. (2013). Big Data and the Creative Destruction of Today’s Business Models, AtKearney Hartmann, P.M., Zaki, M., Feldmann, N. et Neely, A. (2014). Big Data for Big Business, taxonomy of Data-driven Business Models used by start up firms, working paper version. Cambridge Alliance Service. Janson, M., Brown, A., et Taillieu, T. (1997), “Colruyt: an organization committed to communication”, Information Systems Journal, (7),175–99. Lawrence, P.R. et Lorsch, J.W. (1967). High-performing Organizations in Three Environments. Dans D.S. Pugh.Organization Theory Selected readings (Fourth Edition). England: Pinguin Books Manyika, J. et al (2011), Big Data: The next frontier for innovation, competition, and productivity, McKinsey Global Institute. Mintzberg, H. (1990). Le management Voyage au centre des organisations. Editions d’Organisation Sedkaoui, S. et Monino, J.L. (2016), Big Data, Open Data et valorisation des données (Volume.4). Royaume-Uni. ISTE Editions. Simon, P. (2013), Too big to ignore The business case for big Data. Hoboken, New Jersey: John Wiley & Sons. Symon, G., Cassel, C., (2012), Qualitative Methods and Analysis in Organizational Research, Sage. The Economist. (2010). Data, data everywhere A special report on managing information, The Economist Newspaper Limited : London.


©RevueCOSSI2018

76

Venkatraman, N. (1994), “IT-enabled business transformation: from automation to business scope redefinition”. Sloan Management Review, 35(2),73-87. Vossen, G. (2014). Big data as the new enabler in business and other intelligence. Vietnam Journal of Computer Science, 1, 1, 3–14. Walker, R. (2015). From Big Data to Big Profits Success with Data and Analytics. Etats-Unis: Oxford University Press Yin R-K., (2009), Case Study Research Design and Methods Fourth Edition, SAGE Publications


©RevueCOSSI2018

77

Approche théorique du développement d'organisations territoriales intelligentes

appréhendant la complexité selon une approche intégrative de données

Thomas BONNECARRERE CEREGE

[email protected]

Résumé : L'approche Big Data induit d'importants risques pour les territoires et, par extension, pour nos sociétés. La « norme statistique » et la croyance aveugle dans les algorithmes peut, comme nous tentons de l'analyser dans cet article, condamner les organisations territoriales via une approche réductionniste inadaptée à la complexité croissante. Notre recherche porte sur le développement d'un nouveau genre de système territorial, que nous nommons Magitopie. Celui-ci repose par design sur une approche intégrative de données Big – Thick Data, qui place au cœur des organisations territoriales la capacitation et l'inspiration des citoyens. L'objectif est de favoriser le développement ouvert d'une « réalité sociale créative ». Cette réalité se nourrit des histoires et de l'imagination des citoyens. La finalité est la construction d'organisations territoriales capables d'appréhender efficacement la complexité, en opérant un changement de paradigme de « prédiction algorithmique du futur » à « imaginierie de futurs eutopiques ». Mots-clés : intelligence stratégique, théorie sociale, complexité, créativité, imaginierie, éducation populaire Abstract : Big data approach involves important risks for the territories and the societies themselves. "Statistical norm" and unconditional beliefs in algorithms, are not adapted to complexity and may eventually condemn territorial organizations. This is why we try to develop and implement a new territorial system named Magitopia. It is based by design on a Big – Thick Data integrative approach. It places at the heart of the territories the people's empowerment and inspiration to generate open development of a creative social reality. The final goal is to develop territorial systems in order to achieve a better grasp of complexity through a paradigm change from “algorithmic prediction of the future” to "eutopian futures imagineering". Keywords : Strategic intelligence, social theory, complexity, creativity, imagineering, popular education


©RevueCOSSI2018

78

INTRODUCTION Le Big Data, au cœur du concept de « smart city », occupe une place centrale dans les modèles de gestion des systèmes économiques et sociaux ancrés dans des cadres de pensée définis par un mode cognitif « logico-scientifique » (Bruner, 1986). Cette approche « techno-centrée » induit de nombreux problèmes complexes pouvant induire, si non appréhendés efficacement, une destruction des savoirs au sein de ces systèmes15. Ainsi, l'approche quantitative seule n'intègre pas la nature singulière et « exceptionnelle » des individus, transformés dans le cadre de ces systèmes en « objets sociaux » prolétarisés16 et anesthésiés (Lepage, 2012 ; Stiegler, 2012 ; Deneault, 2015). Elle n'intègre pas non plus la nécessaire poursuite d'un « rêve collectif » concernant le futur des territoires, stimulée à la fois par une solidarité organique en leur sein et par un conflit cognitif permanent nourrissant l'évolution démocratique dynamique de ces systèmes. Le modèle d'intelligence stratégique ImagineerInt que nous avons développé, vise à opérer un changement de paradigme concernant les territoires « intelligents ». Notre souhait est ainsi de tendre vers des systèmes holomorphes ouverts, complexes et évolutifs. Nous avons conçu ce modèle dans le but de développer une intelligence collective universelle reposant sur le conflit cognitif afin de stimuler la créativité et l'innovation dans le monde. Il reflète notre volonté de développer un modèle d'organisation « interterritoriale » reposant sur la créativité distribuée et l'innovation sociale ouverte. Notre objectif est de proposer puis d’expérimenter une évolution sociétale durable17 ancrée dans la connexion, la coopération synergique et l'auto-organisation émergente. Nous divisons notre analyse théorique en trois parties :

• Analyse de la nécessaire approche intégrative Big Data – Thick Data dans la gestion des organisations territoriales évoluant dans la complexité croissante. Examen, par le prisme des approches de données, des différentes manières (et leurs conséquences) d'appréhender le futur de ces organisations. Mise en évidence de l'utilité de l'approche intégrative pour optimiser ce processus.

• Introduction du système Magitopie, comme nouveau paradigme visant à développer des organisations territoriales « structurellement intelligentes ».

• Introduction de la méthodologie procédurale de recherche – action que nous avons spécifiquement conçue dans le but de développer des systèmes

15 Au sens de « capabilités » selon le prix Nobel d'économie Amartya Sen (1996), qui incluent les savoir- vivre, savoir-faire et savoir-penser / conceptuels (Stiegler, 2016). Le savoir constitue, pour le théoricien – praticien de l'éducation populaire Franck Lepage, un rapport social. Il se distingue ainsi de la connaissance, qui renvoie à des choses inertes non mises en rapport. Le savoir n'est donc pas une « somme de connaissances » non reliées entre elles et ne possédant pas une nature opérationnalisante, mais peut être analysé politiquement. 16 Défini pas Stiegler (2016) comme la perte des savoirs individuels et collectifs « encapsulés » dans un système machiniste automatisant à l'époque de l'économie des data. 17 Nous basons notre définition de la durabilité sur les analyses de Wahl (2016, p. 40): « Un processus dynamique de co-évolution et un processus communautaire de conversation continue et d'apprentissage conduisant à une participation pertinente à des processus évolutifs de soutenabilité de la vie dont nous faisons partie et dont dépend notre avenir » (notre traduction).


©RevueCOSSI2018

79

Magiceaniques18 qui mobilisent l'approche intégrative afin de nourrir le processus d'imaginierie19 territoriale stratégique.

PROBLÈME DE RECHERCHE Nous avons choisi pour cette communication la problématique suivante : Comment l'approche intégrative de données peut-elle favoriser une gestion efficace d'organisations territoriales culturellement savoureuses, créatives et évolutives évoluant dans la complexité croissante ? L'APPROCHE INTÉGRATIVE BIG DATA – THICK DATA COMME NÉCESSITÉ POUR L'ANALYSE DES SYSTÈMES SOCIAUX À L'ÈRE DE LA CONNEXION GÉNÉRALISÉE L'approche qualitative Thick Data comme « contrepoids » à l'approche Big Data

La designer organisationnel Tricia Wang (2013) analyse l'importance de la méthode qualitative dans l'analyse des organisations complexes. Selon elle, les Big Data utilisées sans « contrepoids » risquent d'amener les organisations et les individus à prendre des décisions et à optimiser les performance pour les métriques, qui sont dérivées d'algorithmes. Ainsi, les individus, leurs histoires et leurs expériences réelles sont occultées dans ce processus. Le danger réside donc, selon Clive Thompson (2013), dans le fait qu'« en retirant la prise de décision humaine de l'équation, nous dépouillons lentement la délibération — les moments où nous réfléchissons sur la moralité de nos actions ».

Le Thick Data constitue, pour Wang, la meilleure méthode pour cartographier des territoires inconnus. Quand les organisations veulent savoir ce qu'elles ne savent pas déjà, elles ont besoin de « données épaisses » car celles-ci procurent quelque chose que le Big Data ne fournit pas explicitement : l'inspiration. L'acte de recueillir et d'analyser des histoires produit, selon cette ethnographe, des visions20:

Les histoires peuvent ainsi inspirer des organisations pour trouver différentes manières de parvenir à la destination — la vision. (…) Si vous alliez conduire, les Thick Data vous inspireraient pour vous téléporter. Les Thick Data révèlent souvent l'inattendu. Cela peut frustrer. Cela peut être surprenant, mais quoi qu’il arrive, cela

18 Systèmes sociaux en réseau ouvert et distribué, constitués d'une potentielle infinité d'organisations territoriales Magitopiques œuvrant de manière synergique à l'échelle glocale pour appréhender la complexité croissante de notre ère planétaire (Morin, 2003). Le MAGICEAN renvoie à un patrimoine culturel commun numérisé alimenté par ces systèmes Magitopiques et irriguant ces organisations créatives et évolutives via un réseau internet universel. 19 Ingénierie de l'imaginaire, définie par Walt Disney comme le mélange de l'imagination créative et du savoir-faire technique pour expérimenter sans cesse de nouveaux systèmes et concepts. Elle peut être qualifiée d'« art de réaliser des rêves » reposant sur l'invention de visions collectivement désirées. Diane Nijs (2014, p. 188) définit l'imaginierie comme un phénomène d'autonomisation de la création de valeur en utilisant ou concevant une image qui fait appel à l'imagination des acteurs au sein d'un collectif. L'image (ou artefact) permet à ces acteurs de percevoir un nouvel horizon d'innovation pour le collectif qu'ils n'étaient pas capables de voir au préalable, et les invite et les autorise à agir de manière créative dans la direction perçue, en interagissant avec les autres dans le but de changer les routines existantes. L'imaginierie consiste ainsi, selon elle, à « concevoir un récit afin d'allumer et encadrer stratégiquement la créativité collective ». 20 Insights (notre traduction).


©RevueCOSSI2018

80

sera inspirant. L'innovation doit être accompagnée de l'imagination. Dans un contexte de recherche, les histoires sont volontairement recueillies et systématiquement échantillonnées, partagées, interrogées et analysées, ce qui produit des visions (analyse dans le milieu universitaire). Les grandes visions inspirent le design, la stratégie et l'innovation.

Le philosophe et critique d'art Laurent Danchin (2016) défend le fait que la norme actuelle est devenue la statistique, faisant fi des exceptions qui, pour autant, demeurent. L'exception, dans lequel réside le génie, est pourtant selon lui absolument fondamentale dans le domaine de l'art car il offre un « espace de dilatation » qui maintient le système normatif vivant et non figé. Ne mettre en avant que la statistique enlève ainsi toute espèce de perspective d'alternative. Cela est dangereux, car ferme la porte à l'espoir, au lieu de maintenir celle-ci ouverte sur une « lumière ». En d'autres termes selon nous, elle empêche une vue vers un nouvel horizon d'innovation nécessaire à la survie d'un système social dans une complexité croissante, qui induit un besoin d'évolution constante et d'augmentation de la diversité culturelle en son sein (selon Stiegler, 2012 et Giraud, 2017). La statistique constitue ainsi, pour Danchin, une « catastrophe » car elle établit une sorte d'obligation moyenne de comportement et impose une norme qui ne correspond pas à la réalité complexe. Le physicien Etienne Klein (2015) souligne quant à lui que les Big Data formulent des régularités qui sont érigées en lois sur lesquelles des prédictions sont faites, alors qu'elles sont ancrées dans le présent. Elles ne sont, de fait, prédictibles que si elles ne changent pas. Les Big Data peuvent ainsi permettre de voir des corrélations, mais non des causalités.

Le Big Data (centré sur le « machine learning ») doit ainsi être contrebalancé par l'approche Thick Data, centrée sur le « human learning », afin de passer d'une « dissociété » automatique (Généreux, 2006 ; Stiegler, 2012) à une société pleinement démocratique reposant sur le conflit cognitif, nécessaire pour une réelle innovation (et émancipation) sociale. Il nous semble, en d'autres termes, fondamental que nos sociétés opèrent un changement de rationnalité, de :

- « Certitude rationnalisante déraisonnante » : Induisant une réalité sociale statique « enclosée » dans un système machiniste privateur, programmant et, par extension, prolétarisant ; à

- « Incertitude rationnelle » individuante et subjectivante reposant sur une pensée complexe structurée par une vision du monde élargie21 considérant la réalité sociale comme ouverte et dynamique.

L'imagination et l'intuition créative (stimulée par l'inspiration transformationnelle - au cœur de l'imaginierie stratégique – et amenant à un « décentrement » par rapport au présent) doivent ainsi constituer des éléments fondamentaux dans l'appréhension de la réalité complexe.

21 L'experte en transformation organisationnelle Diane Nijs (2014) souligne la nécessité de structurer nos stratégies d'évolution organisationnelle selon une vision du monde élargie intégrant la vision du monde « émergente » ancrée dans l'analyse des systèmes vivants dynamiques. Johnson (1992) cité par Dent (1999) défend le fait que « peut-être que le modèle mental le plus utile pour penser la vision du monde traditionnelle et la vision du monde émergente est celle de la polarité. Les polarités constituent des opposés qui ne peuvent pas fonctionner indépendamment l'un de l'autre. Les deux côtés d'une polarité sont interdépendants, ce qui fait qu'un côté ne peut pas être “vrai ” ou la “ solution ” au détriment de l'autre. » Ainsi, la vision du monde émergente complète et élargit l'autre.


©RevueCOSSI2018

81

La smart city comme « ville intelligente » générique, programmée et programmante pouvant constituer une dystopie aliénante pour les citoyens L'expression « smart city » désigne une ville utilisant les technologies de l'information et de la communication pour « améliorer la qualité des services urbains ou encore réduire ses coûts »22..Ce concept désigne un type de développement urbain apte à répondre à l'évolution ou à l'émergence des besoins des institutions, des entreprises et des citoyens, tant sur le plan économique, social, qu'environnemental. Fabien Deglise (2014) analyse le risque de développement de villes dystopiques totalitaires par le biais du concept de « smart city » et ses risques potentiels sur les libertés citoyennes. Selon ce journaliste,

La question va finir par se poser : une ville dite intelligente risque-t-elle, à l’usage, de conduire ses habitants sur le chemin de la stupidité ? Le portrait de cette ville fantasmée par le présent n’est (...) pas très clair. Mais il est aussi soutenu actuellement par des politiciens en mal de solutions simples à des problèmes complexes, (...), ainsi que par de puissants acteurs du monde de l’informatique comme les Google, Cisco, IBM, Dell et d’autres, dont les intentions commerciales derrière l’avènement des villes connectées pourraient (...) ne pas être profitables aux citadins dont on cherche pourtant à améliorer le cadre de vie.

La spécialiste des villes intelligentes Marie-Andrée Doran affirme à ce propos qu'« une ville intelligente va devoir servir le citoyen, pas l’inverse ». Selon Deglise, la prémisse est « inspirante, tout en lustrant le mythe avec une bonne dose d’humanisme » tandis que pour Stéphane Roche, elle « replace le citoyen au cœur du débat ». Ce professeur de géomatique évoque ainsi le besoin fondamental pour les citoyens d’être actifs, informés et engagés dans une telle structure, car « depuis toujours, les organisations humaines, publiques ou privées, utilisent les innovations pour affirmer leur pouvoir ». De ce fait, « dans la ville intelligente, cette logique va encore être là et du coup, sa passivité, le citoyen pourrait la payer cher ». Deglise conclut cette analyse critique en soulignant que le numérique étant binaire, l’utopie qu’elle construit ne peut qu’être accompagnée de son contraire : une dystopie dans laquelle la ville intelligente pourrait aussi tomber.

Des « objets sociaux captés » aux « citoyens capteurs » afin de placer le « Nous qualifiant - quantifiant » au cœur des organisations territoriales intelligentes

Laurence Allard et Olivier Blondeau (2014) analysent le concept de « citoyen capteur », en soulignant l'importance de la maîtrise des données par ces acteurs politiques :

Le citoyen a de plus en plus conscience d’être confronté à un monde de données et d’algorithmes dans son activité ordinaire. (...) La captation passive des données par différents dispositifs dont seraient porteurs des « objets », pourrait dessaisir le citoyen de ses capacités de réflexion et d’action sociales, politiques ou environnementales.

Loin de rejeter ces technologies, ces acteurs sociaux souhaitent redonner toute sa centralité à l’intelligence collective des citoyens, via des usages civiques à l'égard des données produites par les nouveaux objets communicants. Le citoyen capteur participe ainsi à la construction d’une intelligence collective instrumentée par ces objets sensibles et communicants. Allard et Bondeau défendent le paradigme du « Nous quantifiant », à rebours du « Soi quantifié ». Le citoyen peut ainsi être un praticien éclairé de ce monde des Big Data, en ne subissant pas la mesure mais en étant le producteur et l’interprète.

22 Source : https://fr.wikipedia.org/wiki/Ville_intelligente (consulté le 05 septembre 2017).


©RevueCOSSI2018

82

Cette analyse quantitative doit être, selon nous, affinée grâce à une contextualisation et narrativisation de ces données, e.g., via une méthode d'analyse qualitative basée sur la « donnée épaisse ». Les citoyens sont ainsi, dans le cadre de notre analyse basée sur la « vision du monde élargie », des sujets politiques « rêacteurs évolutifs23 » mobilisant dans leur analyse des problématiques complexes de leur territoire :

- L'approche scientifique : Approche analytique froide, distanciée et rationnelle (Danchin, 2016) reposant sur un mode de pensée logico-scientifique ancré dans la vision du monde traditionnelle qui décompose l'objet d'étude en parties afin de l'analyser ; et

- L'approche artistique : Approche intuitive globale de l'objet observé (Danchin, 2016) ancrée dans un mode de pensée narratif et esthétique (définissant la vision du monde émergente)24. Cette dernière joue le rôle de « contre-poison » pour éviter une dérive sociétale « techno-centrée » reposant sur une croyance aveugle dans les algorithmes pouvant condamner, à terme, les organisations territoriales dans leur esthétique savoureuse25 singulière.

Le danger de la prédiction du futur des organisations territoriales par les algorithmes La prospectiviste Virginie Raisson dépeint, dans son ouvrage 2038, les futurs du monde, une humanité confrontée à des défis incontournables. Elle distingue la futurologie (qui prédit) de la prospective, qui anticipe. Elle souligne par ailleurs qu'elle ne supporte pas l’idée que le monde de demain serait une impasse. Nous recoupons cette analyse avec celle de Danchin (2016) concernant la futurologie26. Selon ce penseur, les futurologues sont des individus ancrés dans une pensée scientiste. Ils pensent prédire avec certitude l'avenir en considérant un problème complexe via l'isolation de quelques facteurs (en oubliant certains essentiels comme le facteur humain) et en formulant une extrapolation selon des critères géométriques « poussés jusqu'à l'absurde ». Il est ainsi nécessaire, pour lui, que l'analyse se base sur une intuition fine et globale d'une situation complexe. La vision positiviste du monde techno-centrée induit, d'après ce philosophe, la construction d'une « matrice sociale » déshumanisée (froide et distanciée) n'intégrant pas en son cœur l'exception.

La croyance aveugle dans la prédiction algorithmique des futuribles27 génère, de ce fait, une aliénation collective, qui se traduit par une déprivation intériorisée causée par un sentiment d'impuissance et de fatalisme concernant la « réalité ordinaire ». Celle-ci est ainsi intériorisée comme certaine et « normée », ce qui favorise l'adoption d'une posture

23 Néologisme que nous avons développé pour qualifier un individu rêveur, acteur, apprenant (i.e., engagé en permanence dans un processus de progression) et agissant de manière connectée et auto-organisée via une vision du monde élargie mobilisant les pensées logico-scientifiques et narratives. Ces acteurs appréhendent ainsi de manière efficace la complexité et nourrissent une dynamique d'intelligence stratégique reposant sur la créativité distribuée et l'innovation ouverte. Ce mot connote également la réaction provoquée par la connexion de la singularité de ces individus induisant, selon Saloff Coste (2013), une transformation par l'inspiration mutuelle. 24 Ces deux approches sont, selon Danchin, radicalement différentes tout en étant complémentaires et nécessaires. 25L'esthétique constitue, selon Morin (2016, p.11), une « donnée fondamentale de la sensibilité humaine ». La saveur fait ici référence au mot latin sapere, qui signifie « avoir de la saveur », « sage », « être perspicace », « comprendre » et « savoir ». 26 Discipline de « prédiction du futur » prônée par des acteurs majeurs de l'industrie des nouvelles technologies comme Ray Kurzweil. 27 Mot employé par le prospectiviste André-Yves Portnoff pour désigner des « futurs possibles ».


©RevueCOSSI2018

83

« médiocre28 » non entreprenante. Cette pensée, ancrée dans la « vision du monde traditionnelle » issue de l'ère industrielle, n'est selon nous pas adaptée à l'appréhension (et à la création) de la complexité de notre époque « post-normale » (Sardar, 2010), pourtant nécessaire pour développer la résilience sociale.

On ne peut pas, selon Danchin, prédire le futur mais seulement anticiper des tendances lourdes et créer un cadre favorable dans le présent pour induire la production de connaissances portant en elles l'imagination de nouveaux possibles. Le futur ne doit ainsi pas être spéculé mais construit, en « suivant l'impulsion de sa main, de son imagination et de son intellect ». Il nous semble donc nécessaire, pour appréhender efficacement la complexité, d'expérimenter (via une démarche de recherche – action ancrée dans l'éducation populaire) une nouvelle matrice sociale intégrant d'emblée la complexité et son analyse « fine », afin de « créer collectivement un système de pensée qui aide à guider une nouvelle société » (Danchin, 2016). Cette matrice est, dans le cadre de notre travail, le modèle ImagineerInt qui vise à concevoir stratégiquement des systèmes territoriaux Magitopiques (dimension locale / « sous-cercle » organisationnel) et interterritoriaux Magiceaniques (dimension globale « supercercle »).

LA MAGITOPIE COMME NOUVELLE VISION SYSTÉMIQUE « INTELLIGENTE » DES ORGANISATIONS TERRITORIALES REPOSANT SUR L'APPROCHE INTÉGRATIVE DE DONNÉES MOBILISÉE PAR DES CITOYENS SENSIBLES « GÉNIAUX »

Nous définissons, dans le cadre de notre modèle ImagineerInt, le concept de Magitopie29. Celui-ci connote une hétéreutopie paichistorique. En d'autres termes, un lieu « autre, singulier, savoureux et bon » faisant dialoguer en son sein activités sociales, ludiques et narratives au service d'un processus d'éducation populaire. Ce processus d'émancipation citoyenne mobilise ainsi les théories et stratégies du récit et du jeu dans le processus de travail de la réalité et de l'imaginaire social. La Magitopie renvoie donc à un système territorial créatif et évolutif, singulier et holomorphe propulsé par le modèle ImagineerInt

28 Le professeur de la pensée critique en science politique Alain Deneault (2015) définit la « médiocrité » comme « une moyenne en acte non réfléchie scientifiquement ». Il analyse ainsi ce qu'il nomme « médiocratie », qui désigne « un régime où la moyenne devient une norme impérieuse qu'il s'agit d'incarner. C'est l'ordre médiocre érigé en modèle ». Cet ordre induit, selon lui, une interchangeabilité des individus et des idées. 29 Mot issu de l'acronyme MAGITOPIA signifiant (dans son acception française) la « Maîtrise de l'Art de l'Intelligence Glocagénuitive au sein de Territoires via une Architecture Ouverte, de Pair-à-Pair et Imaginieriale ». L'intelligence glocagénuitive connote une intelligence synergique glocale (universelle alimentée par des organisations territoriales interconnectées), ingénieuses, inventives (Besson et Uhl, 2012), régénératives (Wahl, 2016) et intuitives (Bonnecarrere, 2017) reposant sur le paradigme de la complexité (Morin, 1991) et le paradigme de design ancré dans les Communs de capabilité (Fontaine, 2017). Ces organisations mobilisent la création, sur une base ouverte et distribuée, de sens concernant la réalité sociale à l'ère planétaire. Le sens renvoie ici aux trois dimensions définies par l'architecte et ingénieur Eric Cassar (2015), spécialisé dans l'analyse et la construction d'« ar(t)chitectures subtiles » : sensibilité, intelligibilité / raisonnement et « suivre une direction ». Cassar souligne, à propos des smart cities, qu'il est nécessaire de transgresser « l'ordre d'automatisation », en repensant la ville de l'intérieur, à l'échelle de l'homme et pour l'homme. Cette transgression commence par la création de singularités, l'ajout de l'aléatoire, et la réinjection de l'émotion à petite échelle. Nos villes doivent ainsi, pour cet architecte, « être les supports d'événements poétiques et de hasards heureux ». Cela commence en créant de la surprise, qui produit de l'émotion collective, qui produit le lien social, le vivre ensemble et l'interagir ensemble. La dimension « direction » du sens renvoie, dans le cadre de notre analyse, à la poursuite d'une direction écosocialement souhaitable et désirable (car soutenable) pour l'humanité, traduite et reflétée dans un projet de société eutopéen clair, attractif et inspirant partagé par les organisations Magitopiques évoluant au sein du même système Magiceanique.


©RevueCOSSI2018

84

conçu selon le modèle MAGILAB30. Ce modèle, que nous avons conçu comme forme « évoluée » d'un fab lab, vise à proposer un nouveau paradigme et système de développement pour les organisations territoriales, conçu par design pour permettre le développement de toutes sortes d'organisations territoriales « structurellement intelligentes », quelque soit leur nature (e.g., physique ou digitale) et échelle (e.g., ville, village, tiers-lieu, territoire numérique,..).

Le développement territorial de ces systèmes locaux repose sur le paradigme « poétique holendogène31 » intrinsèquement basé sur une progression écosociale durable ancrée dans l'émancipation citoyenne et la gestion harmonieuse des Communs (selon Ostrom, 1990). La « raison d'être » d'une Magitopie est l'invention locale de voies d'évolution positives pour l'humanité dans une perspective de progression sociale issue de l'émancipation citoyenne. Ce système repose, pour y parvenir, sur l'augmentation constante de la MAGI. Dit autrement, sur l'augmentation de la néguentropie (comme production et affinement des savoirs) afin de lutter contre le phénomène d'entropie sociale32 détruisant les cultures et les singularités « géniales » individuelles et collectives.

L'art et l'émerveillement y constituent un « contre-poison » (Danchin, 2016 ; Baud, 2016) favorisant la transformation désirable des organisations territoriales par le biais de « protentions collectives positives » (Stiegler, 2012). Ces protentions (visions créatives collectivement partagées et désirées) sont connexes d'un progrès durable reposant sur l'émancipation sociale. Les citoyens sont, au sein des organisations Magitopiques, inspirés pour devenir des sources d'information et de savoir. Ils vont ainsi nourrir une dynamique analytique et créative produisant de la diversité culturelle, de la complexité et, par extension, de la résilience sociale. La finalité est, par le biais de la production et l'interprétation de données par une communauté « qualifiante - quantifiante », de nourrir une innovation sociale permanente.

L'extrapolation du présent est opérée au travers d'une pensée intégrale complexe et évolutionnaire (Gauthier, 2013), inséparable d'une appréhension intersubjective de l'incertitude complexe. L'approche intégrative de données nourrit l'analyse « fine » des organisations Magitopiques ; en d'autres termes, des systèmes territoriaux « géniaux33 » ancrés dans la « norme d'exception ». Ceux-ci favorisent par design l'expression désinhibée de génies créatifs dans l'invention des futurs territoriaux via l'enrichissement d'une réalité dynamique et socialement construite sur une base ouverte et capacitative.

30 Matrice de développement territorial basée sur la tétrade fondamentale du game designer Jesse Schell (2008). Ce modèle repose sur une relation entre quatre dimensions fondamentales : l'esthétique (style culturel,...), les mécaniques (règles sociales régissant l'ordre social créatif), l'histoire (« récit territorial » co-construit par des citoyens imaginant sans cesse de nouvelles possibilités évolutives) et technologie (infrastructure TIC supportant les échanges intra et interterritoriaux,…). 31 Développement territorial holomorphe (connotant l'idée de « partie dans le tout et de tout supérieur à la somme des parties » selon Saloff Coste, 2013) basé sur le paradigme du « faire le maximum avec le minimum de ressources ». 32 Comme tendance à l'homogénéisation et à la dispersion intrasystémique pouvant, à terme, rendre impossible l'évolution des organisations sociales. 33 Le prospectiviste Michel Saloff Coste (2013) nomme génie des individus ou des organisations dont le regard singulier (i.e., incomparable et irremplaçable) a le pouvoir de changer notre manière de voir le monde.


©RevueCOSSI2018

85

LA MÉTHODOLOGIE DE RECHERCHE – ACTION IMAGINEERINT COMME DÉMARCHE « IMAGINACTIVE » NOURRISSANT LE PROCESSUS DE DÉCOUVERTE SCIENTIFIQUE AU SERVICE DE L'INNOVATION TERRITORIALE

Nous avons développé, dans le cadre de notre modèle ImagineerInt, une méthodologie de recherche – action spécifique. Cette méthodologie procédurale se base sur la démarche « imaginactive » en s’appuyant sur les travaux d'Einstein (1952), repris et complétés par Wentzel (2006). Elle intègre, en outre :

- Les analyses de Bruner (1986) concernant les deux modes de pensée (logico- scientifique et narratif/esthétique) ;

- Le processus d'éducation populaire défini par Maurel (2010, p. 218) comme « ensemble de processus par lequel les individus augmentent leur puissance propre et collective d'agir ainsi que leur capacité d'émancipation » ; et

- Le paradigme scientifique de « science citoyenne » tel que défini par Halperin (2016)34.

Notre approche évolutionnaire enrichissant la méthodologie d'Einstein et de Wentzel se base sur les analyses de Nijs (2014), qui souligne que « considérer les organisations comme des systèmes évoluant complexes (des systèmes adaptatifs complexes qui peuvent évoluer), appelle à une méthodologie appropriée : des approches, des méthodes et des outils appropriés pour les étudier et, deuxièmement, pour les aider à évoluer ». L'invention des futurs territoriaux de nature « hétéreutopiques » s'ancre, selon notre modèle ImagineerInt, dans le paradigme « rêver et expérimenter ensemble » qui repose sur :

- Le raisonnement « imaginactif » mobilisant les capacités imaginatives (afin de favoriser les « sauts de conjecture ») et imaginieriales (faisant dialoguer imagination créative et savoir-faire pour expérimenter de nouvelles idées) ; et

- La sérendipité : Comme « quête active » et « capacité » (selon Paveau, 2011) dans la recherche d’information, de connaissance, de savoir et d'ignorance dans le cadre d'une démarche imagineriale nécessitant une démarche « rêactive ».

L'imaginaction et la sérendipité favorisent ainsi, dans le cadre de ce processus, les découvertes inattendues en accordant une place fondamentale au « hasard » et aux hypothèses créatives. Notre méthodologie mobilise une culture de l'étonnement / questionnement permanent, via des sauts de conjecture induisant une émancipation temporaire du présent et de ses contraintes pour favoriser le décentrement et l'exploration de nouvelles perspectives analytiques et imaginatives. Le processus « imaginactif » puise son inspiration dans les ressources culturelles constituant la mémoire globale présente du MAGICEAN.

L'expérience passée des organisations territoriales, étoffée par les expériences singulières individuelles et collectives exprimées et reliées en leur sein, irrigue ainsi les processus créatif et innovationnel. L'expérience acquise doit ici servir de support pour appréhender les futures expérimentations créatives, sans pour autant brider ce processus induisant une potentielle infinité de manières et de perspectives pour aborder le(s) 34 Jennie Rose Halperin (2016) définit la science citoyenne comme « l'idée puissante que les communautés devraient être habilitées à participer au processus d'investigation scientifique, enquêter sur le monde qui les entoure et créer un changement sociétal dans le processus ».


©RevueCOSSI2018

86

problème(s) rencontré(s). Le processus de découverte de nouvelles connaissances et savoirs repose, dans le cadre de l'imaginierisation stratégique d'un territoire, sur l'expérimentation pleinement capacitée de citoyens rêacteurs.

Nous avons développé, afin de favoriser ce processus de travail de la réalité et de l'imaginaire social par le biais de la recherche – action, un modèle (nommé SOLARIS) de savoirs créatifs, complexes et synergisants. Ces savoirs formalisés évolutifs par design (nommés SOLIS) visent à constituer, dans le cadre du processus collectif d'analyse, un « jeu de données » reflétant et traduisant la réalité sociale créative complexe des Magitopies. L'élaboration de ces données « sensibles » et intelligibles (car systématiquement contextualisées dans une chronologie et généalogie) vise à alimenter l'imaginierie des futurs territoriaux au sein des Magitopies, par le biais d'un encodage ludo-narratif stratégique. Cet encodage mobilise l'expérience singulière « de vie » des individus afin de favoriser l'inspiration collective, via une « reliance expérientielle » gravitant autour d'un projet de société collectivement désiré. Le SOLARIS repose ainsi sur un principe fondamental de l'éducation populaire défini par Lepage (2016) comme « parler de soi dans l'approche d'une hypothèse » afin d'analyser et travailler collectivement la réalité sociale. Ce modèle enjoint par nature les individus à s'approprier symboliquement les données élaborées au sein des Magitopies afin de créer une potentielle infinité de connexions pouvant faire émerger de nouvelles idées ou visions (au sens de Wang, 2013). « Jouer avec les données » amène ainsi les acteurs Magitopiques à « jouer avec les futurs » (Minvielle et al., 2016). DISCUSSIONS Notre travail d'investigation sur le terrain se basant sur la méthode qualitative, nous souhaitons par le biais de cet article solliciter l'aide de la communauté scientifique pour expérimenter notre méthodologie de recherche – action, et hybrider les approches qualitatives et quantitatives, afin de produire un enrichissement de notre modèle théorique ImagineerInt. Notre projet expérimental étant conçu par design pour être ouvert et inclusif, nous serions ravis de multiplier les différentes approches méthodologiques afin de nourrir une réelle intelligence collective universelle à son égard. Nos collaborations avec des professionnels issus de secteurs variés (recherche, ingénierie mécanique, art, enseignement,…) ayant été pour l'instant très fructueuses, nous souhaitons ainsi élargir cette dynamique rêactive protentionnelle. CONCLUSION Nous avons essayé de démontrer, au travers de cet article, que l'approche intégrative de données peut constituer une voie d'évolution pertinente pour gérer et développer les organisations territoriales, sur une base créative et « imaginactive » ouverte et distribuée. Cette approche nous semble ainsi nécessaire pour appréhender au mieux la complexité croissante, sur la base d'une intelligence collective citoyenne engagée dans l'ensemble des processus liés aux données territoriales : production conscientisée, élaboration stratégique, interprétation collective, auto-hébergement et diffusion libre. L'utilisation des Big Data dans un but de contrôle social est déjà en cours dans certains pays35. Il nous 35 Pour la dimension économique, voir par exemple le cas de Google : http://www.journaldunet.com/economie/magazine/1177211-google-sidewalk-labs-smart-city/ ; pour la dimension politique, voir par exemple le cas de la


©RevueCOSSI2018

87

semble, de ce fait, fondamental de nourrir un réel débat public centré sur le type de société que nous désirons construire collectivement en tant que « citoyens éclairés » pleinement outillés pour être constructeurs de savoirs opportunisants, synergisants et émancipateurs. BIBLIOGRAPHIE Allard, L. (1999). Espace public et sociabilité esthétique. Communications, 68(1), 207-237. http://dx.doi.org/10.3406/comm.1999.2037 Allard, L., & Blondeau, O. (2014). Pour un Internet des Objets citoyen : vers une intelligence collective environnementale. http://www.citoyenscapteurs.fr/. Consulté le 10 janvier 2018, à l'adresse : http://www.citoyenscapteurs.fr/2014/05/01/pour-un-internet-des-objets-citoyens-vers-une-intelligence-collective-environnementale/ Alles, M., & Vasarhelyi, M. (2014). Thick data: adding context to big data to enhance auditability. International Journal Of Auditing Technology, 2(2), 95. http://dx.doi.org/10.1504/ijaudit.2014.066237 Bruner, J. (1986). Two modes of thought. In Actual minds, possible worlds. Cambridge: Harvard University Press. Capra, C. (2016). The Smart City and its Citizens. International Journal Of E-Planning Research, 5(1), 20-38. http://dx.doi.org/10.4018/ijepr.2016010102 Cassar, E. (2016). Pour une ar(t)chitecture subtile. Orléans: HYX. Costanza, R., & Kubiszewski, I. (2014). Creating a sustainable and desirable future. Hackensack, New Jersey: World Scientific. Danchin, L. (1997). Civilisations imaginaires. Paris: Halle Saint-Pierre. Danchin, L. (2016). Nouvelle norme : l'exception ou la statistique ?. Consulté le 10 janvier 2018, à l'adresse : https://www.youtube.com/watch?v=hTrifmS3lgI Danchin, L. (2016). A quoi servent les artistes ?. Consulté le 10 janvier 2018, à l'adresse : https://www.youtube.com/watch?v=wG5XuXjeS1w Danchin, L. (2016). Comment vois tu l'avenir ?. Consulté le 10 janvier 2018, à l'adresse : https://www.youtube.com/watch?v=dm6kOhtphcY Deglise, F. (2014). Ville intelligente, citadin stupide?. Le Devoir. Consulté le 10 septembre 2017, à l'adresse: http://www.ledevoir.com/societe/actualites-en-societe/400827/ville-intelligente-citadin-stupide. Deneault, A. (2016). La médiocratie. Montreal: Lux Editeur. Chine : https://www.washingtonpost.com/world/asia_pacific/chinas-plan-to-organize-its-whole-society-around-big-data-a-rating-for-everyone/2016/10/20/1cd0dd9c-9516-11e6-ae9d-0030ac1899cd_story.html (consultés le 05 septembre 2017).


©RevueCOSSI2018

88

Dent, E. (1999). Complexity Science : A Worldview Shift. Emergence, 1(4), 5-19. http://dx.doi.org/10.1207/s15327000em0104_2 Dixon, B., & Lahe, L. (1988). Imagineering Futures: The Epcot Experience. The Journal of Creative Behavior, 22(4), 229-234. Francisco, A., & Sen, A. (1996). Inequality Reexamined. Reis, (75), 345. http://dx.doi.org/10.2307/40184045 Généreux, J. (2006). La dissociété. Paris: Éd. du Seuil. Halperin, J. (2016). Collaboratively generating more knowledge: Public Lab's approach to citizen science. Creative Commons. Consulté le 10 janvier 2018, à l'adresse : https://creativecommons.org/2016/09/07/collaboratively-generating-knowledge/ Herbaux, P. (2007). Intelligence territoriale: Repères théoriques. Paris: Harmattan. Jack, G. (2007). International management and ethnography. Ethnography, 8(3), 361-372. http://dx.doi.org/10.1177/1466138107081029 Johnson, B. (1992). Polarity Management: Identifying and Managing Unsolvable Problems,. Amherst: HRD Press. Jordan, S. (2016). Hacking the streets: ‘Smart’ writing in the smart city. First Monday, 21(1). http://dx.doi.org/10.5210/fm.v21i1.5529 Klein, E. (2017). Einstein ou l'art de dépasser les limites du monde. Consulté le 10 septembre 2017, à l'adresse: https://www.youtube.com/watch?v=1y34Obv3OVo Lepage, F. (2012). Education populaire: Une utopie d'avenir. Paris: Les Liens qui libèrent. Lessig, L. (2004). Free culture: How big media uses technology and the law to lock down culture and control creativity. New York: Penguin Press. Lévy, P. (1997). L'Intelligence collective. Paris: La Découverte/Poche. Maurel, C. (2010). Éducation populaire et puissance d'agir. Paris: Harmattan. Maurel, C. (2010). Education populaire et travail de la culture. Paris: L'Harmattan. McGonigal, J. (2011). Reality is broken. New York: Penguin Press. Minvielle, N., Wathelet, O., & Masson, A. (2016). Jouer avec les futurs : Utilisez le design fiction pour faire pivoter votre entreprise. Pearson Education. Nijs, D. (2014). Imagineering the butterfly effect: Transformation by inspiration. The Hague: Eleven international publishing. Ostrom, E. (1990). Governing the commons. Cambridge: Cambridge University Press.


©RevueCOSSI2018

89

Pasquale, F. (2016). The Black Box Society: The Secret Algorithms That Control Money and Information. Harvard University Press. Poole, M. & Van de Ven, A. (2004). Handbook of organizational change and innovation. Oxford, UK: Oxford University Press. Raisson, V. (2016). 2038 Les futurs du monde. Robert Laffont. Saloff Coste, M. (2005). Le management du troisième millénaire: Anticiper, créer, innover: Introduction à une nouvelle gouvernance pour un développement durable dans la société de l'information. Paris: G. Trédaniel. Saloff Coste, M., Dartiguepeyrou, C., & Laurence, G. (2005). Trouver son génie: Valoriser ses talents: Construire son projet de vie. Paris: G. Trédaniel. Sardar, Z. (2015). Postnormal times revisited. Futures, 67, 26-39. http://dx.doi.org/10.1016/j.futures.2015.02.003 Sardar, Z. (2010). Welcome to postnormal times. Futures, 42(5), 435-444. http://dx.doi.org/10.1016/j.futures.2009.11.028 Schaffer, S. (1996). Disney and the Imagineering of Histories. Postmodern Culture, 6(3). http://dx.doi.org/10.1353/pmc.1996.0028 Schell, J. (2008). The art of game design. Pittsburgh, PA: Schell Games. Schneier, B. (2016). Data and Goliath: The Hidden Battles to Collect Your Data and Control Your World. W. W. Norton & Company. Stallman, R. (2002). Free software, free society: Selected essays of Richard M. Stallman. Boston, MA: Free Software Foundation. Stiegler, B., Nancy, J., & Jugnon, A. (2016). Dans la disruption. Paris: Les Liens qui Libèrent. Stiegler, B. (2008). Réenchanter le monde. Paris. Flammarion. Tierce, N. (2017). Land of Tomorrow, Myth for Today — A Video Essay. Consulté le septembre 2017, à l'adresse: https://www.youtube.com/watch?v=ZSx2i7lqY5M Thompson, C. (2014). Relying on Algorithms and Bots Can Be Really, Really Dangerous. WIRED. Retrieved 10 January 2018, from https://www.wired.com/2013/03/clive-thompson-2104/ Trowsdale, J. (2016). Imagineering: Re-Creating Spaces through Collaborative Art- Making. Creativity. Theories – Research - Applications, 3(2). http://dx.doi.org/10.1515/ctra-2016-0018 Wahl, D. (2016). Designing regenerative cultures. Triarchy Press Ltd.


©RevueCOSSI2018

90

Wang, T. (2016). Big Data Needs Thick Data. Ethnography Matters. Consulté le 10 septembre 2017, à l'adresse: http://ethnographymatters.net/blog/2013/05/13/big-data-needs-thick-data/ Wentzel, A. (2006). Conjectures, constructs and conflicts: A framework for understanding imagineering. Applied Evolutionary Economics and the Knowledge-based Economy.


©RevueCOSSI2018 91

Faire parler ses données : de la masse à la substance, le sens en question

Francis BEAU Université de Valenciennes et du Hainaut-Cambrésis - DeVisu

UVHC - Campus Mont Houy [email protected]

Résumé : Les progrès des outils informatiques et des réseaux permettent l’accès à des masses considérables de données (big data) dont le traitement semble devoir se prolonger pour apporter de la substance (thick data) à des données au préalable affinées (smart data). Afin de légitimer une stratégie de gestion de l’information originale dont nous présentons le principe appliqué à une méthode opérationnelle d’organisation des connaissances dans une mémoire collective, nous nous appuyons sur l’observation des processus de construction de sens, pour étudier la nature des traitements associés à ces différentes approches de la notion de data. Puisant nos arguments dans les humanités plus que dans le génie numérique, nous montrons que, du cumul des données à l’agrégation des savoirs en passant par la représentation des connaissances, le sens mû par une volonté et déterminé par un besoin d’agir, joue en effet un rôle essentiel dans le fonctionnement d’un système d’information. Mots-clés : data, connaissance, savoir, sens, mémoire, numérique, analogique, facettes Abstract : The progress of computer tools and networks enable access to massive amounts of data (big data) whose processing seems likely to be extended in order to bring substance (thick data) to data previously refined (smart data). In order to legitimate an original information management strategy as the one we present the principle applied to an operational method of knowledge management in a collective memory, we rely on observation of building sense processes, to study the nature of the processes associated with those different approaches to this notion of data. Drawing our arguments from humanities better than from digital engineering, we show as a matter of fact that, from accumulation of data to aggregation of knowledge passing by representation of cognition, sense moved by will and determined by need for action, play an essential role in the operation of an information system. Keywords : data, cognition, knowledge, sense, memory, digital, analogical, facets


©RevueCOSSI2018 92

INTRODUCTION Comment concevoir un système d’information permettant la mise en œuvre d’une véritable stratégie de gestion de l’information qui fasse sens des données recueillies ? Pour poser le problème, il faut passer par des considérations théoriques, à commencer par le vocabulaire utilisé que l’on doit bien préciser : la mémoire et tous ses ingrédients qui participent à la construction du sens, puis les notions d’épistémè chez Foucault ou d’épistêmê aristotélicienne et de doxa qui en éclairent le fonctionnement. Mais cette étude très théorique n’aurait à son tour aucun sens si elle n’obéissait pas à une volonté, qui s’exprime dans des applications, celles-là bien pratiques, dont les métiers d’exploitation de l’information éprouvent un besoin croissant. Nos développements théoriques ont donc pour première ambition de légitimer l’originalité d’une démarche essentiellement méthodologique qui va ainsi à contre-courant d’une tendance générale à la suprématie incontestée de la technique. Pour mettre en place une stratégie de gestion de l’information efficace, il nous a semblé en effet important de redonner toute sa place aux sciences humaines dont les sciences de l’information et de la communication relèvent, dans un paysage assurément trop dominé par des technologies de l’information et de la communication en pleine effervescence, qui relèvent quant à elles des sciences dites exactes, sciences de l’ingénieur ou « sciences du calcul ». Résolument théoriques, mais fondés sur l’expérience, nos travaux s’inscrivent ainsi dans une démarche foncièrement pragmatique d’adaptation des pratiques aux progrès technologiques, qui revendique toutefois la volonté de ne rien abandonner à une technique de plus en plus hégémonique. Problématique : information et donnée, un même objet, deux points de vue distincts

L’information n’existe pas en tant que telle si elle n’est pas effectivement reçue. Pour l’esprit qui la reçoit, elle est connaissance, et vient modifier son savoir implicite ou explicite. (Meyriat, 1985)

Comment concevoir une stratégie de gestion de l’information efficace faisant sens de données recueillies massivement ? Autrement dit comment passer de la donnée reçue à l’information utile pour la décision dans l’action ? Ou encore « comment transformer les torrents de données en fleuves de connaissances ? » (Lévy, 2015). Avant toute tentative de réponse à cette question, il s’avère nécessaire de bien distinguer la notion d’information de celle de donnée. Il faut, entend-on souvent, « donner un sens aux données » (Blais & Martineau, 2006). Un trait caractéristique du concept de data, qui s’impose comme un leitmotiv à la lecture, tant de la littérature scientifique que de la presse généraliste ou technique, tient dans l’expression « faire parler ses données » (Allard, 2015). Quelle que soit la forme qu’elle peut prendre au fil des pages (faire sens de ses données, donner du sens à ses données, tirer du sens de ses données…)36, la question du sens semble donc bien centrale en matière de traitement des données, au point de transformer la perception que l’on a de leur silhouette, qui passerait de « grosse » à « épaisse »37 en donnant de la consistance ou de la substance à la masse disponible. La notion de sens s’inscrit dans un triptyque :

- les 5 sens, auxquels on ajoutera l’intuition qui enclenche le passage du sensible à l’intelligible (les capteurs ou instruments de collecte des données, en réception) ;

- le sens de la flèche (le processus de traitement des données, de conception ou de conceptualisation, passage du sensible à l’intelligible ou du sentiment à l’idée, puis du concept au symbole et de l’opinion au discours) ;

- et la signification (le produit de ce traitement, c’est-à-dire le discours ou un ensemble de signaux porteurs de sens, en émission).

36 (Bollier, 2010), (Paillé, 1994), (Balslev & Saada-Robert, 2006), (Vierset, 2016), (Cardon, 2012). 37 Traduction littérale de l’anglais thick que l’on pourrait traduire aussi par « concret », au sens de « consistant » (emprunté du latin concretus, « épais, compact », adjectif tiré du participe passé de concrescere, « croître par agglomération, se solidifier ».


©RevueCOSSI2018 93

La donnée passerait donc de « grosse » (big data) à « épaisse » (thick data), tout au long d’un processus de construction de sens qui passe par un stade intermédiaire de conceptualisation, indiquant paradoxalement plus de finesse ou « d’intelligence » (smart data).

Figure 1. Le processus de construction de sens.

De tels adjectifs utilisés pour qualifier les données traduisent bien, l’énormité des gisements de données auxquels nous sommes désormais confrontés, ainsi que les immenses capacités de calcul dont nous disposons pour les traiter. Mais le recours même à ces épithètes, qui répond à un besoin de distinguer bien concret, conduit à s’interroger sur la terminologie en usage pour désigner d’un même nom des réalités sensiblement différentes. La donnée change en effet de statut selon la nature du traitement qui lui est appliqué. Allant de l’observation sélective et du calcul algorithmique portant sur de simples traces numériques en quantité massive (big), celui-ci fait place à un traitement plus fin (smart) semblable à celui de la pensée émanant de l’intuition et de l’interprétation analogique via la visualisation d’une idée, pour évoluer jusqu’à l’énonciation linguistique d’un jugement de nature dialectique par agrégation de données (thick) plus substantielles (voir plus loin figure 3). Le terme « donnée » n’est en réalité, dans l’usage courant, qu’une formulation particulière de ce concept d’information si difficile à définir : dès lors qu’elle a été massivement recueillie (big data), la donnée se transforme méthodiquement, pour générer une information plus substantielle (thick data) susceptible d’être communiquée. Le lieu de cette transformation est un système d’information et de communication ou une mémoire collective, dont nous allons examiner le fonctionnement que l’on peut rapprocher de celui de notre mémoire individuelle. On y retrouve en effet à une échelle macroscopique, sous le terme générique d’information, la donnée en entrée du système, puis la connaissance en perpétuelle transformation dans le système, et le savoir en sortie, produit de la rencontre d’une connaissance avec un sujet qui donne sens à son action en l’éclairant. Dans une logique de communication appliquée à une mémoire humaine impliquant un émetteur (donateur) et un récepteur (donataire), quelle que soit sa position dans le processus de construction de sens, et quel que soit son mode de traitement, automatique (calcul), intellectuel (idée) ou logique (jugement), on peut comprendre que l’information soit considérée par le donataire/récepteur à qui celle-ci est « donnée », comme une « donnée » du problème qui se pose à lui. Mais ce donataire/récepteur devient progressivement concepteur en donnant sens à la donnée pour en faire une connaissance intelligible puis un savoir, en lui donnant de la consistance ou de « l’épaisseur » dans sa mémoire. L’information qui lui est donnée change ainsi de statut au fur et à mesure de son traitement : elle prend sens en devenant connaissance, puis savoir, acquérant ainsi de la consistance ou de « l’épaisseur » dans sa mémoire. Les spécialistes des transmissions ou des « télécommunications », terme révélateur du caractère technicien de l’approche applicative souvent choisie pour aborder les problèmes de traitement de l’information et de communication, s’intéressent au signal et à son conditionnement physique pour une transmission optimale par des machines. Les informaticiens s’intéressent quant-à-eux aux données et à leur traitement automatique par des machines destinées à suppléer l’homme dans toutes les tâches accessibles à des opérations purement calculatoires. Ce sont tous des ingénieurs dont les préoccupations théoriques répondent à des motivations éminemment techniques : leurs applications pratiques sont des machines destinées à augmenter artificiellement les performances individuelles. Les recherches en intelligence artificielle connaissant un essor nouveau avec le phénomène des big data,


©RevueCOSSI2018 94

tout comme la cybernétique, placée sur le devant de la scène médiatique depuis que l’interconnexion des ordinateurs en réseau a fait la fortune du préfixe « cyber » en réalisant un espace d’information et de communication mondial que l’usage a consacré sous le nom de cyberespace, relèvent d’une même approche très technicienne des systèmes d’information et de communication. Tandis que l’ingénieur se préoccupe des données et de la manière d’en traiter (informatique) ou d’en transmettre (télécoms), le plus possible, le plus vite possible, le plus loin possible et au moindre coût, le chercheur en sciences de l’information et de la communication s’intéresse quant-à-lui à leur transmission, c’est-à-dire à leur transformation, qui répond à un besoin de sens attaché à l’élaboration des connaissances (information) pour aboutir à la restitution d’un savoir (communication). Son attention se concentre sur le facteur humain, qui joue un rôle majeur dans le fonctionnement d’une mémoire collective. Il s’intéresse en particulier à l’effet produit par le signal chez un sujet (le sens) et à sa transmission, dans le cadre de la construction d’un jeu collectif mettant en scène les différents acteurs du système d’information et de communication (ou mémoire collective). Ses développements applicatifs s’attacheront à l’amélioration des passes entre les joueurs, de la réception des données à la restitution d’un savoir commun en passant par l’élaboration d’une intuition collégiale donnant sens au jeu collectif, plutôt qu’aux progrès des performances techniques demandées aux outils de traitement et de transmission des données. Big data et thick data : la lunette astronomique et la bibliothèque

Les données d’aujourd’hui correspondent à ce que l’épistémologie des siècles passés appelait les phénomènes. Pour continuer de filer cette métaphore, les algorithmes d’analyse de flux massifs de données d’aujourd’hui correspondent respectivement aux instruments d’observation de la science classique. Ces algorithmes nous montrent des patterns, c’est-à-dire en fin de compte des images. (Lévy, 2015, 83)

En entrée de la mémoire collective qui les traite, certaines données peuvent s’identifier à des ensembles discrets de valeurs exactes accessibles au calcul (data). Ce sont des faits tangibles, fruits de l’observation empirique, dûment répertoriés et catégorisés, c’est-à-dire que leur trace s’inscrit à la fois physiquement et conceptuellement dans une mémoire numérique. Il suffit alors de les accumuler, en confiant leur traitement à des algorithmes conçus pour en tirer de nouvelles informations par le calcul et apporter ainsi des solutions aux problèmes posés par l’incertitude inhérente à la décision dans l’action. Au départ, il y a une multitude de données éparses qui peuvent être des traces d’évènements38, d’actions ou de pensée, c’est-à-dire l’expression numérique de faits observés, dont le sens global nous échappe du fait de leur éparpillement dans le temps ou dans l’espace, mais dont l’accumulation puis la quantification fait sens. Des algorithmes intelligemment conçus pour ordonner dans des ordinateurs toutes ces données selon une logique correspondant à un besoin de savoir dûment identifié, peuvent alors proposer des solutions statistiques ou calculées qui viennent enrichir nos savoirs pour résoudre nos problèmes de décision dans l’action. Ce que les Anglo-Saxons nomment big data, que nous traduirons en français par « cumul de données », « données cumulées » ou « données de masse », ou encore depuis peu par celui de « mégadonnées » (Brasseur, 2016) c’est ce travail sur la donnée qui va être recueillie, puis soumise au calcul pour proposer de nouvelles informations. Sans préjuger des progrès des outils algorithmiques dans les années à venir, particulièrement en matière de visualisation des données (Reymond, 2016), d’intelligence artificielle et « d’apprentissage profond » (LeCun, 2016) ou de codage de la signification linguistique (Lévy, 2015), observons qu’il ne s’agit là que de progrès techniques appliqués aux instruments de la connaissance. Il en a été de même par le passé avec la lunette astronomique qui a permis un bond significatif en matière de recueil des données, ou avec la bibliothèque, en matière de diffusion des savoirs. Dans un monde dominé par la technique, il semble important de ne pas focaliser notre attention sur les seuls instruments que la technologie nous propose (voire parfois nous impose), en s’intéressant d’abord au besoin opérationnel qui donne sens à l’information dans l’action, et à la volonté qui l’anime.

38 Il s’agit de transformer des empreintes en indices, de faire signe avec des traces (Merzeau, 2009).


©RevueCOSSI2018 95

Figure 2. Le besoin et la volonté au service de l’information.

Notre travail repose ainsi sur un principe fondamental imposant d’admettre que le processus de décision dans l’action collective soit toujours mû par une volonté humaine qui fait sens et intervient tout au long des opérations de gestion de l’information, même fortement automatisées. Ce principe incontournable aux allures de postulat, certes peu susceptible d’être établi scientifiquement mais humainement rassurant, nous apparait en effet pour l’heure, comme le plus apte à fonder la conception d’une mémoire collective garantissant une pertinence maximale de l’information en sortie du système. C’est la raison pour laquelle nous avons jugé nécessaire de penser le système d’information autrement que sous l’angle des algorithmes et des seuls outils informatiques, en le considérant sous l’angle du sens et de sa construction dans la mémoire. Pour fixer le vocabulaire, on peut ainsi procéder par analogie en observant que le Big data est au thick data ce que la lunette astronomique est à la bibliothèque scientifique en astronomie : un instrument de recueil des faits au service de la diffusion du savoir. Le Big data ou l'analyse des données massives constitue le télescope moderne qui permet de voir plus loin, plus large ou tout simplement mieux. Il est ainsi clairement cantonné à l’observation et au recueil des faits (données de masse), tandis que le thick data ou la composition de données substantielles se consacre à la diffusion du savoir qui procède de leur traitement. Tout comme les livres dans une bibliothèque, les thick data obtenues à l’issue du processus de construction de sens, mû par une volonté elle même animée par un besoin, sont des instruments œuvrant à la diffusion d’un savoir, terme que l’on préfèrera à celui de data popularisé par une informatique omniprésente. À l’heure des technologies numériques désormais incontournables, le document qui demeure plus que jamais cet instrument élémentaire de diffusion du savoir assurant une fonction sociale de transmission de sens entre individus, est amené à jouer un rôle central dans le fonctionnement de notre mémoire collective, comme dans celui de toute bibliothèque dont il est le composant élémentaire sous forme de livre. La construction du sens dans une mémoire : de la donnée à l’information

Il paraît que les nombres parlent d’eux-mêmes. Mais c’est évidemment oublier qu’il faut, préalablement à tout calcul, déterminer les données pertinentes, savoir exactement ce que l’on compte, et nommer – c’est-à-dire catégoriser – les patterns émergents. (Lévy, 2015)

Nous nous intéressons donc à la construction du sens dans le système d’information et de communication que nous assimilons à une mémoire. En entrée de notre mémoire collective, d’autres données ne peuvent pas s’identifier à des valeurs exactes, comme peuvent l’être les data accessibles au calcul. C’est en particulier le cas des informations portées par des signaux analogiques, comme de toutes celles directement perçues par nos sens. C’est également le cas de la plupart des informations issues de la pensée (connaissances ou savoirs en forme de jugements), sauf à n’en considérer que les simples traces numérisées (métadonnées documentaires) y-compris celles liées à l’ingénierie linguistique pour la traduction automatique, seules porteuses de valeurs exactes accessibles au calcul numérique. Le traitement algorithmique ne peut plus alors s’appliquer à ce type de données et doit céder la place à un traitement intellectuel, substituant aux faits une « représentation abstraite » (analogie) de leur


©RevueCOSSI2018 96

« manifestation concrète », qui « fait sens », soit une « information » (Beau, 2017), en s’attachant à nommer – c’est-à-dire catégoriser – les patterns émergents. Dans notre mémoire individuelle, c’est la pensée qui réalise ce traitement en donnant naissance à de nouvelles informations qui ne sont plus seulement le produit d’un calcul numérique, mais celui d’un jugement émanant d’une idée à caractère analogique par essence. Pour distinguer ces informations qui sont des objets traités par la pensée, des données qui sont des objets traités par des algorithmes, nous leur réservons le terme de « connaissance » qui illustre bien, par analogie, cette genèse réalisée par la pensée (cf. figure 3). De la fonction statistique de traitement des « données de masse » (big data) en entrée, à la fonction documentaire d’agrégation des « données substantielles » (thick data) en sortie, en passant par la fonction cognitive de traitement des « données intelligentes » (smart data), ce travail est celui de la mémoire dont nous avons décrit quelques grandes lignes dans une communication récente portant sur la « construction de sens » dans un « système d’information et de communication » envisagé comme « une mémoire collective » (Beau, 2016). Celles-ci que nous avons introduites aux paragraphes précédents peuvent être résumées dans le schéma de la figure 3 ci-dessous.

Figure 3. Le processus de construction de sens dans la mémoire.

À partir de données multiples issues du calcul (big data ou données de masse) ou de tout autre type de ressource (observation directe, veille, enquête…), délivrant des données que l’on dira « substantielles » pour traduire le thick data des Anglo-Saxons, recherchées puis recueillies pour rencontrer un besoin de sens dans l’action, une information de synthèse est élaborée. Cette information que l’on dira actionnable pour exprimer le fait qu’elle est utile à l’action passe par l’état de connaissance transformée en savoir pour agir. Pour compléter l’idée que nous nous faisons des notions de connaissance et de savoir dans le système d’information, nous limiterons le sens attribué à la donnée à celui que lui donne Bergson (1888) dans le titre de son « Essai sur les données immédiates de la conscience », qui désigne ce qui est connu immédiatement par observation directe, indépendamment de toute élaboration de l'esprit. Envisager une mémoire collective uniquement sous l'angle de l'échange de données, qu’elles soient « massives », « intelligentes » ou « substantielles », ce serait ainsi la réduire à sa dimension tacite, c'est-à-dire se priver de toute sa dimension consciente ou explicite. Sans conscience, la mémoire ne serait que technique sans théorie, pratique sans sagesse ou savoir-faire sans savoir. Elle ne serait alors que « ruine de l’âme » pour plagier la formule que Rabelais appliquait à la science. À partir d’une observation et d’un traitement numérique en entrée, dont les performances s’améliorent avec les progrès de la technique, on souhaite donc aboutir en sortie à une information en forme de produit dialectique (un discours) accessible à tous ceux qui pratiquent la langue adoptée par la collectivité.


©RevueCOSSI2018 97

l’épistêmê aristotélicienne et Les épistémès foucaldiennes Pour préciser encore ces différentes notions qui interviennent dans la construction du sens, on peut s’appuyer sur nos racines grecques et en particulier avec Aristote sur la notion d’épistêmê, reprise beaucoup plus tard par Michel Foucault (1966) dans « Les mots et les choses » pour désigner la pensée ou le discours scientifique d’une époque. Tantôt traduite par le mot « science », tantôt par le mot « savoir », la notion d’épistêmê s’applique chez Aristote à la science théorique (theôría), l’observation exercée avec discernement ou sagesse (sophia), prolongée par la science pratique (praxis) exercée avec méthode, sagacité ou prudence (phronesis), puis par la science productive (poïésis) exercée avec habileté ou technique (technè). Dans notre système d’information et de communication (figure 4), on retrouve en entrée, le récepteur qui observe (theôría) avec discernement (sophia) une information qui est une donnée de son problème, mise en œuvre (praxis) par un concepteur qui élabore avec méthode (phronesis) une nouvelle information intelligible, puis en sortie, un émetteur qui produit (poïésis) avec habileté (technè) une information substantielle.

Figure 4. L’épistêmê dans la mémoire collective.

C’est donc tout naturellement sur la méthode que nous avons fait porter notre effort pour améliorer les pratiques. En effet, l’épistémè, entendue au sens que Michel Foucault lui donne dans Les mots et les choses, est illustré par trois grands moments de la culture occidentale : la Renaissance avec l’invention de l’imprimerie, la période Classique avec ses académies, puis l’époque Moderne qu’il craint de voir évoluer vers une disparition de l’homme qui « s’effacerait, comme à la limite de la mer un visage de sable » (Foucault, 1966). Pour éviter que ces craintes ne se concrétisent, nous pensons qu’il faut dépasser la seule dimension numérique et sa vertu exclusivement technique, qui domine le paysage épistémique actuel, en limitant la technique à son rôle instrumental et en donnant la priorité à la méthode et à son rôle essentiel pour la science. Doxa et intuition, langue et pensée, la question du sens C’est ainsi, dans l’esprit de cette épistémè foucaldienne, que nous pensons utile d’appeler de nos vœux une période post-moderne redonnant à la méthodologie toute sa place aux côtés de la technologie numérique qui domine la période moderne. Nous nous appuyons pour cela sur une notion complémentaire de l’épistêmê chez Aristote, la doxa, mot que certains auteurs traduisent par « endoxe » (Pelletier, 2007). Pour imager notre propos, nous pouvons dire que l’endoxe est à l’intuition ce que la langue est à la pensée : une réponse analogique à la question du sens. Chez Aristote en effet, la doxa est une idée partagée par tous (ou la plupart) parce qu’elle répond à une attente (un besoin) des sages, pour faire progresser la théorie avec discernement, la pratique avec


©RevueCOSSI2018 98

méthode et la production avec habileté (Beau, 2016). On peut ainsi dire qu’elle est complémentaire de l’épistêmê (figure 5), c’est-à-dire de la théorie (theôría) et de la sagesse (sophia) associée, qu’elle fait progresser en lui donnant un sens déterminé par un besoin (l’attente des sages), pour mettre en œuvre une pratique (praxis) avec méthode (phronesis), puis réaliser un produit (poïésis) dont une des habiletés (technè) peut être une nouvelle doxa dans une sorte de boucle de rétroaction revenant à l’observation des données disponibles pour améliorer les connaissances pratiques et produire de nouveaux savoirs techniques.

Figure 5. Épistêmê et doxa.

L’endoxe est l’élément central de la construction de sens dans notre mémoire collective. Elle façonne l’intuition collective et le jugement commun, comme la langue conditionne la pensée et le jugement individuels : en réponse à une attente. Face à une masse de données à exploiter en constante augmentation, elle doit faire évoluer l’épistémè actuelle pour permettre de concevoir une connaissance intelligible et émettre un savoir substantiel. Cette épistémè « moderne » demeure en effet fondée sur une technè numérique omniprésente, dont on observe qu’elle bouscule profondément la fonction documentaire dans nos systèmes d’information au point de placer cette dernière au cœur de ces grandes « révolutions culturelles et cognitives » décrites par Michel Serres (2007), dont celles de l’écriture puis de l’imprimerie et maintenant du numérique. Celles-ci affectent en effet le « couplage entre un support et un message », dont la « quadruple caractéristique (stocker, traiter, émettre et recevoir de l’information) » est « commune aux sciences humaines et aux sciences dures ». Entre une fonction statistique en pleine effervescence et une fonction documentaire à vocation collective de transmission de sens dans un espace-temps de plus en plus contracté par les nouvelles technologies de l’information et de la communication, c’est la fonction cognitive qui est désormais sollicitée en abordant l’exploitation des data comme une « formidable machine à produire du sens nouveau » (Leleu-Merviel, 2004). On touche là au noyau dur des problèmes d’organisation des connaissances en environnement électronique qui est précisément celui de la transformation des « big data » en « thick data ». La nouvelle épistémè doit ainsi pouvoir reposer sur un corpus méthodologique consistant, dont un des objectifs pourra être d’organiser le fonctionnement d’une mémoire collective. Le document « électronique », adjectif que nous préférons à « numérique » afin de nous démarquer de l’emprise informatique, est amené à y jouer tout son rôle, qui est essentiel dans le processus de construction de sens. Il nous faut donc donner à cette épistémè « post-moderne » toute la consistance de la dimension analogique d’un discours plus dialectique, mais pas moins scientifique pour autant, en revenant avec Aristote à la source de la Grèce antique et à un mode de pensée plus géométrique qu’algébrique. Si les traitements numériques semblent donc parfaitement adaptés au passage de la fonction statistique à la fonction cognitive, et encore loin d’avoir épuisé toutes leurs ressources en la matière, le passage de la fonction cognitive à la fonction documentaire semble quant à lui plus adapté à un traitement de nature analogique. Pour s’en convaincre, on peut s’appuyer sur ce que l’on observe du fonctionnement de la langue dans la mémoire individuelle. Contrairement au calcul qui fait de la mémoire des ordinateurs un outil


©RevueCOSSI2018 99

numérique dédié au traitement des données, la langue est en effet un outil que l’on peut dire analogique pour indiquer le fait qu’elle procède par analogies, c’est-à-dire en entretenant un rapport de ressemblance avec les objets qu’elle manipule. C’est elle qui conditionne la pensée et fait de notre mémoire spécifiquement humaine un système analogique dédié à l’exploitation d’une information qui s’agrège dans un discours. C’est donc aussi une langue (ou un langage documentaire) qui va faire de notre mémoire collective un système analogique dédié à l’exploitation d’une information qui s’agrège dans des documents assurant une fonction sociale de transmission de sens entre individus, à la fois dans l’espace et dans le temps. Conclusion : enjeux et perspectives

Nous devons maintenant nous appuyer sur la puissance de calcul de l’Internet pour « théoriser » (catégoriser, modéliser, expliquer, partager, discuter) nos observations, sans oublier de remettre cette théorisation entre les mains d’une intelligence collective foisonnante. (Lévy, 2015)

Sans aller jusqu’à espérer la « société datacentrique » que Pierre Lévy nous annonce, fondée sur le « médium algorithmique » et l’adoption généralisée d’un métalangage tel que « le langage IEML (ou tout autre système universel de codage computationnel du sens) », « la maîtrise des données, à commencer par leur maîtrise intellectuelle » à l’aide d’une intelligence collective foisonnante, devient sans aucun doute « un enjeu scientifique et social majeur ». Nous pensons néanmoins que les sciences de l’information et de la communication doivent contribuer à remettre de l’humain dans les technologies de l’information et de la communication en proposant une « théorie scientifique » de l’information différente de toutes celles issues de la « théorie mathématique de la communication » (Shannon, 1948), qui permette de concevoir des systèmes d’information documentaires capables « d’optimiser la distribution de l’information pour qu'elle soit appropriée aux besoins de chacun », ce que « nous ne savons pas encore » faire (Babinet, 2016). Cette théorie doit selon nous se fonder plus sur l’observation des pratiques des hommes que sur celle du développement à marche forcée de techniques numériques de plus en plus performantes au point de laisser croire que l’on pourrait un jour s’affranchir du travail de la pensée. L’intuition collective et le besoin de sens qui l’anime, soutenu par une volonté commune elle-même initiée par des sensations ou des émotions partagées, doivent être selon nous au cœur de toute réflexion théorique en matière de systèmes d’information. Une telle « théorie scientifique » de l’information pourrait marquer l’avènement d’une épistémè post-moderne ou d’une « ère post-numérique » (Beau, 2015), alliant l’ordre et l’harmonie d’une culture analogique classique au génie numérique moderne en apportant à la méthode le soutien indispensable susceptible d’assurer son ascendant sur la technique. Afin de légitimer une telle approche des systèmes d’information empruntant donc plus aux humanités qu’aux sciences de l’ingénieur, nous travaillons à la formulation des principes d’une méthode de recherche et de partage de l’information, dont l’instrument principal n’est pas le support numérique gestionnaire de données massives, ni l’intelligence artificielle pourvoyeuse de connaissances nouvelles, mais le document électronique recueil de savoirs humains. Son exploitation y est envisagée comme un sport d’équipe, dans un système d’information documentaire à facettes impliquant le lieu et le temps, à l’image des cinq sens complétés par l’intuition qui fédère l’ensemble. L’enjeu est d’améliorer la pratique du système par une communauté organisée autour d’une fonction commune qui donne sens à son jeu collectif. Notre expérience de ce jeu dont le document est le principal instrument, nous a en effet conduit à la réalisation d’un système opérationnel de planification de l’activité documentaire d’une communauté réunie autour d’un besoin de savoir pour exercer sa fonction. Celui-ci est associé à un système « d’indexation analogique » fondé sur un langage documentaire et une « grammaire » qui l’organise, calquée sur une hiérarchie des sens, dont nous avons pensé utile d’approfondir les fondements scientifiques en puisant à la source des sciences humaines. L’homme étant au cœur du système, c’est en effet, selon nous, bien à ces dernières qu’il revient de théoriser cette expérience de jeu collectif. À l’heure des technologies numériques et du web sémantique, nous avons donc fait le choix délibéré de faire appel à une théorie de l’information, ancrée dans les humanités de la pensée, de la langue et de la grammaire qui l’organise, plutôt que dans la technique du calcul et des algorithmes qui le programment. Nous voulons affirmer ainsi la nécessité d’une distinction claire entre logique et algorithmique, entre sciences humaines et sciences de l’ingénieur ou entre l’humain et l’automate. Une telle démarcation


©RevueCOSSI2018 100

n’est possible qu’à condition de se donner les moyens d’une interdisciplinarité forte, dont nous ambitionnons de montrer, que les méthodes de partage dynamique de l’information documentaire auxquelles nous travaillons peuvent être l’instrument. « Malgré leurs progrès constants », nous dit le général Jean Rannou (2015), ancien chef d’état-major de l’armée de l’air française, « les capacités technologiques, n’apportent pas de solution aux analystes » du renseignement « quand les intentions des adversaires restent inaccessible ». Ces progrès, « qui étaient censés suppléer les capacités des hommes, voire les remplacer, leur donnent en réalité une place plus importante en termes de responsabilité et plus exigeante en termes de compétences ». C’est là tout l’enjeu de notre travail : donner aux hommes les moyens méthodologiques pour répondre à des exigences de plus en plus fortes en raison des formidables progrès technologiques auxquels ils ont désormais accès. Mais si la machine, nous dit encore Cédric Villani (2016), « n’est pas capable de trouver et d’avoir l’intuition de la direction vers où aller, elle va se retrouver piégée par cet océan de possibles ». L’énorme intérêt suscité par le phénomène des big data, qui restent malgré tout en demande « d’épaisseur », nous donne un assez bon exemple de l’insuffisance de ce « tout-technologique » qui domine le paysage actuel. Il justifie en tout cas selon nous cette recherche « d’épaisseur » que le recours à la notion de « thick data » illustre bien et que l’effort méthodologique que nous avons entrepris a l’ambition de satisfaire en donnant du sens aux données grâce à l’intuition qui doit être aux gouvernes pour savoir « vers où aller ». BIBLIOGRAPHIE Allard, L. (2015). L’engagement du chercheur à l’heure de la fabrication numérique personnelle. Hermès, La Revue, 73,(3), 159-167. http://www.cairn.info/revue-hermes-la-revue-2015-3-page-159.htm. Babinet, G. (2016). L'ère numérique, un nouvel âge de l'humanité. Le Passeur. Bachimont, B. (2007). Nouvelles tendances applicatives. De l’indexation à l’éditorialisation. Dans Patrick Gros (dir.), l'indexation multimédia : description et recherche automatiques, Paris, hermès sciences. Balslev, K., Saada-Robert, M. (2006). Les microgenèses situées. Unités et procédés d’analyse inductive - déductive. Recherches qualitatives, vol. 26, n° 2, 85-109. Beau, F. (2017). Facettes et système d’information : Une approche de la classification focalisée sur un besoin de savoir pour agir. Les Cahiers du numérique, vol. 13,(1), 115-142. Beau, F. (2016). Aristote et l’épistémè numérique, Vers une épistémè numérique ? Actes du 19e colloque international sur le document électronique (CIDE19) Athènes, europia, 1-13. Beau, F. (2015). Le document numérique au coeur de l’action collective. Documents et dispositifs à l’ère post-numérique. Actes du 18ème Colloque International sur le Document Électronique (CIDE.18) Montpellier, europia. Bergson, H. (1888). Essai sur les données immédiates de la conscience, Les Presses universitaires de France, 1970, 144 e édition. Blais, M. et Martineau, S. (2006). L’analyse inductive générale : description d’une démarche visant à donner un sens à des données brutes. Recherches Qualitatives − Vol.26(2), pp. 1-18. Bollier, D. (2010). The promise and peril of big data. technical report. Washington, D.C. : the aspen institute. Brasseur, Ch. (2016). Enjeux et usages du big data : technologies, méthodes et mise en œuvre. Lavoisier hermès (2ème édition). Cardon, D. (2012). Regarder les données. Multitudes 2012/2 (n° 49), p. 138-142.



Foucault, M. (1966). Les mots et les choses. Gallimard, Paris. Grolier (de), E. (1962). Étude sur les catégories générales applicables aux classifications et codifications documentaires, Unesco. Lecun, Y. (2016). Qu’est-ce que l’intelligence artificielle ? Chaire informatique et sciences numériques (2015-2016), recherches sur l'intelligence artificielle, http://www.college-de-france.fr/site/yann-lecun/recherches-sur-l-intelligence-artificielle.htm. Leleu-merviel, S. (2004). Effets de la numérisation et de la mise en réseau sur le concept de document, Revue i3, volume (4) n°1, 121-140. Lévy, P. (2015). Le medium algorithmique. Sociétés, 129,(3), 79-96. Lortie, F. (2010). Intuition et pensée discursive : sur la fonction de l’ἐπιβολή dans les ennéades de plotin. Laval théologique et philosophique, vol. 66, n° 1, 45-59. Merzeau, L. (2009). Du signe à la trace : l’information sur mesure, Hermès, no 53, 23-31. Meyriat, J. (1985). Information vs communication ? in Laulan, A.-M., L’Espace social de la communication : concepts et théories, Paris, Retz-CNRS, 63-89. Rannou, J. (2015). Brève histoire du renseignement en France, CEIS Les notes stratégiques, http://universite-defense-2014.org/fr/system/files/note_strategique_ renseignement.pdf. Serres, M. (2007). Les nouvelles technologies révolution culturelle et cognitive, Conférence, Quarante ans de l’INRIA, forum « Informatique et Société », Lille, www.acgrenoble.fr/ien.bourgoinashnord/IMG/pdf_Texte_de_la_conference.pdf. Shannon, C.E. (1948). A mathematical Theory of communication, Bell System Technical Journal, Vol. 27 (July, October), 379–423, 623–656. Paillé, P. (1994). L’analyse par théorisation ancrée. Cahiers de recherche sociologique, Numéro 23 (Critiques féministes et savoirs), 1994, 147-181. Reymond, D. (2016). Visualisation de données. Introduction, les cahiers du numérique, 4/2016 (vol. 12), 9-18. Vierset, V. (2016). Vers un modèle d’apprentissage réflexif. Recueil de traces d’apprentissage formulées dans les log books des stagiaires en médecine. Approches inductives, 3(1), 157-188. Villani, C. (2016). Des robots et des hommes, qui vaincra ? Entretien avec Lila Meghraoua, L’Atelier BNP PARIBAS, https://atelier.bnpparibas/life-work/article/c-villani-robots-hommes-vaincra



Gestion des données de recherche et thick data : le cas d’une recherche-action sur la médiation numérique du patrimoine

Karel Soumagnac IMS UMR5218 CNRS Université de Bordeaux

[email protected] Résumé : La gestion et la mise à disposition des données d’une recherche-action sur la médiation numérique du patrimoine constituent un enjeu en termes de durabilité de l’information (sustainability). Ce travail de gestion rend compte d’une épaisseur socio-culturelle des données (thick data) visant le projet commun d’une science en réseau. Dans une perspective ethnographique et sociale de la recherche nous abordons les ressources numériques patrimoniales, les terrains d’observation et les acteurs selon une dimension systémique. Nous présentons les enjeux actuels des modes de gestion des données de recherche dans le cadre de la recherche-action. Nous revenons sur la méthodologie de la recherche en soulignant les caractéristiques documentaires et communicationnelle de la conservation, du traitement et de la communication des données dans le cadre d’un écosystème informationnel ouvert. Nous terminons par le travail de valorisation, d’information et de médiation documentaire des données pour qu’elles puissent être visibles, compréhensibles et accessibles à tous. Mots-clés : Données de recherche, Gestion des données, Science ouverte, Thick Data, Recherche-action, Patrimoine Abstract : The management and the provision of the data of a research-action on the digital mediation of the heritage establish a stake in terms of durability of information (sustainability). This work of management reports a sociocultural thickness of the data (thick data) aiming at the common project of a science in network. In an ethnographical and social standpoint of the research we approach the patrimonial digital resources, the grounds of observation and the actors according to a systematic dimension. We present the current stakes in management modalities of the data of research as part of the research-action. We return on the methodology of research by underlining the documentary characteristics and communicationnelle of the preservation, the treatment and the communication of the data as part of an open informative ecosystem. We end with the work of value, information and documentary mediation of the data so that they can be visible, understandable and accessible to all. Keywords : Data of research, Data Management, Open Science, Research-action, Thick Data, Resarch-Action, Heritage INTRODUCTION En France, il est devenu courant pour les acteurs de la culture de s’investir dans des missions de médiation numérique autour du patrimoine auprès de publics variés et particulièrement auprès des jeunes. Pour comprendre l’effet de l’utilisation des ressources sur un plan éducatif à travers les dispositifs de médiation culturelle, la direction régionale de l’action culturelle en Aquitaine a souhaité mobiliser des enseignants-chercheurs participants à la formation initiale et continue des enseignants pour réaliser un guide de bonnes pratiques en direction des partenaires et structures culturelles et



éducatives mobilisés par l’éducation au patrimoine. L’idée a été de lancer un programme de recherche-action qui permette à l’ensemble des acteurs concernés par le projet de travailler ensemble pour évaluer le travail de médiation et de valorisation du patrimoine. Ce projet de recherche-action, intitulé P@trinum a pour objectifs de qualifier les logiques de médiation du contenu patrimonial, d’identifier les représentations et les usages réels et potentiel des élèves et des enseignants sur le patrimoine numérique, caractériser les communautés professionnelles participant à la médiation des dispositifs numériques du patrimoine à travers sept « expérimentations » de dispositifs de médiation numérique du patrimoine créés par des archivistes, bibliothécaires, universitaires, start-up informatiques, associations culturelles et utilisées en établissements scolaires par les élèves, les enseignants, les intervenants numériques. Dans le cadre de ce projet, nous cherchons à analyser les méthodes de gestion des données de recherche par les acteurs qui y participent. La question de la gestion des données dans les programmes de recherche interroge d’une part l’utilisation des nouvelles technologies pour gérer, traiter communiquer les données issues du terrain ; elle renvoie d’autre part au problème de la conservation des données de recherche à l’issue du projet et à leur valorisation au-delà du projet lui-même. Notre hypothèse de travail est que ce travail de gestion rend compte d’une épaisseur socio-culturelle des données (thick data) servant le projet commun d’une « science en réseau » (Millerand, 2012). Nous nous proposons dans cette communication de partir d’un état des lieux sur le contexte institutionnel et scientifique des données de recherche. Nous abordons ensuite la méthodologie générale du projet puis celle exploratoire que nous venons de mettre en place fondée sur une approche compréhensive des acteurs qui travaillent à la gestion des données de recherche. Enfin nous revenons sur les résultats que nous mettrons en discussion. LES DONNEES DE RECHERCHE : DEFINITIONS ET ENJEUX DE LEUR GESTION DANS LE CADRE D’UNE RECHERCHE-ACTION La production de données de recherche est le propre des projets scientifiques quelle que soit leur envergure, les acteurs présents, le budget alloué, les méthodes déployées pour parvenir à donner des réponses aux hypothèses de travail à l’origine de la recherche elle-même. Les recherches de type action qui incluent des professionnels dans la réflexion menée et qui sont très répandues en sciences de l’information et de la communication (Meyer, 2006) n’échappent pas à ce phénomène. A l’heure du numérique la production de données de recherche entre dans un processus de formalisation appelé « plan de gestion de données » qui peut être l’occasion de discuter de la notion de durabilité, c’est-à-dire de soutenabilité de la gestion des données et de sa valeur-ajoutée pour la communauté de pratiques. Recherche-action et production de données de recherche : cadre opérationnel des plans de gestion de données La recherche-action reste « une démarche adaptée pour développer des stratégies permettant de soutenir des professionnels attachés au développement de leur métier » (Meyer, 2006 : 89). Dans cette perspective, elle est le cadre scientifique de production de données de recherche issues de savoirs profanes captés dans une logique opérationnelle. Dans le même temps, les données de recherche représentent une entrée pour comprendre les pratiques professionnelles des chercheurs en termes d’accès au terrain de la recherche et aux acteurs qui le compose. Selon l’OCDE, les données scientifiques (ou données de la recherche, research data) sont « des enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche. Un ensemble de données de recherche constitue une représentation systématique et partielle du sujet faisant l’objet de la recherche » (OCDE, 2007). Depuis quelques années, les données de recherche font l’objet de préconisations dans de nombreux pays (Données de recherche, Canada, 2011, ADNS, Australie, 2015, Commission européenne, 2013) en termes de plan de gestion de données (Data Management Plan), visant leur inscription dans un écosystème informationnel impliquant des modalités de gestion concertée entre tous les partenaires des projets de recherche. Un plan de gestion de donnée est un « Document rédigé au commencement d'un projet de recherche et qui définit ce que les chercheurs feront de leurs données pendant et après le



projet, explicitant notamment la mise à disposition des données » (Deboin, 2014). Cette définition renvoie à une formalisation des procédures à suivre en matière de stratégie documentaire des données. Dans tous les pays il existe des cadres opérationnels pour la gestion des données. Au Canada, le cadre d’action permettant le développement de la gestion des données de recherche à grande échelle repose sur l’innovation en matière d’économie numérique (Données de recherche, Canada, 2011). En Australie, la collecte de données de recherche doit permettre leur mise en visibilité et leur réutilisation efficaces dans un contexte scientifique international (ADNS, Australie, 2015). En Europe, depuis 2013, et dans le cadre du plan Horizon de la recherche 2020, la commission européenne inscrit les plans de gestion des données dans une perspective d’ouverture des données de recherche scientifique. La nouvelle loi sur la république numérique du 7 octobre 2016 distingue enfin l’accès aux données de recherche et leur réutilisation dans le cadre de l’ouverture des données à travers l’exploitation et la fouille de texte. Les plans de gestion de données s’inscrivent dans le mouvement de l’ouverture des données de recherche qui « […] consacr[e] le partage et la réutilisation des productions scientifiques en principe de base, pour une participation de la science à une société plus ouverte, innovante et inclusive » (Bécard et alii, 2016 : préface). La question de la durabilité des données de recherche dans le domaine de la médiation numérique du patrimoine Si le consensus autour du développement d’un plan de gestion de données est avéré, leur gestion elle-même reste plus délicate à mettre en place dans une perspective de durabilité (Nolin, 2010). Nous envisageons la question de la durabilité en termes de soutenabilité de leur gestion c’est-à-dire comme une forme de logiques d’actions sur les données qui soit viable par un collectif. Au-delà de l’engagement des structures habilitées à produire des infrastructures pérennes et efficaces pour conserver et rendre accessible les données, la question de la durabilité des données de recherche s’inscrit dans le 4ème paradigme de la recherche pour lequel la théorie, l’expérimentation et la simulation sont intimement liées aux données et dans lequel il faut réfléchir à l’utilisation de leur gestion. Dans ce cadre, les données de recherche participent d’un gain de productivité (mutualisation, reproductibilité) et de création (croisement, visualisation) (Gallezot, 2015). La durabilité implique une négociation autour de d’usages partagés innovants de la donnée visant la production de connaissances (Argote, 2003). Cette dimension est reprise dans le livre blanc du CNRS paru en 2016 : « Les données scientifiques (à financement majoritairement public) doivent devenir un bien commun informationnel. L'objectif est d'autoriser le dépôt en même temps que des articles, des données de base de la recherche. Un tel dépôt faciliterait la reproductibilité de la recherche en même temps qu'il favoriserait l'innovation dans la société civile » (CNRS, 2016 : 111). La question de la durabilité des données de recherche s’inscrit aussi dans le cadre des humanités numériques « [qui] désignent un dialogue interdisciplinaire sur la dimension numérique des recherches en sciences humaines et sociales, au niveau des outils, des méthodes, des objets d’études et des modes de communication » (Dacos et Mounier, 2004 : 15). Faire en sorte que les données recueillies puissent être gérées de manière durable s’inscrit au-delà des méthodologies déployées autour de la mise à disposition d’infrastructures de conservation et d’archivage des données. Elle renvoie à la patrimonialisation des données de recherche (Fayet-Montagne, 2015). Enfin, la durabilité des connaissances comprise comme production de connaissances construites à partir des données dans une perspective de reproductibilité questionne la communicabilité des données en termes de visibilité et de réutilisabilité. La gestion des données de recherche pour la communauté de pratiques : quelle valeur ajoutée ? La diversité des acteurs de la recherche-action représente une communauté de pratiques, tournée vers des pratiques d’information et de communication, qui cherche à se fédérer autour du projet notamment autour de la dimension cognitive de mobilisation de ressources (Wenger, 1998). Les données de recherches sont le gage à long terme de l’instauration d’un guide de bonnes pratiques autour de la médiation en ligne du patrimoine. Nous savons que la communauté de SHS estime d’une manière générale que le « Partage de données et techniques de “fouille de données et de textes” sont ainsi



inégalement répandus selon les types de données, pour des raisons principalement d’obstacles juridiques [données de tiers], et de manque de moyens en personnel pour la production et le maintien de métadonnées de qualité » (CNRS, 2016 : 28). Les pratiques effectives peinent cependant à se mettre en place (Boukacem-Zeghmouri et Délémontez, 2015). Les bibliothèques représentent néanmoins un espace de réflexion sur la veille et la diffusion de l’information autour des projets de recherche et de la valorisation des données. Le travail peut s’organiser avec la communauté de chercheurs, ingénieurs-projets ou archivistes mais aussi avec instances et services dits locaux qui sont directement concernés par ce travail de conservation, de gestion, d’exploitation et de diffusion des données pour permettre le développement de la science en réseau (Millerand, 2012). METHODOLOGIE DE RECHERCHE : CADRE D’ANALYSE, DE PRODUCTION ET DE TRAITEMENT DES DONNEES DE RECHERCHE Les plans de gestion de données ne sont pas encore mis en place dans toutes les universités françaises. Même si la recherche-action P@trinum s’inscrit dans une situation où la moitié du budget émane d’un acteur public, il a été décidé par les instances partenaires que le travail autour des données de recherche serait artisanal. Nous avons donc établi une méthodologie de travail autour des données de recherche que nous souhaitons valoriser et mettre en discussion pour faire avancer la réflexion sur la question des thick data. La méthodologie générale de la recherche Dans le cadre de P@trinum, nous nous situons dans une perspective ethnographique de la recherche-action. A travers les entretiens et les observations, l’entrée par l’action située (Suchman, 2007) nous permet de prendre en compte une réalité de terrain qui est spécifique à chaque expérimentation numérique c’est-à-dire à chaque type de ressources patrimoniales. La perspective de la cognition distribuée (Conein et Thévenot, 2004) est également nécessaire pour comprendre les relations qui se tissent dans les classes entre les différents intervenants et partenaires de la recherche-action qui travaillent auprès d’élèves dans des espaces de travail professionnels du monde de la documentation, des bibliothèques et des archives. La dimension systémique (Engeström, 2001) quant à elle trouve sa véracité dans le fait de cerner comment les activités mises en place font écho à des pratiques réelles et à des représentations que l’on souhaite également capter et mettre en relation entre l’ensemble des acteurs en présence. A partir des éléments que nous avons commencés à recueillir dans le cadre de cette recherche nous avons choisi d’entamer un travail de réflexion autour de la gestion des données de recherche. Cadre d’analyse des données de recherche issues de l’approche qualitative La notion des « thick data » est un héritage du travail de l’anthropologue de la culture Clifford Geertz qui dans les années 1970 a proposé de réaliser des descriptions fines des observations effectuées dans le cadre du déploiement des études ethnographiques. Cette terminologie de la donnée de terrain fait écho à la notion de « rich data » d’Howard Becker qui de son côté a popularisé le travail de contextualisation de la donnée en préconisant l’observation des phénomènes et la définition du sens de ce qui les organise sans présumer a priori de ce sens. La recherche elle-même gagne en crédibilité et en véracité à partir du moment où la donnée est détaillée, complète et que l’on peut lui donner un sens précis (Onwuegbuzie et Leech, 2007 : 244). A l’heure du big data, certains partisans du thick data revendiquent cette entrée dans la donnée (Wang, 2013), une entrée par la vie professionnelle des gens que l’on accompagne et par laquelle le chercheur entre pour en comprendre les usages, les pratiques et les représentations. Il y a la production d’éléments de contextualisation par le chercheur sous forme de journal de bord mais également la possibilité de tracer les acteurs de terrain suivis à travers les réseaux sociaux. C’est ce que Cardon appelle la « mise en forme du social » (Cardon, 2015) au travers du big data et sur laquelle on peut aussi s’appuyer dans le cadre de la recherche pour étayer et compléter les données de recherche. Les expérimentations suivies ont souvent été tracées par les réseaux sociaux des enseignants de terrain et des commanditaires de la recherche-action, ce sont donc aussi des éléments à prendre en compte lors de l’analyse des données de recherche.



La question des méthodes et des outils pluriels pour capitaliser, traiter et diffuser les données Nous avons donc réfléchi de manière spécifique à une méthodologie de la recherche exploratoire sur la question des données dans le contexte de la science en réseau et des thick data. On a souhaité dans une perspective ethnographique propre à la recherche-action observer de l’intérieur la gestion des données de recherche par les enseignants-chercheurs et la personne recrutée pour gérer le programme de recherche-action. Ce protocole reste pour l’heure expérimental. Notre hypothèse est que la gestion des données de recherche s’inscrit dans le développement de stratégies et techniques relevant davantage de la boîte à outils du Personal Knowledge Management (Prost et Schöpfel, 2015) que de l’idéal type d’un plan de gestion de données. Nous avons envoyé un questionnaire aux enseignants-chercheurs pour comprendre leur façon de gérer les données. Le gestionnaire réseau a été interrogé de manière semi-directive sur l’organisation de son travail autour des données. L’analyse a également porté sur l’observation des dépôts sur les plateformes d’archivage développées dans le cadre du projet. Le travail s’est enfin nourri des échanges informels avec les enseignants-chercheurs et le chef de projet ainsi que du suivi du projet par le gestionnaire réseau. Le but a été de comprendre les logiques d’actions autour de la gestion des données. Dans le cadre du questionnaire en ligne, on a interrogé les enseignants-chercheurs sur l’ensemble du cycle de vie des données de recherche (Cirad, 2016), notamment sur les pratiques d’archivage (modalités de dépôt, tailles et types de données, choix des infrastructures), et de traitement des données (principalement autour de la documentation et des métadonnées). La documentation concerne la lisibilité des fichiers par l’être humain, les informations sur le projet (identification du contexte : méthodologie, corpus) et les informations sur les fichiers des données (noms des données, terminologie). Plutôt créées pour être lus par les machines, les métadonnées peuvent aussi émaner de l’outil de capture des données, ou provenir d’informations générées par le capteur des données ou l’usager ré-utilisateur des données (André, 2016). Enfin on a interrogés les enseignants-chercheurs sur le rôle du gestionnaire de réseau dans la gestion des données, sur la question de la communication des données comme facteur de compréhension d’une science en réseau et sur les liens à établir entre acteurs du projet, institutions et bibliothèques pour mobiliser les données de recherche dans d’autres contextes que celui de la recherche-action. RESULTATS ET DISCUSSION : UNE NECESSAIRE EPAISSEUR DES DONNEES POUR COMPRENDRE LA SCIENCE EN ACTION En termes de résultats, la question de la durabilité des données qui s’appuie sur une politique et des modalités de gestion concertées entre chercheurs, professionnels du patrimoine, enseignants, bibliothécaires est en cours de négociation en l’état actuel du projet. Nous montrons que la constitution du recueil de données est dépendante des outils utilisés et des représentations et pratiques des acteurs. Le traitement des données est également le fait d’un partage de cultures personnelles et professionnelles. C’est le travail autour de la diffusion et la communication qui peut rendre compte de l’épaisseur socio-culturelle de la dimension organisationnelle des données de recherche. Le recueil des données : la question des outils comme espace de représentations et de pratiques des acteurs du projet Le choix des outils pour héberger et qualifier les données a été effectué par le gestionnaire réseau. Son travail participe d’un « travail d’articulation » (Strauss, 1985) nécessaire à la compréhension de ce qu’est une donnée de recherche. Plusieurs types de données ont été recueillis, des vidéos, des photos, et des enregistrements sonores. Le gestionnaire réseau a fait une offre de proposition d’outils pour travailler sur les différents types de données, établir la volumétrie et établir la démarche qualité des données recueillies. Pour les vidéos Viméo a été choisi en fonction de son coût, de son utilisabilité, de la rapidité avec lequel le chef de projet a pu contracter l’abonnement. Les données plus légères comme les photos, les enregistrements audio ont été recueillies sur Googledrive (Figure 1) que la majorité des enseignants-chercheurs de l’équipe utilise au quotidien.



Figure 1 : recueil de données : création d’une base de données dans GoogleDrive

Du côté des enseignants-chercheurs, chacun a ses méthodes et outils de travail qui dépendent de ses pratiques informationnelles personnelles (« ensemble de procédures apprises dans le cadre d’une formation spécifique ou acquise par tâtonnements susceptibles de s’enrichir par l’échange et avec le temps » Gardiès, Favre, Couzinet, 2010 : 128). Le recueil des données de terrain a posé un certain nombre de difficultés ne serait-ce que sur le choix des outils de capture de l’information sur le terrain pour l’observation et les entretiens (GoPro, enregistrement numérique, smartphone, I-pad). Elles dépendent en même temps de la façon de percevoir ce qui relève de la qualité d’une donnée car la donnée elle-même relève d’une forme de publication (Beaudry, 2010). Concernant le traitement des données, certains chercheurs de l’équipe valorisent la documentation de type technique autour de la donnée pour qu’elle soit consultable par n’importe quel public. Pour d’autres, il s’agit simplement de déposer la donnée de recherche sur les outils définis dans le protocole de recherche et par lesquels le gestionnaire des données va pouvoir leur attribuer justement cette épaisseur documentaire. On voit ici que la représentation des enjeux du recueil et de la mise à disposition des données est variable d’une personne à l’autre. Les représentations « constructions sociales de la réalité » (Berger et Luckmann, 1986), dépendent souvent de l’interprétation de la valeur de la donnée en tant qu’elle apporte des résultats significatifs à la problématique de la recherche. Le traitement des données : classer, indexer, évaluer : quel partage entre acteurs du projet, utilisateurs et institution ? Suite aux choix des infrastructures de recueil, le gestionnaire réseau a proposé une organisation des données de recherche suivant un classement relatif aux expérimentations de la médiation numérique du patrimoine. A la suite de (Foucault, 1966) la notion de classement peut être comprise comme le fait « d’accorder une priorité à un objet, à un terme, d’établir une hiérarchie, ce qui exprime un pouvoir sur les choses » (Maury, 2013 : 24). L’entrée dans les données repose tout d’abord sur le classement par expérimentations (Figure 2).



Figure 2 : Le classement des données de recherche par expérimentation sur Viméo

Ensuite, le gestionnaire réseau a rédigé un document sur le nommage des fichiers présentant le protocole d’identification des données. Par rapport à l’utilisation de Viméo, on s’aperçoit que dans le cadre de notre projet, l’utilisation de cet outil ne semble pas adaptée aux procédures de dépôt des enseignants-chercheurs qui pour des raisons souvent de droit à l’image conservent les données sur leur ordinateur personnel. Géré par le gestionnaire réseau du projet, l’outil de partage de vidéos propose également, par le biais d’étiquettes, une forme d’indexation ouverte à une communauté d’utilisateurs qu’il s’agit de mobiliser autour d’usages partagés des données (Figure 3). Les enseignants-chercheurs n’ont pas un usage des tags, des like ou d’annotation servant la réutilisation des données. Le commentaire associé à la donnée peut pourtant servir d’évaluation, expliquer le contexte de captation, offrir un cadre d’interprétation de la ressource. Ce n’est pas encore le cas dans ce projet de recherche-action qui conforte le fait que l’évaluation des données de recherche passe encore par le prisme de la publication plutôt que par l’infrastructure les recueillant (Beaudry, 2010).

Figure 3 : L’espace « description » sur Viméo : contexte de description et cadre d’interprétation de la ressource



Les résultats de l’enquête en ligne auprès des enseignants-chercheurs montrent enfin qu’ils ne souhaitent pas forcément diffuser les données brutes auprès des acteurs de la recherche-action. Pour les uns « Une donnée n’est pas a priori une information communicable en dehors de la recherche » (EC 1) car elle engage les acteurs qui y ont participé sur le plan du droit à l’image. Pour d’autres, les données sont « susceptibles de présenter de l’intérêt pour tous » (EC 2). La donnée n’est pas exploitable brute sans métadonnées contextuelles. Les métadonnées peuvent émaner de l’outil de capture des données, ou provenir d’informations générées par le capteur des données ou l’usager ré-utilisateur des données (André, 2016). L’identification du contexte et de la provenance des données (par des mots-clés ou compte-rendu de la séance observée) permet d’avoir confiance dans la donnée produite, et l’utilisateur peut l’évaluer et la rendre reproductible. L’absence de guide ou d’aide a été déplorée parfois alors que le gestionnaire réseau (Millerand, 2012) a mis en place des protocoles de nommage des fichiers et de description des vidéos. Enfin pour le partage des données, les textes institutionnels invitent au dépôt des données sur les dispositifs de communication autour des projets. Dans le cadre la recherche-action les enseignant-chercheurs proposent la création de capsules vidéo pour faire-valoir la recherche en train de se faire, le dépôt des données pour illustrer et documenter le travail de recherche, tandis que le gestionnaire réseau revendique la création de comptes partagés avec les acteurs du terrain pour accéder aux données brutes. DISCUSSION : LA DIFFUSION ET LA COMMUNICATION AUTOUR DES DONNEES : LES THICK DATA COMME ESPACE DE REUTILISATION DES DONNEES Pour les acteurs enseignants, les archivistes, les médiateurs et les institutionnels du patrimoine, le site web outil de communication du projet39 pourrait faire office de porte d’entrée dans les données de recherche via une rubrique consacrée à la recherche en cours qui explique pour les non spécialistes les processus de collecte, de traitement et de diffusion des données. Il est cependant déconnecté de l’ensemble de l’activité de gestion des données de recherche qui participe d’une classification des objets étudiés, des personnes rencontrées et de leurs discours sur les pratiques et les représentations de la médiation numérique du patrimoine. Selon (Foucault, 1966) le travail de classification est un indice de la visibilité de l’organisation des savoirs. En ouvrant Viméo à d’autres recherches sur les humanités numériques, on offre la possibilité d’accéder, de réutiliser les données « travaillées » par l’être humain, les thick data. Ces données « documentarisées » (Zacklad, 2007), - la documentarisation est « le travail consistant à équiper un support pérenne des attributs qui faciliteront sa circulation dans l’espace, le temps et les communautés d’interprétation » (Zacklad, 2007 : 23) - deviennent des données « augmentées » ou big data, car cette fois ce ne sont plus les acteurs de la recherche-action qui la documentent par un journal de bord où sont consignés les éléments de contexte et d’environnement dans lequel s’exercent et se déploient des pratiques (d’information, de médiation, de patrimonialisation) mais des communautés plus larges, grand public qui comme les acteurs que nous avons observés dans leurs pratiques professionnelles souhaitent connaître et identifier les savoirs, les compétences à l’œuvre dans les métiers traversés par la recherche-action, et les indexer et les faire circuler. Finalement, il est difficile de s’assurer que l’accès aux données de recherche est garanti pour tous car le comportement informationnel (Taylor, 1991) des chercheurs et des utilisateurs grand public reste variable et la mise en sens des données peut impliquer des réutilisations plurielles (Heaton, 2004, Chabaud et Germain, 2006). Le travail des chercheurs dans l’apport des données et leur qualification auprès de l’ensemble des acteurs participant à la mise en place des plans de gestion de données est primordial pour que la gestion et la diffusion des données puissent s’inscrire dans ce courant amorcé de l’open research data. Il reste à savoir si dans le cadre modélisant de plan de gestion de données et d’ouverture d’infrastructures adaptées au dépôt et au traitement des données de recherche, leur épaisseur ne perde pas ce qui fait leur originalité et leur particularité. Les entrées croisées sur les terrains d’observation, le prisme d’intérêt scientifique de chaque chercheur font aussi partie des éléments de ce qu’on nomme la thick data (cette épaisseur que l’on attribue à la donnée de recherche). 39 Le site web du projet est accessible à l’adresse suivante : http://patrinum.espe-aquitaine.fr/



CONCLUSION Favoriser la dynamique du thick data à travers le processus de gestion des données est primordial pour développer une vraie gouvernance des données (Maurel, 2012). Les plans de gestion de données peuvent être un moyen pour une communauté de pratiques d’instaurer un processus de gestion qui soit identifiable et compréhensible pour tous tout en rendant compte des compétences de tous les acteurs du projet à gérer efficacement les données de recherche. Pour que la question de la durabilité soit réelle et inscrite dans le travail de la gestion des données, le développement d’une gouvernance des données de recherche mériterait un rapprochement avec la culture de la donnée ou data literacy. L’idée de curation est enfin au cœur de la politique de développement des données de recherche en promouvant la culture du partage des connaissances au sein d’une société ouverte et innovante. BIBLIOGRAPHIE André, F. (2016). Gestion des données de la recherche dans le contexte de l'Open Science. Action nationale de formation RENATIS Participer à l'organisation du management des données de la recherche : gestion de contenu et documentation des données. Disponible à : https://anfdonnees2016.sciencesconf.org/resource/page/id/7 ANDS. (2011). Research Data Australia Guide. Disponible à : http://ands.org.au/guides/research-data-australia.pdf Argote, L. (2003). Organizational Learning : Creating, Retaining, and Transferring Knowledge. Berlin : Springer. Bécard, N., Castets-Renard, C., Chassang, G., Courtois, M.-A., Dantant, M., Gandon, N., Martin, C., Martelletti, A., Mendoza-Caminade, A., Morcrette, N., Neirac, C. (2016). Ouverture des données de la recherche. Guide d'analyse du cadre juridique en France. Disponible à : http://prodinra.inra.fr/ft?id={97224C30-C56B-4CC2-8F78-41C7E1AF5148} Beaudry, G. (2010). La communication scientifique directe : un nouveau champ éditorial. Hermès, 2(57), pp. 51-57. Berger, P. et Luckmann, T. (1986). La Construction sociale de la réalité. Paris : Méridiens Klincksieck. Cardon, D. (2012). Regarder les données. Multitudes, (49), pp. 138-142. Chabaud, D. et Germain, O. (2006). La réutilisation de données qualitatives en sciences de gestion : un second choix ? M@n@gement, 9(6), pp. 199-221. CIRAD. (2016). Le cycle de vie des données. Intégrer la gestion de données scientifiques aux activités de recherche. Disponible à : https://coop-ist.cirad.fr/content/download/5922/43494/version/1/file/Cycle-vie-donnees-Poster-Cirad-2016.pdf Conein, B. et Thévenot, L. (dirs). (1997). Cognition et information en société. Paris : École des hautes études en sciences sociales. Dacos, M., et Mounier, P. (2014). Humanités Numériques : État Des Lieux et Positionnement de La Recherche Française Dans Le Contexte International. Institut français. Disponible à : http://www.enssib.fr/bibliotheque-numerique/documents/65357-humanites-numeriques-etat-des-lieux-et-positionnement-de-la-recherche-francaise-dans-le-contexte-international.pdf Deboin, M-C. (2014). Découvrir des plans de gestion des données de la recherche, en 4 points. Montpellier : CIRAD, 6 p. http://coop-ist.cirad.fr/content/download/5435/40362/version/4/file/CoopIST-plan-gestion-donnees-recherche-20140717.pdf



Délémontez, R. et Boukacem-Zeghmouri, C. (2015). Données de la recherche : entre discours, réalités et valeur. I2D – Information, données & documents, 53(4), pp. 56-57. Direction de l’Information Scientifique et Technique – CNRS. (2016). Livre blanc - Une Science ouverte dans une République numérique. Marseille : Ed OpenEditionPress: 195 p. Disponible à : http://books.openedition.org/oep/1548 Données de recherche Canada. (2011). Portrait de la situation des données. Rapport sur le Sommet 2011 sur les données de recherche canadiennes. 49 p. Disponible à : http://www.rdc-drc.ca/wp-content/uploads/f-Report-of-the-Canadian-Research-Data-Summit.pdf. European Commission. (2013). Guidelines on Data Management in Horizon 2020. [Traduction française]. Disponible à : http://openaccess.inist.fr/IMG/pdf/14081_lignes_directrices_pgd_horizon_2020_tr_fr_versionavril2015-2.pdf Engeström, Y. (2000). Activity theory as a framework for analyzing and redesigning work. Ergonomics, 7(43), pp. 960-974. Fayet-Montagne, C. (2015). Patrimonialisation et réutilisation des données de la recherche en sciences humaines et sociales. Villeurbanne : ENSSIB. 107 p. Foucault, M. (1966). Les mots et les choses. Paris : Gallimard. Gallezot, G. (2016). Les enjeux des données de la recherche. URFIST Nice, 23 juin. Disponible à : http://urfist-apps.unice.fr/documents/160623_JE_DR/160623_gallezot_enjeux.pdf Gardiès, C., Fabre, I. et Couzinet, V. (2010). Re-questionner les pratiques informationnelles. Études de communication, (35), pp. 121-132. Heaton, J. (2004). Reworking Qualitative Data. London : Sage. Maurel, D. (2012). Chapitre 8 : Gouvernance informationnelle et perspective stratégique. Dans C. Paganelli (dir.), L’information professionnelle. Paris : Hermès sciences publication, pp. 175-197. Maury, Y. (2013). Classements et classifications comme problème anthropologique : entre savoir, pouvoir et ordre. Hermès, 2(66), pp. 23-29. Meyer, V. (2006). De l'utilité des recherches-actions en SIC. Communication et organisation, (30). Disponible à : http://communicationorganisation.revues.org/3455 Millerand, F. (2012). La science en réseau. Revue d'anthropologie des connaissances, 6(1), pp. 163-190. Nolin, J. (2010). Sustainable information and information science. Information Research, 15(2). Disponible à : http://InformationR.net/ir/15-2/paper431.html OCDE. (2007). Principes et lignes directrices pour l’accès aux données de la recherche financée sur fonds publics. Disponible à : https://www.oecd.org/fr/sti/sci-tech/38500823.pdf Onwuegbuzie, A. et Leech, N. (2007). A call for qualitative power analyses. Quality & Quantity: International Journal of Methodology, (41), pp. 105-121. Prost, H. et Schöpfel, J. (2015). Les données de la recherche en SHS. Une enquête à l'Université de Lille 3 : Rapport final. [Rapport de recherche] Lille 3. Disponible à : http://hal.univ-lille3.fr/hal-01198379/document Strauss, A. (1985). Work and the Division of Labor. The Sociological Quarterly, (26), pp. 1-19.



Suchman, L. (2007). Human-Machine reconfigurations. Plans and situated action. New York : Cambridge University. 328 p. Taylor, R. (1991). Information use environments. Progress in Communication Sciences, (10), pp. 217-255. Wang, T. (2013). Big data needs thick data. Disponible à : http://ethnographymatters.net/blog/2013/05/13/big-data-needs-thick-data/ Wenger, E. (1998). Communities of Practice: Learning, Meaning, and Identity. Cambridge: Cambridge University Press. Zacklad, M. (2007). Une théorisation communicationnelle et documentaire des TIC. Dans C Brossaud., et B. Rebert (dirs), Humanités numérique 2 Socio-informatique et démocratie cognitive. Paris : Hermès Science Publications, pp. 20-35.



Les Nations Unies face au big data : comment utiliser les nouvelles sources de données pour optimiser les programmes

de développement des organisations internationales

Christelle CAZABAT Programme des Nations Unies pour le Developpement,

Bureau du Rapport sur le Developpement Humain [email protected]

Résumé : Cet article vise à analyser le potentiel des big data pour l’élaboration, la mise en œuvre et le suivi de programmes de développement par les organisations internationales comme les Nations Unies. Son objectif est d’estimer, à partir d’études de cas, le potentiel des nouvelles sources de données à contribuer aux Objectifs de Développement Durable. A ce jour, seules quelques initiatives pilotes ont été mises en œuvre. La plupart d’entre elles ont été réalisées en partenariat avec le secteur privé, dans le cadre de stratégies de responsabilité sociale des entreprises. Elles semblent prometteuses, avec des impacts plus importants que des initiatives similaires utilisant des méthodes traditionnelles et des coûts moins élevés. Mais des questions sur la sécurité des données, l’éthique, la règlementation, les problèmes techniques, la représentativité des données et leurs avantages réels pour le développement doivent être étudiées avant d’étendre davantage ces nouvelles méthodes. Mots-clés : big data, organisations internationales, développement, aide internationale, Nations Unies Abstrat : This article aims to analyze the potential of big data for the development, implementation and monitoring of development programs by international organizations such as the United Nations. Its purpose is to estimate, from case studies, the potential of new data sources to contribute to the Sustainable Development Goals. To date, only a few pilot initiatives have been implemented. Most of them were carried out in partnership with the private sector, as part of corporate social responsibility strategies. They look promising, with greater impacts than similar initiatives using traditional methods and lower costs. But questions about data security, ethics, regulation, technical issues, representativeness of the data and their real benefits to development need to be studied before further extending these new methods. Keywords: big data, international organizations, development, international aid, United Nations INTRODUCTION Le secteur privé exploite depuis plus d’une décennie les données massives ou big data pour mieux connaitre ses marchés et maximiser ses profits. Dans le secteur du développement, leur utilisation en est encore au stade expérimental, mais soulève un enthousiasme grandissant et l’espoir d’augmenter l’efficacité des programmes d’aide international à faible coût. L’enjeu est de taille : en septembre 2015, l’ensemble des gouvernements du monde se sont engagés à atteindre d’ici 2030 les Objectifs de Développement Durable, un programme d’une ambition sans précédent qui devra, entre autres, éliminer l’extrême pauvreté et la faim, assurer la santé, le bien-être et une éducation de qualité à tous, l’égalité des sexes, la réduction des inégalités et une exploitation durable des ressources naturelles (Nations Unies, 2015).



Atteindre ces objectifs nécessitera des investissements estimés à plusieurs milliers de milliards de dollars américains, alors que l’aide publique au développement se chiffre aujourd’hui en milliards de dollars (Banque Mondiale, 2015). Il est donc indispensable d’innover pour réduire le coût des initiatives de développement et accélérer leur impact sur les populations. CONTEXTE Dans le seul domaine de l’information, les besoins se sont démultipliés. De 2000 à 2015, l’initiative mondiale précédente des Objectifs du Millénaire pour le Développement concentrait la plupart des efforts gouvernementaux sur 8 objectifs identifiés par les Nations Unies (Nations Unies, 2001). Les Objectifs de Développement Durable sont désormais au nombre de 17, dont beaucoup d’objectifs « absolus ». Ainsi pour le premier objectif de réduction de la pauvreté, alors que les Objectifs du Millénaire pour le Développement appelaient à « réduire de moitié, entre 1990 et 2015, la proportion de la population dont le revenu est inférieur à 1,25 dollar par jour », les Objectifs de Développement Durable ambitionnent d’ « éliminer complètement l’extrême pauvreté dans le monde entier ». D’un point de vue statistique, cela signifie que les moyennes nationales ne suffiront plus à suivre les résultats obtenus : des données ventilées par âge, sexe, catégorie socio-économique et lieu de résidence seront nécessaires pour s’assurer que tous les groupes de population, en particulier les plus vulnérables, ont atteint l’objectif fixé. Les statistiques doivent être disponibles à l’échelle locale et non plus seulement à l’échelle nationale, doivent couvrir davantage de domaines et être mises à jour plus régulièrement. Ce besoin d’informations dans le domaine du développement est inédit, et ne peut pas être rempli avec les sources traditionnelles de données. A ce jour, seulement un tiers des indicateurs prévus pour suivre les progrès sur les Objectifs de Développement Durable sont disponibles dans au moins la moitié des pays (IAEG-SDGs, 2017). Figure 1 compare les deux programmes mondiaux de développement pour illustrer la croissance exponentielle des nombres d’objectifs, de cibles ou sous-objectifs et d’indicateurs entre les Objectifs du Millénaire pour le Développement et les Objectifs de Développement Durable. Pour répondre à ces besoins, on estime le coût de la mise à jour des systèmes statistiques des 77 pays à plus faibles revenus à un total d’un milliard de dollars américains par an (SDSN, 2015).

Figure 1 : Comparaison du nombre d’objectifs, de cibles et d’indicateurs compris dans les deux

programmes mondiaux de développement, les Objectifs du Millénaire pour le Développement (2000-2015) et les Objectifs de Développement Durable (2015-2030)

8 21

60

17

169

232

Nombred'objectifs

Nombre decibles

Nombred'indicateurs

Objectifs du Millénaire pour le Développement (2000-2015)Objectifs de Développement Durable (2015-2030)



PROBLEME ET CAUSES Jusqu’à présent, les informations utilisées dans le domaine du développement viennent principalement des sources suivantes : les recensements de population réalisés environ tous les dix ans, les enquêtes auprès des ménages, les sondages auprès d’échantillons de la population, les registres administratifs et quelques enquêtes qualitatives ciblées. La collecte de ces données nécessite la mise en place d’équipes spécialisées qui peuvent s’avérer très couteuses pour un gouvernement, limitant notamment la fréquence et l’étendue de ces relevés dans les pays à faibles revenus. La collecte, l’analyse et la publication des données demandent du temps, ce qui limite également les mises à jour. De plus, ces enquêtes excluent certains groupes de population et ne fournissent donc pas une image complète ou précise de la situation. Les recensements et les enquêtes auprès des ménages sont organisés à partir des registres administratifs d’adresses déclarées. Les sans-abri ou les personnes vivant dans des refuges, par exemple, qui n’ont pas d’adresse propre, ne sont donc pas comptabilisés dans ces statistiques (Carr-Hill, 2013). Les femmes et les enfants sont souvent ignorés par les enquêtes qui interrogent uniquement le « chef de famille », le plus souvent un homme adulte. Les nomades, les personnes vivant dans des bidons-villes, les domestiques ou les esclaves vivant chez leurs employeurs ou chez leurs maitres, les réfugiés, les personnes déplacées internes ou les migrants saisonniers sont tous sous-représentés dans les statistiques officielles. Ce sont pourtant souvent ces groupes de population qui sont les plus vulnérables et ont le plus besoin de l’aide au développement. Les données disponibles dans le domaine du développement sont donc actuellement incomplètes et souvent obsolètes, limitant la capacité des gouvernements, organisations internationales et organisations de la société civile qui les utilisent pour adapter leurs interventions au plus près des besoins des populations bénéficiaires. OBJECTIFS Dès 2013, alors que les Objectifs de Développement Durable étaient encore en pleine élaboration, les Nations Unies ont appelé à une « révolution des données » (United Nations, 2013). Cette révolution consistait à obtenir davantage d’informations, de meilleure qualité, et à les diffuser plus largement. L’utilisation des technologies de l’information et de la communication pour obtenir ces données était d’ores et déjà recommandée. En 2014, le Secrétaire General des Nations Unies a commandité un rapport contenant des recommandations pour que cette « révolution des données » soit effective. Le rapport reconnaissait le potentiel des big data pour suivre les progrès en matière de développement et recommandait que les données soient accessibles à tous gratuitement (United Nations, 2014). Les big data peuvent sensiblement améliorer la quantité, la précision et la mise à jour des informations utilisées par les acteurs du développement pour élaborer, mettre en œuvre et évaluer leurs projets. Le résultat attendu est une meilleure compréhension des problèmes à résoudre et des moyens à disposition pour des interventions mieux ciblées, moins couteuses, plus rapides et plus étendues (voir Figure 2). Les informations plus rapides et plus précises obtenues sur les résultats du projet permettent ensuite de le réajuster, si besoin, pour en maximiser l’impact.



Meilleure compréhension des

problèmes à résoudre et des

moyens à disposition

Interventions mieux ciblées, moins

couteuses, plus rapides, couverture

étendue

Résultats connus plus rapidement et de manière plus

précise

Elaboration Mise en œuvre Suivi/Evaluation

Projet de développement

Figure 2. Le potentiel des big data pour améliorer l’efficacité des projets de développement

Tout projet de développement, qu’il s’agisse d’un projet d’électrification d’un village ou d’une campagne d’information sur la prévention du VIH/Sida, peut se décomposer de manière schématique en ces trois phases d’élaboration, de mise en œuvre et de suivi-évaluation. Les big data peuvent apporter une forte valeur ajoutée à chacune de ces phases. Au-delà de leur apport dans le domaine des statistiques, en augmentant le retour sur investissement des projets de développement, les big data doivent également permettre de dégager des ressources pour financer d’autres projets de développement et améliorer les conditions de vie de davantage de bénéficiaires. MISE EN ŒUVRE Plusieurs organisations internationales, dont certaines agences des Nations Unies, la Banque Mondiale ou l’Union Européenne, misent donc depuis quelques années sur les big data pour répondre aux besoins du programme des Objectifs de Développement Durable. Certaines initiatives pilotes ont été menées sur le suivi des indicateurs de développement. Trois projets portant sur les Objectifs de Développement Durable 1 (« Éliminer la pauvreté sous toutes ses formes et partout dans le monde »), 3 (« Permettre à tous de vivre en bonne santé et promouvoir le bien-être de tous à tout âge ») et 6 (« Garantir l’accès de tous à l’eau et à l’assainissement et assurer une gestion durable des ressources en eau ») servent ici d’exemples de mise en œuvre. Estimer le taux de pauvreté grâce aux images satellites de nuit En 2015, le bureau du Programme des Nations Unies pour le Developpement au Soudan visait à exploiter les images satellites de nuit pour combler les lacunes des statistiques officielles soudanaises en matière de suivi du taux de pauvreté de la population (PNUD, 2016). Le pays, affecté par des années de conflit et des faibles revenus, ne pouvait en effet mener des recensements de populations aussi régulièrement que l’exigerait un suivi efficace de l’Objectif de Developpement Durable 1 de lutte contre la pauvreté. Les images satellites de nuit permettent d’analyser la luminosité résultant des éclairages électriques, supposés plus nombreux dans les zones plus aisées et moins nombreux dans les zones plus pauvres. Théoriquement, le degré de luminosité devrait donc être corrélé au degré de pauvreté d’une région. Les images prises régulièrement par les satellites pourraient ainsi permettre d’estimer les taux de pauvreté en temps réel et à l’échelle locale, a très faible coût. La Banque Mondiale a mené à la même période des projets similaires au Kenya et au Rwanda (Sanghi, Bundervoet et Maiyo, 2015).



Les rapports de la Banque Mondiale sur l’utilisation d’images satellites de nuit pour estimer le degré de pauvreté des pays d’Afrique se veulent encourageant, concluant sur une forte corrélation entre la luminosité nocturne et le Produit Intérieur Brut à l’échelle nationale. Le bureau du PNUD au Soudan a cependant mis un terme à son initiative. En raison de zones non électrifiées, les lumières de nuit ne pouvaient pas servir d’indicateur fiable du taux de pauvreté à travers l’ensemble du pays. A l’heure actuelle, le bureau du PNUD au Soudan se tourne vers les taux d’utilisation des téléphones portables pour estimer la pauvreté : avec près de 70 téléphones portables pour 100 habitants (UIT, 2017), le taux de couverture pourrait être suffisant pour produire des données fiables à l’échelle locale. Mieux cibler et étendre les campagnes de communications grâce aux réseaux sociaux Ce deuxième projet a été mis en œuvre par le bureau du Fonds des Nations Unies pour l’Enfance (UNICEF) au Brésil. En 2015, au plus fort de l’épidémie du virus Zika en Amérique latine, l’UNICEF au Brésil a lancé une campagne de communication pour informer la population des moyens d’éviter la maladie. La première phase de cette campagne, traditionnelle, s’est faite par radio, par la presse et par du porte-à-porte. L’UNICEF a ainsi touché 60 000 personnes en quelques semaines. Dans un deuxième temps, l’UNICEF a collaboré avec Facebook pour lancer une campagne de communication sur le réseau social. En seulement quelques heures, plus de 4 millions de personnes ont été informées des moyens d’éviter la maladie (Nations Unies, 2017). Par ailleurs, l’analyse des messages anonymisés d’utilisateurs de Facebook au Brésil comportant le mot clef « Zika » a permis de réaliser que la plupart des messages étaient publiés par des hommes. L’UNICEF a donc ajusté sa campagne de communication initialement ciblée sur les femmes pour toucher davantage d’hommes, notamment par le biais d’une photo d’un jeune père et de sa fille atteint par la maladie (UNICEF, 2016). Le réseau social a par la suite proposé un sondage pour vérifier l’efficacité de la campagne de communication : 82% des utilisateurs ayant vu les messages de prévention ont indiqué avoir pris des mesures contre Zika. L’épidémie du virus Zika est l’un des premiers cas où les réseaux sociaux ont pu jouer un rôle significatif dans l’information de la population et la prévention de la transmission. La quasi-totalité de la population brésilienne utilise Facebook régulièrement, ce qui en fait un mode de communication pratiquement universel, gratuit et instantané. Cet exemple montre comment les technologies de l’information et de la communication peuvent non seulement accroitre de manière exponentielle la portée des projets de communication et en réduire le coût, mais aussi fournir des informations en temps réel sur leur efficacité afin de permettre des réajustements tout au long de la mise en œuvre. Suivre l’avancée des objectifs environnementaux grâce aux données géospatiales Ce dernier exemple de projet porte sur l’objectif 6 d’accès universel à l’eau et à l’assainissement et de gestion durable des ressources en eau. Les Objectifs du Développement Durable, en comparaison avec leurs prédécesseurs les Objectifs du Millénaire pour le Développement, accordent une place beaucoup plus centrale à l’environnement. Quatre objectifs sont désormais entièrement consacrés à l’environnement, contre seulement un dans le programme précédent, et plusieurs autres comptent des cibles, ou sous-objectifs, concernant la gestion durable des ressources naturelles. Le suivi des objectifs environnementaux est problématique car les informations pertinentes sont rarement collectées par les gouvernements, dont les efforts statistiques se concentrent davantage sur les indicateurs socio-économiques. L’utilisation des images satellites et autres sources de données géospatiales est donc particulièrement indiqué dans ce domaine. Le Programme des Nations Unies pour l’Environnement publie sur le site Internet Environment Live des cartes détaillées représentant différents indicateurs relatifs à la protection de l’environnement. Des données météorologiques et géographiques sont combinées d’une manière accessible à tous, comme le montre la figure 3 présentant les sources d’eau souterraines en Afrique. Ces cartes peuvent permettre aux décideurs nationaux de prendre des décisions appropriées pour gérer durablement les ressources en eau de leur pays et limiter l’impact des sècheresses. Leur publication en libre accès permet quant à elle aux citoyens de s’engager dans le suivi et la mise en œuvre des objectifs de développement, en



faisant pression sur les gouvernements ou en lançant des initiatives citoyennes de développement, comme des projets communautaires de gestion de l’eau.

Figure 3 : Sources d’eau souterraines en Afrique publiées en libre accès sur le site Internet Environment

Live du Programme des Nations Unies pour l’Environnement

Il existe ainsi de nombreux projets pilotes, pour la plupart à l’échelle nationale ou locale, utilisant les big data dans le domaine du développement. Le répertoire Big Data Project Inventory, géré par la Commission Statistique des Nations Unies, en recense plus de 200 à ce jour (Commission Statistique des Nations Unies, 2017). Les big data sont pourtant encore loin d’être intégrés systématiquement dans les programmes de développement, du fait de plusieurs obstacles qui s’opposent encore à une utilisation plus générale. RESULTATS Les agences statistiques gouvernementales ou bureaux nationaux de la statistique du monde entier ont adopté en 1994, lors de la Commission Statistique annuelle des Nations Unies, les principes fondamentaux des statistiques officielles, mis à jour en 2014 (Commission Statistique des Nations Unies, 2014). Cet ensemble de bonnes pratiques doit être respecté par les agences nationales produisant la plupart des indicateurs de suivi des objectifs de développement. En accord avec ces principes, les statistiques officielles acceptent l’utilisation de données de toute origine, choisies pour leur qualité, mises à jour, coût et charge pour les répondants. D’après ces critères, les big data sont toutes indiquées : elles fournissent des informations potentiellement en temps réel et à une échelle de précision inédite, pour un très faible coût et sans aucune gêne pour les populations, qui ne sont la plupart du temps pas conscientes que ces informations sont collectées automatiquement par satellite ou à travers leur utilisation des téléphones portables et des réseaux sociaux. Le recours des gouvernements aux big data est donc en accord avec les principes fondamentaux des statistiques officielles. D’autres obstacles ont cependant fait jour lors des projets pilotes dont quelques exemples ont été présentés ci-dessus. D’un point de vue pratique tout d’abord, l’exploitation des big data nécessite du



matériel informatique et des ressources humaines spécialisés, souvent chers et rarement disponibles dans les pays en développement. Les ensembles de données tirés par exemple des registres d’appels anonymisés doivent être analysés par des logiciels avancés et généralement élaborés sur mesure pour un projet spécifique, sans possibilité de les réutiliser pour un autre projet similaire. La standardisation et le passage à plus grande échelle des tentatives d’exploitation des big data pose donc encore un problème. Par ailleurs, dans le domaine du développement, il est important de garder à l’esprit le fait que les big data ne représentent pas l’ensemble de la population, et notamment les plus vulnérables. Tout comme les recensements et les enquêtes gouvernementales excluent certains groupes, les big data ont leurs propres limites en termes de représentativité. Les inégalités d’accès aux technologies de l’information et de la communication, comme Internet ou les téléphones portables, en sont la principale raison. Les personnes vivant dans les pays en développement, les pauvres, les femmes, les personnes âgées ou vivant en milieu rural sont moins connectées, et donc moins bien représentées dans les données produites par ces technologies. Figure 4 illustre la différence des taux d’accès entre les pays développés et les pays en développement.

Figure 4 : Taux d’accès à Internet et à la téléphonie mobile dans les pays développés et en

développement (données provenant de l’Union Internationale des Télécommunications pour 2017)

Enfin, le fait que les big data sont principalement produites par des entreprises privées dans un but lucratif peut limiter leur accès pour les acteurs du développement et pour le grand public. Pour des raisons de confidentialité, de protection de la vie privée ou de protection des retours sur investissements, leur publication et leur utilisation doivent être contrôlées. L’accès libre aux données sur le développement est pourtant une des recommandations des Nations Unies, pour encourager la participation des citoyens et le suivi public des progrès sur les objectifs de développement. CONCLUSION Les quelques centaines de projets pilotes qui ont été mis en œuvre depuis 2015 ont laissé entrevoir un potentiel indéniable des big data pour améliorer les informations disponibles sur le développement et l’efficacité des projets mis en œuvre. On recense aujourd’hui plusieurs centaines d’initiatives prometteuses dans tous les domaines du développement. Un engagement politique a été pris au plus haut niveau pour intégrer les big data aux statistiques officielles et faire en sorte qu’elles soutiennent la réalisation des objectifs de développement, mais des obstacles significatifs limitent encore l’ampleur de leur utilisation et de leur impact sur l’amélioration sur l’efficacité des projets de développement.



BIBLIOGRAPHIE Banque Mondiale. 2015. Joint Statement from MDBs and IMF Head on Financing for Development. Repéré à http://www.worldbank.org/en/news/press-release/2015/04/16/joint-statementmdbs-imf-head-financing-for-development Carr-Hill, Roy. 2013. “Missing Millions and Measuring Development Progress”. World Development. Commission Statistique des Nations Unies. 2014. Principes fondamentaux des statistiques officielles. Repéré à https://unstats.un.org/unsd/dnss/gp/FP-New-E.pdf Commission Statistique des Nations Unies. 2017. Big Data Project Inventory. Repéré à https://unstats.un.org/bigdata/inventory.cshtml IAEG-SDGs. 2017. Tier Classification for Global SDG Indicators. Repéré à https://unstats.un.org/sdgs/files/Tier%20Classification%20of%20SDG%20Indicators_20%20April%202017_web.pdf Nations Unies. 2001. Plan de campagne pour la mise en œuvre de la Déclaration du Millénaire (A/56/326). Repéré à http://www.un.org/documents/ga/docs/56/a56326.pdf Nations Unies. 2013. A new global partnership : Eradicate poverty and transform economies through sustainable development. The Report of the High-Level Panel of Eminent Persons on the Post-2015 Development Agenda. Repéré à http://www.post2015hlp.org/wp-content/uploads/2013/05/UN-Report.pdf Nations Unies. 2014. A World That Counts: Mobilizing The Data Revolution for Sustainable Development. Repéré à http://www.undatarevolution.org/wp-content/uploads/2014/12/A-World-That-Counts2.pdf Nations Unies. 2015a. Transformer notre monde : le Programme de développement durable à l’horizon 2030 (A/RES/70/1). Repéré à http://www.un.org/ga/search/view_doc.asp?symbol=A/RES/70/1&referer=/english/&Lang=F Nations Unies. 2015b. Rapport sur les objectifs du Millénaire pour le développement. Repéré à http://www.un.org/fr/millenniumgoals/reports/2015/pdf/rapport_2015.pdf Nations Unies. 2017. The Future of Data Production. Session TA2.01 of the United Nations Statistical Commission’s World Data Forum. Repéré à https://www.youtube.com/watch?v=Hw_n6h481Oo PNUD (Programme des Nations Unies pour le Développement). 2016. A BIG DEAL: How can we use big data to measure poverty in Sudan? Repéré à http://www.sd.undp.org/content/sudan/en/home/blog/2016/1/12/A-BIG-DEAL-How-can-we-use-big-data-to-measure-poverty-in-Sudan-.html Sanghi, A., Bundervoet, T. et Maiyo, L. 2015. Night lights and the pursuit of subnational GDP: Application to Kenya & Rwanda. Banque Mondiale. Repéré à http://blogs.worldbank.org/developmenttalk/night-lights-and-pursuit-subnational-gdp-application-kenya-rwanda SDSN (Sustainable Development Solutions Network). 2015. Data for Development: A Needs Assessment for SDG Monitoring and Statistical Capacity Development. Repéré à http://unsdsn.org/wp-content/uploads/2015/04/Data-for-Development-Full-Report.pdf UIT (Union Internationale des Télécommunications). 2017. Mobile-cellular subscriptions. Repéré à http://www.itu.int/en/ITU-D/Statistics/Documents/statistics/2017/Mobile_cellular_2000-2016.xls UNICEF (Fonds des Nations Unies pour l’Enfance). 2016. How Facebook statuses informed the Zika response in Brazil. Repéré à http://unicefstories.org/2016/12/17/how-facebook-statuses-informed-the-zika-response-in-brazil/.