View
365
Download
0
Category
Preview:
Citation preview
L’informatique n’est pas l’amie des données
Jean RohmerESILV
Colloque GREC-O24-25 Juin 2015 Pôle Universitaire Léonard de Vinci
Blog: http://plexus-logos-calx.blogspot.fr/
L’ordinateur n’a pas été fait pour traiter les données
« Monsieur Martin est mort ce matin à 9h30 dans sa propriété de l’Orne »
Une donnée c’est une phrase, un énoncé, un prédicat.
« Monsieur Martin » « propriété de l’Orne » « 9h30 » ne sont pas des données L’étude, la science des données a commencé avec l’exégèse religieuse, puis la philologie.
L’ordinateur n’a pas été fait pour traiter les données
Les ordinateurs n’ont pas du tout été faits pour traiter des énoncés
Les ordinateurs ont été faits pour déplacer des nombres de taille fixe (aussi appelés « mots ») et effectuer de l’arithmétique dessus
Via des tuyaux eux aussi de diamètre fixe, qu’on appelle « bus ».
Traiter des données, pour un informaticien, c’est un peu comme essayer de faire passer un plat de spaghetti à travers les trous d’une passoire.
Les langages de programmation n’ont pas été faits pour traiter les données
Les langages de programmation s’intéressent moins à la signification des mots qu’à l’ordonnancement des opérations élémentaires à effectuer.
Pour traiter les données, il va falloir construire des programmes qui vont effectuer sur les données des opérations plus sophistiquées que ne le sont les instructions des machines sur les mots.
Mille manières de construire ces programmes
Mille sources de confusions, erreurs, incompatibilités…
Les langages de programmation n’ont pas été faits pour traiter les données
Comment représenter cet objet complexe qu’est une donnée avec ces objets simples que sont les mots ? Mille manières …
Echanger des données entre deux systèmes : cauchemar en cuisine.
Des passoires et des spaghettis avec des sections et des trous carrés, ronds, ovales … . Il existe pourtant un langage de programmation qui travaille directement sur les données : c’est le langage PROLOG, inventé en 1972 par le français Alain Colmerauer, qui est entièrement basé sur la notion de prédicat (ou phrase, ou énoncé), donc de donnée
Mais les informaticiens ont préféré ne pas creuser cette piste.
Dans un ordinateur, les données sont abandonnées
L’architecture, les plans, les spécifications de ces couches logicielles sont la plupart du temps très mal décrites, très mal documentées, rarement à jour
Comme si votre voiture avait été conçue de manière originale et unique par un mécano dont vous auriez perdu l’adresse, et bricolée ensuite par quelques autres tout aussi mal identifiés.
La meilleure preuve de ces difficultés est l’existence d’outils dits de « Master Data Management »
La sémantique d’ensemble est en fait définie à posteriori:
• Par une suite de « mises au point »• Par la perception qu’en ont les utilisateurs• Et non par les intentions initiales
Dans un ordinateur, les données sont abandonnées
Un ordinateur possède rarement la description des données et des programmes qu’il héberge.
Il n’est pas conscient de son activité.
C’est une différence fondamentale entre les ordinateurs et notre cerveau.
C’est la source de beaucoup de catastrophes informatiques
C’est un frein considérable pour les « Big Data »
L’ordinateur a une mémoire, mais il n’a pas de mémoire.
Il n’a pas de tête.
Données, langage naturel et document
Ce que l’ordinateur fait le mieux, c’est de procéder comme avant son apparition : gérer nos documents de bureau habituels
Il est un simple simulateur électronique du passé, simulateur de de machines à écrire, photocopieuses, dossiers, armoires, rétroprojecteurs
Les données restent dans la tête des auteurs et des lecteurs de ces documents
L’ordinateur est une super machine à écrire, ranger, transmettre, mais il n’est pas une machine à lire.
Données, langage naturel et document
L’ordinateur ne pourrait pas comprendre le langage naturel car il ne serait pas assez structuré ???
C’est tout le contraire. Il ne le comprend pas parce qu’il est trop structuré, et que nous sommes incapables d’écrire des programmes qui en viendraient à bout
Le traitement automatique des données est donc pris entre le marteau et l’enclume :
• Ou bien des données structurées: –en fait trop simplement et arbitrairement structurées, donc asservies aux programmes
• Ou bien des données non structurées –en fait trop structurées
Données, langage naturel et document
Il nous manque toujours une bonne théorie de l’information.
Des pistes existent:
Descartes imagine une langue « établissant un ordre entre toutes les pensées qui peuvent entrer en l’esprit humain, de même qu’il y en a un naturellement établi entre les nombres ».
Leibniz renchérit : « cette langue serait merveilleuse […] car alors raisonner et calculer sera la même chose. »
Pyramide de l’information ou tarte à la crème ?
Donnée => Information => Connaissance => Sagesses
La donnée n'est pas un bon premier étage de pyramide
Sous la donnée, il doit y avoir une perception, une captation, une mesure, un capteur, une chose mesurée
On pourrait certes dire :
• L'information résulte de la considération de suffisamment de données• La connaissance résulte de la considération de suffisamment de informations• La sagesse résulte de la considération de suffisamment de connaissances
Mais …
Pyramide de l’information ou tarte à la crème ?
• Il est 17h15• Pierre est en retard• Pierre est souvent en retard• Paul vire Pierre • Paul vire Pierre parce qu’il est souvent en retard• Paul prendre des décisions justes• Marcel embauche Paul • Marcel embauche Paul parce qu’il prend des décisions justes• Marcel est un bon manager• Etc …
Où sont les données, informations, connaissances, sagesse ?
Tous ces énoncés sont des données.
Le traitement de l’information consiste à produire des données à partir de données, échangées entre différents acteurs
Passage du modèle hiérarchique de la pyramide au modèle horizontal du réseau.
Construire le réseau social des données
Les énoncés des données doivent partager des éléments.
EntrePierre X habite Marseille depuis 1987 et Marie Y travaille à la BNP car elle aime l’argentIl n’y a aucun lien.
C’est un troisième énoncé qui en créera un :Pierre X est le frère de Marie Y
Chaque donnée doit être articulée, décomposable en éléments appartenant à un vocabulaire partagé avec d’autres Construire un réseau social entre les énoncés des données.
Les entités, les éléments émergents des données, et non l’inverse.
La récursivité des donnéesPour être utiles, il faut que les données puissent parler d’autres données
Paul dit que [Marie habite Marseille] parce que [Pierre aime la plongée]
Hélas, une cellule dans une table de base de données relationnelle ne sait pas faire référence à d’autres cellules situées dans d’autres tables ou d’autres bases.
Exemple : la cotation d’une information en Renseignement Militaire
Réfléchir, délibérer, décider, c’est passer son temps à tisser et démêler cet enchevêtrement de données.
Comment espérer que l’informatique nous accompagne loin dans le traitement de l’information si elle ne possède pas la capacité élémentaire de représenter de tels plexus, plis et replis ?
Conclusion
L’informatique manque de moyens pour représenter la complexité des données
L’informaticien a des circonstances atténuantes
Les concepts logiciels ne suivent pas le rythme exponentiel du matériel
Pour progresser, l’informatique a besoin non seulement d’indulgence, mais aussi de beaucoup de concours pragmatiques et scientifiques de toutes les parties prenantes du traitement de l’information, pour élaborer progressivement une véritable théorie de l’information.
Recommended