Ibrain - 50A BLOG · 2018. 7. 12. · Ibrain Laissez la matrice vous prévenir. Projet 50A - Recherche & Développements 2011 - 2014 Avec le partenariat du CNRS . 2 Nous sommes entrés

Ibrain Laissez la matrice vous prévenir. Projet 50A - Recherche & Développements 2011 - 2014 Avec le partenariat du CNRS

2

Nous sommes entrés définitivement dans une ère numérique où chaque jour de fantastiques volumes de données sont partagées, échangées, stockées, mais aussi analysées, modifiées, comparées, transformées, utilisées ou traitées…

1

Ce trop plein de données peut contenir des informations dont la prise en compte n’est pas instantanée, car elle est cachée : c’est parfois un traitement statistique de l’information qui la fait apparaître ; parfois c’est la juxtaposition voire même la corrélation qui font apparaître ou créer cette connaissance ; parfois encore, c’est un long travail de datamining qui sera la bonne méthode in fine. Quand bien même cette problématique d’extraction est promise à un avenir florissant, il n’y a pas de recette simple et aujourd’hui, les techniques et les technologies qui s’y attaquent sont simplement naissantes. En effet, extraire la connaissance de ce magma est compliqué tant les structures, les usages, les protocoles, les accès, et tant de nombreux autres paramètres sont intrinsèquement différents. Pourtant, 50A veut se donner les moyens de relever ce défi en créant un département de R&D, en faisant appel à un expert, en s’associant à un laboratoire de recherche du CNRS et enfin en intégrant un doctorant CIFRE afin de développer la partie théorique en même temps que les prototypes plus appliqués et industriels. Pour l’ensemble de ces données et ces flux, 50A pense qu’ils répondent à une classification en 7 grandes branches : 1) des réseaux sociaux et plus généralement à

toutes les interactions que nous pouvons avoir

2

avec des personnes plus ou moins qualifiées, (relations professionnelles, famille, amis, groupes d’intérêts, fans de stars, etc.)

2) l’information pure ; avec deux sous classes importantes. Les données du temps comme les « pure players », (site d’information) et les données d’un espace propre et délimité : les blogs, les forums, mais aussi les sites d’emploi par exemple. #Monothématique.

3) le domaine privé ; typiquement un flickr privé,

mes bookmarks sous Chrome, les données de compte bancaire, mes whish listes secrètes, ... Tout ce qui est information, numérique, non partagée et m’appartenant strictement.

4) le librement disponible ; dans ce cadre, l’OpenData est le meilleur exemple actuel.

5) Les données à but commercial qui sont poussées

vers l’utilisateur (Foursquare avec les « conseils pro » ou les api « pages jaunes » par exemple)

6) Le Quantified Self, apparu début 2011, n’est pas

traité pour l’instant par manque de repères et de bases solides et cohérentes même si le paradigme se promet un bel avenir...

7) Toutes les données qui peuvent être en

interaction avec des usages mais qui ne rentrent pas dans une des grandes catégories ci dessus et qui pourtant, avec une simple API, pourraient (peuvent déjà ?) permettre de donner de l’information qui pourrait m’être utile.

3

Les réseaux sociaux, dont Facebook est le meilleur représentant, sont depuis quelques années désormais, un outil puissant de dispersion d’information et de sa qualification.

1

Les réseaux sociaux, dont Facebook est le meilleur représentant, sont, depuis quelques années désormais, un puissant outil de dispersion d’information. Avec près de 700 millions de membres, 100 milliards de photos, des dizaines de millions de statuts, de commentaires, et des centaines de milliers d’applications et autant de pages fan, il existe nativement de la connaissance inexploitée qui pourrait être fabriquée par exemple grâce une connaissance fine de la nature du lien qui unit les gens et de leurs interactions. Que pensent mes amis Facebook, du Canon 7D ? Qui, parmi mes relations LinkedIn, pense que telle entreprise à Paris est meilleure que telle autre ? Qui est allé voir tel film ? Qui est non loin de moi alors que moi même,

je suis loin de chez moi? Dans les données génériques, certaines sont librement accessibles ; elles peuvent se trouver dans les réseaux sociaux, dans les applications ou sont volontairement rendues disponibles : c’est l’openData. Son paradigme est de faire que toute entité (personne, programme, ...) puisse disposer librement de données, délivrées de toute

forme de copyright trop contraignant, dont l’acquisition est rendue simple. La Team R&D 50A a organisé en février 2011 une Hacking Party sur la thématique “Open Data et Utilité”. Pendant longtemps la France a été en retard sur le plan international au niveau de l’Open Data. 50A R&D propose une hypothèse forte : L’ère de l’Open Data, en permettant la capture puis le traitement par recorrélation des différents flux d’information, permettra l’apparition de nouveaux usages. Nous n’en sommes qu’au début et des révolutions sont assurément à venir dans ce domaine. #NoLimit

Certes, c’est moins vrai pour les flux d’information qui par nature évoquent les mêmes sujets au même moment. Mais même s’ils sont une catégorie à part, nous considérons qu’il sont néanmoins porteurs de connaissance

L’exemple Paris vs Washington D.C : Paris se met progressivement à l’Open Data avec le site OpenData.Paris.fr, mais il reste encore très limité par rapport à son homologue américain Data.gov qui propose une multitude des données très fournies et capables d’être « mappées » rapidement sur des sujets tels que le climat, la santé, l’éducation et même les dépenses de l’État.

4

2

Les données d’information pure, où la connaissance est très directement accessible, sont les news (information) mais aussi tous les billets de blogs, leurs commentaires et les forums qui représentent des quantités astronomiques de connaissance dont la corrélation n’est pas assurée et la connaissance induite non encore produite : que pensent les journalistes de l’action de la présidente du Chabichou ? Comment traite-t-on du passage de Windows à Linux dans les forums ? Est ce difficile ? Le chromebook a-t-il un avenir ? Quel journal est le plus optimiste en moyenne ? Les données commerciales sont les données payantes ou les données des comparateurs de prix, ou encore les données des centrales de voyages. Celles ci sont plus de l’ordre du « pull » : « je vais les chercher ». Il faut ajouter toutes celles qui poussées (push) vers nous, de la pub en passant par les corrélations pré calculées. Leur connaissance et leur étude, mise en face de choix ou de goûts déclarés, peuvent être utile. Poser une alerte automatique sur les “voyages au Mexique” ayant le critère “plutôt en août, et moins de 2000 euros” doit être une entité repérable, traitable, et manipulable. La géolocalisation et la disponibilité d’une offre de discount doivent pouvoir matcher sans autre intervention que leurs existences. Il est encore difficile d’imaginer les possibilités qu’ouvre le traitement de ces flux et de leurs données et nous pouvons déjà entre apercevoir que ces travaux pourraient :

Favoriser l’intelligence collective et la créativité ! en permettant l’accès à plus d’information Permettre de compiler des données pour inventer de nouveaux usages ! en retravaillant ces données Créer de nouveaux services pour faciliter la vie quotidienne des citoyens ou d’usagers. ! en permettant la création de prototype alimenté Permettre plus de transparence ! en donnant la possibilité d’analyser les données.

A chaque instant, ces données et ces gigantesques flux d’information entrants et sortants transitent sur nos réseaux ; ils représentent une mine d’informations encore inexploitée car il n’est encore pas possible de les corréler nativement entre elles : protocoles mais aussi data ou sémantique : ce que nous pouvons voir dans un flux donné ne dépend pas des autres flux. Rien dans l'information ne permet de relier les informations entre elles : que ce soit la date de parution ou le protocole ou encore le propriétaire : quand un ami utilise « Facebook Lieux » et moi « Foursquare » ou « Google Latitude », rien, nativement, ne permet re-corréler les données et de faire apparaître éventuellement l’information “telle personne est tout près de vous”.

3

De la même façon, comment exploiter les informations qui se trouvent uniquement en format graphique, ou sans aucun accès simplifié de type API ? Comment relier les informations météorologiques de meteofrance.fr avec mes données de TripIt.com (organisation de voyage) pour que la recorrélation des données fassent apparaître par exemple : «Attention, vous devriez prendre un parapluie » ? Comment savoir si mes amis Facebook et Twitter sont “dans l’ensemble, plutôt heureux en ce moment” ? Qui, parmi mes amis, est disponible pour m’accompagner en vacances avec moi pendant deux mois cet été au Mexique ?

Dans le projet qui se dessine ci dessus, nous avons repéré trois principales difficultés qui marquent trois grandes étapes : D’une part, gérer la masse de données, les différents flux et toute les informations qui y sont contenues. Y compris celles qui

sont invisibles par leur mode d’utilisation : vous n’aurez jamais accès à aucune donnée de votre timeline Twitter de 9h à 11h si vous vous connectez à votre compte pour la première fois aujourd’hui vers 18h et que vous avez plus de quelques centaines de followers actifs. D’autre part, aller au coeur de l’information sans tenir compte des structures, des protocoles, des différentes couches, des logiciels, des accès aux bases de données, du temps, est une autre difficulté. Les applications, leurs éventuelles API, leurs limitations sont autant de possibilités mais ne sont pas nativement dédiées à ce type de traitement. Il nous faudra donc traiter avec du brut dont il faudra faire faire du bruit place nette : aller chercher l’information est une chose, recorréler en est une autre : in finé, qu’est ce qu’une information ? Qu’est ce que veut dire « être riche », « être en forme », « être heureux » ou « je suis en vacances », « je ne suis pas à Paris » ?

Les innovations sont presque toujours le fait d'explorateurs

individuels ou de petits groupes, et presque jamais

celui de bureaucraties importantes et hautement

structurées.

- Harold J. Leavitt

Il existe une multitude de flux auxquels nous sommes rattachés : ces flux sont ! privés (les DM twitter, Compte bancaire, Flickr privé, bookmark, etc), ! restreints (Les walls Facebook, Typad avec abonnement, …) ou encore ! publics (le flux d’info économique de lemonde.fr, le rss des blogs, les API X.fr etc).

5

Si des informations de type géolocalisation sont concrètes (des coordonnées) « comprendre » la nature même d’une information n’est pas chose aisée. La stocker encore moins. Enfin, il importe à la fin du traitement, quand tout a été récupéré, débruité, recorrélé, de présenter une information propre à l’utilisateur final : que ce soit du domaine alimentaire, en e-commerce local, en sport, en géolocalisation, en étude sur une marque, le travail à faire est conséquent afin de tirer la substantifique moelle des (Giga, Tera, Exa, ....) octets d’informations quotidiennes, transitantes et disponibles. DIRECTION Le projet de 50A R&D est ambitieux : au contraire de ceux qui cherchent à savoir qui est le plus influent ou quelle est l’information la plus intéressante, iBrain, du nom du projet de Recherche et Développement, est une application qui tente de vous apporter l’information cachée dans vos flux en re-corrélant les informations qui lui semblent pertinentes ; rappelez vous : si une personne fait un Foursquare, c’est bien. Si iBrain détecte qu’elle et vous êtes amies ET qu’elle et vous êtes à moins de 30m l’une de l’autre : c’est mieux ! De la même façon, comment profiter de l’Open Data public : comment iBrain peut-il prendre l’initiative de me proposer tel restaurant parce que ce dernier aura proposé une offre intéressante parce que iBrain l’aura de lui-même qualifié comme telle!? 50A se lance donc dans une processus de R&D afin de développer iBrain. Inférence et probabilités bayésiennes, Datamining, Corrélation sémantique, la grande Aventure scientifique commence.

Les grands moyens : l’association avec le CNRS. En février 2011, 50A a noué un partenariat avec l’UTC (Université Technologique de Compiègne) et notamment un de ses laboratoires, HEUDIASYC, Unité Mixte de Recherches CNRS 6599 (http://www.hds.utc.fr/), dont le directeur de recherches est Ali Charara. Spécialisé dans l’extraction et la manipulation de la connaissance, l’équipe de recherches considérée est ICI (Information Connaissance Interaction) dont la responsable est MH Abel. Une thèse CIFRE va démarrer et aura pour titre : “Système d’analyse de systèmes sociaux : extraction et gestion d’informations pour l’élaboration d’un système multidimensionnel de connaissances corrélées” Cette thèse sera co encadrée par M.H. Abel, P. Morizet-Mahoudeaux, du laboratoire HEUDIASYC.

Imagination is more important than knowledge. Knowledge is limited. Imagination encircles

the world.

Albert Einstein

L’objet de cette recherche en collaboration est de réaliser un modèle multidimensionnel de connaissances corrélées construit à partir de connaissances publiques et libres des utilisateurs, de données d’intérêt et des environnements d’exploitation. Elle s’appuiera sur l’étude de méthodes d’identification et de caractérisation d’un utilisateur dans un environnement socio-professionnel, la collection de données d’intérêt et la définition d’un contexte d’exploitation. Elle devra permettre de corréler l’ensemble de ces ressources et systèmes d’information pour proposer spontanément ou suite à une requête une information pertinente en fonction des circonstances et des besoins d’exploitation.

6

Certaines des données et informations du réseau internet deviennent de façon croissante maintenant librement accessibles et réutilisables, soit de fait dans les réseaux sociaux, soit suite à une mise à disposition publique volontaire comme dans l’OpenData. La juxtaposition de ces ressources d’information représente un potentiel de connaissances que l’on ne sait pas encore bien exploiter. En effet, les bases de données qui stockent ces informations et les flux relatifs à leur exploitation sont totalement déconnectés et ne partagent presqu’aucune méta-information qui permettrait de les lier les uns aux autres. Contrairement aux données privées que l’on ne peut exploiter que sous licence, ces données publiques, bien qu’accessibles librement, n’offrent aucune structure simple, qui permet de les ré-utiliser ensemble. En revanche, leur massification, leur diversité et leur universalité ne laisse planer aucun doute sur l’accroissement de connaissance que l’on peut espérer d’une exploitation qui s’appuierait sur des recoupements, des associations et la recherche de leurs corrélations. A ce constat il faut ajouter le développement d’un environnement pervasif (ou ubiquitaire) qui, grâce à une informatique diffuse, permet aux objets communicants tels les téléphones ou les tablettes interactives de se reconnaître entre eux et de se localiser automatiquement. Une fois repérées, retraitées et recoupées, la mise en commun de ces informations laisse présager l’éclosion d’une intelligence collective. Elle devrait ainsi favoriser de nouvelles formes de créativité, permettre l’émergence de nouveaux usages, le développement de nouveaux services pour la vie quotidienne privée et professionnelle, la démocratisation et la transparence des savoirs. Les tentatives actuelles de mise en commun s’appuient, pour la plupart, sur l’exploitation des descripteurs de l’information tels, le taux de tweets le plus retweetés, les vidéos les plus échangées, les articles de journaux les plus souvent répétés pour faire des regroupements, des cures et des classifications. Cela se traduit généralement par l’utilisation des données statistiques sur ces descripteurs, auxquels on peut parfois ajouter des éléments d’une ontologie descriptive du domaine concerné. Des efforts importants de recherche sont menés dans le domaine des systèmes de recherche d’informations disponibles sur le web ou les sites internes des entreprises pour proposer aux utilisateurs une réponse appropriée à leurs besoins et la pertinence (relevance) de l’information retournée en réponse à une requête. Le principe général consiste à sélectionner dans la masse des informations retournées, celles qui semblent être le mieux adaptées à la requête qui a été formulée

Les méthodes utilisées s’appuient sur des techniques de relevance feedback (retour sur pertinence) selon deux approches principales. La première repose sur une sélection, par l’utilisateur, des réponses les plus appropriées à une requête initiale, puis, à partir de cette sélection affiner la requête initiale pour relancer une recherche. La seconde consiste, dans une première phase d’apprentissage à donner une valeur de pertinence (par l’utilisateur) aux informations retournées pour un ensemble aléatoire de requêtes, puis, à partir d’évaluations statistiques, à donner un poids aux descripteurs qui constituent le corpus de ces requêtes. Ces deux approches, même si elles apportent une amélioration notable dans la sélection de documents appropriés, restent lourdes à mettre en place et ne prennent pas en compte des informations spécifiques aux utilisateurs et aux circonstances de la requête. En effet, elles améliorent la sélection des documents uniquement par une analyse des requêtes indépendamment du contexte dans lequel elles ont été formulées. Autrement dit, deux utilisateurs distincts peuvent formuler la même requête mais ne pas vouloir obtenir les mêmes résultats, selon, par exemple, que l’un veut approfondir un domaine dans lequel il est déjà expert ou sur lequel il a déjà obtenu des informations et que l’autre souhaite avoir une approche synthétique d’un domaine qu’il aborde pour une première fois.

L’objet de cette recherche en collaboration est de réaliser un modèle multidimensionnel de connaissances corrélées construit à partir de connaissances publiques et libres des utilisateurs, de données d’intérêt et des environnements d’exploitation.

7

De même, un utilisateur donné peut formuler deux requêtes semblables mais dans des circonstances d’espace et de temps différentes qui impliquent deux réponses distinctes. L’estimation de la pertinence nécessite alors une double interprétation : celle du contenu de l’information retournée et celle du besoin informationnel de l’utilisateur. L’estimation de la pertinence est une mesure qui est évaluée en fonction de plusieurs paramètres :

• ceux relatifs à l’utilisateur

• ceux relatifs aux informations,

• ceux relatifs à l’environnement.

L’ensemble de ces paramètres définit la notion de contexte. Les éléments qui définissent le contexte utilisateur sont également de plusieurs ordres : son profil, ses préférences, son expertise, son objectif, la tâche à résoudre, … Ils s’appuient sur un modèle qui peut se construire a priori à l’aide, par exemple, d’un questionnaire d’auto description rempli par l’utilisateur, mais aussi a posteriori par apprentissage sur des comportements observés. Ceux qui définissent une information (un document textuel, un fichier vidéo, une page web d’un journal, …) sont par exemple une date de création ou de modification, un type, une origine, une disponibilité, une accessibilité et des descripteurs de contenu (les mots d’un texte, des données d’UNE image…). Ceux qui définissent l’environnement sont, par exemple, le lieu, l’heure, le groupe professionnel concerné, le niveau de sécurité, … Cependant, comme indiqué en introduction, la simple juxtaposition de ces connaissances ne suffit pas pour apporter la réponse souhaitée ; son élaboration nécessite de les faire interagir. Cela signifie qu’avant l’émission de la requête (voire l’envoi d’un message sans sollicitation) les liens entre les sources d’information aient été établis pour construire une connaissance. L’hypothèse est donc qu’un système constitué d’un individu, faisant partie d’une sphère d’intérêt (un réseau social, une entreprise, un domaine culturel, …) voulant acquérir une connaissance constitué de plusieurs sources d’informations liées, à un instant et en un lieu donnés, répondent à un certain nombre de critères qui permettent de construire un modèle. Ce modèle, multi-dimensionnel, réunit l’individu, les informations et l’environnement en un seul ensemble qui a construit les associations potentielles entre les éléments qui le constituent. Ce sont, par exemple, une mémoire collaborative d’un groupe socio-professionnel, une organisation des informations par centre d’intérêt, une géolocalisation des accès aux ressources.

La vérification de cette hypothèse et la réalisation de ce modèle reposent sur la construction d’un réceptacle, noté iBrain, qui collationnerait en permanence l’ensemble des données (utilisateur, information, environnement) pour construire et mettre à jour les liens potentiels entre celles-ci. Bienvenue dans la Matrice.

8

Nicolas Bermond : Fondateur et Directeur de 50 A, Nicolas est titulaire d’un master dont la thèse a porté sur l’étude des small world (la fameuse théorie des 6 degrés de séparation). Il a une connaissance parfaite du web, de ses modèles, de ses pratiques, des techniques et des protocoles. Il a une expertise reconnue en réseaux sociaux et en web 2.0. Nicolas chapeaute donc le projet

Vincent Mulard : Ingénieur, Vincent est le spécialiste du développement : MVC, C#, extends et autre preg_match, tous ces mots n’ont un secret pour lui et c’est ainsi que les flux plongent dans ses API, s’associent et corrélationnent dans l’infini pour créer créent les connaissances pertinentes dans une nouvelle expérience utilisateur digne de 50A et du XXIèS

« L'ordinateur ne peut que restituer, sous une forme plus ou moins élaborée, les concepts que le chercheur y a introduits. Il est incapable de faire preuve d'intuition, démarche subtile encore mal comprise qui seule peut conduire à la découverte. [...] La vocation première d'un chercheur est de créer de l'information nouvelle et non pas de manipuler d'une manière de plus en plus élaborée l'information déjà disponible ».

[Pierre Joliot] Extrait de « La Recherche passionnément »

Vincent Pinte Deregnaucourt : Ingénieur, Mathématicien, consultant en R&D et agréé par le ministère de l’enseignement supérieur et de la recherche, Vincent pilote le projet de R&D en interne et apporte son expertise de chercheur et son expérience d’entrepreneur.

Jordan Bracco: 20 ans, 2m et déjà beaucoup d’années dans le WEB! Ce grand génie a été séduit par le projet de 50A et c’est tout naturellement qu’il a rejoint l’équipe. Dans ces derniers faits d’armes, Jordan est allé en Afrique pour permettre aux Tunisiens de faire leur révolution, en installant des modems dans la nuit...

Damien Houille : Ingénieur, HEC, Damien est l'expat’ de l'équipe. Passionné par les réseaux sociaux et spécialiste de l'analyse de la réputation des entreprises, il participe aux prototypes liés à iBrain depuis le soleil d'Afrique du Sud.

Glenn Rolland : Normalien, Glenn a une expertise d’entrepreneur et des réseaux sociaux sans pareil. Il apporte son concours dans le projet, à travers également un autre projet plus personnel qui pourrait s’intercaler dans le notre.

Xuan Truong VU : 23 ans, arrive avec sa culture du Vietnam et en France depuis mars 2007, il termine tout juste un diplôme d'ingénieur en Informatique à l'UTC (Compiègne) et s'apprête à faire une thèse CIFRE, chez 50A, encadrée par l’UTC. Passionné de nouvelles technos, il aime aussi le football et la photographie.

iBrain Par 50A.fr

Nicolas Bermond Directeur de 50 A, PARIS

[email protected]

@Nicolas2fr

Documents

Ibrain - 50A BLOG · 2018. 7. 12. · Ibrain Laissez la matrice vous prévenir. Projet 50A - Recherche & Développements 2011 - 2014 Avec le partenariat du CNRS . 2 Nous sommes entrés