26
BIG DATA, SECURITE DES DONNEES ET PROTECTION JURIDIQUE PROGRAMME Ne pas se faire Voler ses Données Les plus grands sites mondiaux (ne les nommons pas, ils sont adhérents) se sont fait voler des données utilisateurs - parfois des millions - par des individus isolés ou par de toutes petites équipes désormais motivées non plus par la gloire mais par le désir de revendre ce qu’ils ont volé. Comment s’assurer d’une sécurité totale des données commerciales, dès lors que nous gérons des comptes clients interfacés avec Internet, et que n’importe quel énergumène peut essayer de hacker nos sites de E-commerce ou notre page Facebook ? La sécurité totale existe-t-elle ? Comment s’en rapprocher ? Régimes Juridique & Pénal Quelle est la responsabilité de la marque en cas de vol et de divulgation de données commerciales ou personnelles, voire bancaires ? Quels sont les risques encourus par les hackers et que faire si ces hackers se trouvent à l’étranger ? Existe-t-il des assurances qui offriraient des couvertures contre la perte de données ? Intervenants : BLUESTONE, Arnaud Laroche, Associé CHEF JEROME, Antoine Durieux, Fondateur HOCHE SOCIETE D'AVOCATS, Régis Carral et Frédéric Guénin, Avocats IBM, Serge Richard, Senior Security Solution Architect INA, Jean-François Debarnot, Directeur juridique ISCOOL, Gaëlle Periat, Social Games Analyst ISCOOL ENTERTAINMENT, Mathieu Olivier, VP Business Operations BLABLACAR, Francis Nappez, Co-fondateur et Directeur technique TRICAST, Louis Armagnat, Marketing VP Animateurs : IT NEWS INFO, Jean-Pierre Blettner, Directeur des rédactions PWC, Gilbert Grenié, Consulting PWC, Zouheir Guedri, Directeur expert Big Data

Big data, sécurité des données et protection juridiqueIBM, Serge Richard, Senior Security Solution Architect INA, Jean-François Debarnot, Directeur juridique ISCOOL, Gaëlle Periat,

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Big data, sécurité des données et protection juridiqueIBM, Serge Richard, Senior Security Solution Architect INA, Jean-François Debarnot, Directeur juridique ISCOOL, Gaëlle Periat,

BIG DATA, SECURITE DES DONNEES ET PROTECTION JURIDIQUE

PROGRAMME

Ne pas se faire Voler ses Données

Les plus grands sites mondiaux (ne les nommons pas, ils sont adhérents) se sont fait voler des données utilisateurs - parfois des millions - par des individus isolés ou par de toutes petites équipes désormais motivées non plus par la gloire mais par le désir de revendre ce qu’ils ont volé. Comment s’assurer d’une sécurité totale des données commerciales, dès lors que nous gérons des comptes clients interfacés avec Internet, et que n’importe quel énergumène peut essayer de hacker nos sites de E-commerce ou notre page Facebook ? La sécurité totale existe-t-elle ? Comment s’en rapprocher ?

Régimes Juridique & Pénal

Quelle est la responsabilité de la marque en cas de vol et de divulgation de données commerciales ou personnelles, voire bancaires ? Quels sont les risques encourus par les hackers et que faire si ces hackers se trouvent à l’étranger ? Existe-t-il des assurances qui offriraient des couvertures contre la perte de données ?

Intervenants :

BLUESTONE, Arnaud Laroche, Associé CHEF JEROME, Antoine Durieux, Fondateur HOCHE SOCIETE D'AVOCATS, Régis Carral et Frédéric Guénin, Avocats IBM, Serge Richard, Senior Security Solution Architect INA, Jean-François Debarnot, Directeur juridique ISCOOL, Gaëlle Periat, Social Games Analyst ISCOOL ENTERTAINMENT, Mathieu Olivier, VP Business Operations

BLABLACAR, Francis Nappez, Co-fondateur et Directeur technique TRICAST, Louis Armagnat, Marketing VP

Animateurs :

IT NEWS INFO, Jean-Pierre Blettner, Directeur des rédactions PWC, Gilbert Grenié, Consulting PWC, Zouheir Guedri, Directeur expert Big Data

Page 2: Big data, sécurité des données et protection juridiqueIBM, Serge Richard, Senior Security Solution Architect INA, Jean-François Debarnot, Directeur juridique ISCOOL, Gaëlle Periat,

BIG DATA, SECURITE DES DONNEES ET PROTECTION JURIDIQUE

2/26

INTRODUCTION PAR GILBERT GRENIE, PWC Le sujet du Big Data fait couler beaucoup d’encre. Tous les médias en parlent. La première question que l’on peut se poser est la suivante : Quelle est la part du buzz, de l’effet de mode, que nous retrouvons périodiquement, notamment autour des sujets informatiques ? Ensuite nous pouvons nous demander : Quelle est la part de réalité et de création de valeur dans ce phénomène Big Data ? Chacun sait qu’il ne faut pas tout prendre pour argent comptant. Un certain nombre de responsables de communication commencent à alimenter fortement le buzz mais ce n’est pas pour cette raison qu’il faut foncer tête baissée dans ce sujet. Chez PWC, nous avons étudié le sujet et nous nous sommes aperçus qu’il y a de vraies opportunités de création de valeur avec le Big Data. Les intervenants présents vont vous présenter de manière concrète, à travers leurs expériences, comment ils mettent en œuvre au quotidien ce Big Data dans leur business, afin d’augmenter leur revenu et trouver de nouveaux clients. Les intervenants travaillent dans des secteurs différents, très « modernes » avec par exemple des business sur Internet, et d’autres plus « classiques », comme le secteur des assurances. Si on veut se lancer dans un phénomène Big Data, il faut également penser aux questions juridiques. Nous utilisons de la donnée donc il y a un risque. Il nous semble important que ces questions juridiques ne constituent pas un frein à la mise en œuvre de ces données Big Data. Nous aurons un éclairage juridique de la part du cabinet Hoche.

Page 3: Big data, sécurité des données et protection juridiqueIBM, Serge Richard, Senior Security Solution Architect INA, Jean-François Debarnot, Directeur juridique ISCOOL, Gaëlle Periat,

BIG DATA, SECURITE DES DONNEES ET PROTECTION JURIDIQUE

3/26

Table ronde n° 1 : Big Data dans le secteur BtoC au travers des expériences Internet Résumé : Aujourd’hui, il est possible de capter des millions de données sur les utilisateurs via Internet et les cookies, nous sommes entrés dans ce qu’on appelle le Big Data. Plusieurs questions se posent autour de la collecte de la data. Des questions juridiques concernant le respect de la vie privée mais aussi des questions pratiques sur l’utilisation de la data se posent. A quoi vont servir ces données, quelles vont être leur utilité ? D’une part, stocker des données représente un coût important pour l’entreprise et d’autre part, d’un point de vue légal, les entreprises ont l’obligation en amont de déclarer à la CNIL l’utilisation qu’elles ont prévues de faire de cette data. Au travers des retours d’expériences, les intervenants vous expliqueront leurs méthodes de collecte de données et vous verrez qu’elles peuvent être utilisées à des fins différentes.

Intervenants :

CHEF JEROME, Antoine Durieux, Fondateur ISCOOL, Gaëlle Periat, Social Games Analyst ISCOOL ENTERTAINMENT, Mathieu Olivier, VP Business Operations BLABLACAR, Francis Nappez, Co-fondateur et Directeur technique HOCHE SOCIETE D'AVOCATS, Régis Carral, Avocat

PRESENTATION DE CHEF JEROME – PAR ANTOINE DURIEUX, FONDATEUR Aujourd’hui, dans le milieu de l’advertising, les budgets marketing migrent des anciens médias vers les nouveaux, comme Internet. Les publicitaires découvrent de nouveaux moyens de communication et réinventent les formats publicitaires. Les trois caractéristiques d’une campagne de publicité idéale sont : > la puissance, c’est-à-dire la capacité à toucher un grand nombre de gens > la qualification : c’est-à-dire la capacité à toucher la cible > le ROI, c’est-à-dire la capacité à mesurer immédiatement l’effet de la campagne

Page 4: Big data, sécurité des données et protection juridiqueIBM, Serge Richard, Senior Security Solution Architect INA, Jean-François Debarnot, Directeur juridique ISCOOL, Gaëlle Periat,

BIG DATA, SECURITE DES DONNEES ET PROTECTION JURIDIQUE

4/26

Aujourd’hui, comme dans la publicité classique, se trouve d’un côté des annonceurs et des marques et de l’autre des entreprises qui possèdent des espaces publicitaires, en l’occurrence des sites Internet comme par exemple www.lefigaro.fr ou www.lemonde.fr, etc. Dans les faits, nous constatons que les espaces publicitaires passent « de la main à la main » et ces espaces sont infimes par rapport à ce qui existe sur la toile. Sur un site Internet, environ 10 % des espaces publicitaires du site sont vendus de la main à la main, à prix d’or, à une toute petite fraction de clients. Par exemple, seulement une toute petite partie de l’espace publicitaire du site www.lemonde.fr est vendu à Peugeot. Le reste est mis à la vente sur le marché. Tout un espace de vente sous-jacent s’est mis en place. Ce phénomène est celui des Ad-Exchanges, n’importe qui peut acheter ces espaces comme à la bourse et les gens viennent les mettre à disposition pour générer des revenus. Ces espaces sont vendus uniquement par quelques géants, seuls capables de mettre en place et de monter ce type d’infrastructures, par exemple Google. A chaque fois que vous voyez une page, 10 % de l’espace publicitaire est vendu en direct et 90 % est vendu aux enchères, directement ou en indirectement sur des plateformes. Il n’y a que 4 bourses, donc tout le monde ne peut pas y aller comme ça. Les entreprises pour la plupart n’ont pas assez d’infrastructures pour soutenir l’offre qui afflue sur ces places de marché, c’est pourquoi des acteurs se sont regroupés pour acheter de la publicité, on les appelle les DSP (Demand Side Plateforms). Ils regroupent un certain nombre d’agences et d’annonceurs qui viennent sur les plateformes pour expliquer leur besoin. A chaque fois que vous voyez une page, cet espace publicitaire remonte la chaîne et est proposé à la vente. Pour faire cette enchère, vous disposez de deux informations : on vous envoie le lien de la page qui va être vu et un cookie, qui identifie de manière plus ou moins individuelle l’utilisateur. Par exemple si vous êtes Leroy Merlin et que vous voulez communiquer sur www.lefigaro.fr, vous décidez d’acheter tout ce qui commence par www.lefigaro.fr, mais comme vous êtes un magasin de bricolage, vous souhaitez plutôt recenser et acheter des liens de pages où il est question de bricolage. Des personnes sont là pour vous aider à connaître ces pages et vont vous aiguiller. Cet écosystème s’appelle écosystème de DSP et data providers. Vous allez pouvoir recueillir des informations concernant l’utilisateur et la page qu’il est en train de visualiser. Cet écosystème va vous aiguiller sur les sites qui vous intéressent, au moyen de différents flux auxquels vous allez pouvoir vous abonner. Par exemple, un flux vous renseignera sur le fait que cette page parle de bricolage, un autre flux (par l’intermédiaire du cookie) vous informera que l’internaute est un homme, un autre qu’il a 35 ans, etc. Toutes ces informations vont vous permettre de construire un produit marketing très complexe et très ciblé et de réaliser des campagnes marketing d’une précision quasi « chirurgicale ». La valeur ne réside pas dans la capacité à acheter un espace adapté mais dans la capacité à récolter de l’information pour faire un ciblage très précis, donc efficace et rentable. C’est en ça que consiste mon travail, je suis data provider. Mon travail est de fournir des informations de ciblage dans un domaine dans lequel je suis spécialisé, qui est le domaine du

Page 5: Big data, sécurité des données et protection juridiqueIBM, Serge Richard, Senior Security Solution Architect INA, Jean-François Debarnot, Directeur juridique ISCOOL, Gaëlle Periat,

BIG DATA, SECURITE DES DONNEES ET PROTECTION JURIDIQUE

5/26

food et des boissons. Je permets à des clients travaillant dans le domaine de l’agroalimentaire de faire des campagnes extrêmement ciblées pour venir parler de leurs produits. Par exemple, Casino m’a demandé de faire un ciblage sur un certain type de recettes et de construire une publicité ciblée. Un autre exemple avec Bacardi, qui veut faire une campagne de publicité sur les cocktails cet été, m’a demandé de cibler des gens jeunes et de montrer ses publicités sur des endroits qui parlent de boissons. Pourquoi fait-on ça dans le domaine de l’alimentaire ? Parce que nous pensons que c’est une source parfaite de données qui regroupe 3 caractéristiques intéressantes. D’une part elle est extrêmement volumineuse donc nous pouvons avoir un reach important. De plus elle est intime, « dis-moi ce que tu manges je te dirais qui tu es ». Enfin, elle n’est pas très chère donc elle nous permet d’avoir des prix compétitifs. Dans le domaine de l’alimentaire, entre 600 millions et 1 milliard de pages sont vues chaque mois, et permettent de toucher 20 à 25 millions de personnes, ce qui est supérieur à la TV. Quand nous présentons ces données à un client et lui expliquons que nous sommes capables de montrer ses produits à tous ces gens, il est très intéressé. Nous captons de la donnée d’intention et de la donnée d’acte d’achats, de manière à essayer de comprendre ce que vous aimez et comment vous menez l’acte d’achats. Nous représentons ensuite tout ça dans un grand graphique dans lequel sont regroupées toutes les données. (Présentation du graphique) Le rond rouge au milieu correspond au cookie et à l’utilisateur. Tous les points bleus auxquels il est relié sont les produits et les notions avec lesquels l’utilisateur a réagi. Grâce au cookie, je sais à quoi il est relié, dans quelle proportion et dans quelle mesure. Par exemple, je sais que tel utilisateur est relié au concept de chocolat, plus qu’un autre, et si la marque Meunier m’appelle et veut vendre une nouvelle tablette de chocolat, je peux trouver des gens qui sont reliés au concept de chocolat. Ce sera pareil pour la cuisine italienne, si par exemple Magie lance une nouvelle sauce pour la cuisine italienne, je tire le nœud et je vais amener des utilisateurs qui sont liés à ces cookies. L’avantage est de pouvoir relier plusieurs concepts. Si, par exemple, Nestlé veut lancer un chocolat bio, je vais tirer le nœud des gens reliés au concept de bio et de chocolat, pour croiser les données et être le plus précis possible. Nous sommes capables d’analyser beaucoup de choses, comme l’affinité avec un produit, mais ça marche aussi avec une marque ou avec un type de produit, comme halal, kasher, etc. Si c’est un enfant, il est relié à Frosties ou Nutella. Grâce à ces éléments nous sommes capables de dresser un portrait très intime de l’utilisateur, à partir des actions d’achats qu’il a eues sur Internet, des pages de recettes qu’il a consultées et ces intentions d’achats. Nous sommes dans la Big Data car ce graphe regroupe environ 1 milliard de nœuds qui représentent des recettes, des marques, des produits et des concepts. Le problème est que nous ajoutons environ 10 millions de nouveaux nœuds et nouvelles relations par mois. Ca

Page 6: Big data, sécurité des données et protection juridiqueIBM, Serge Richard, Senior Security Solution Architect INA, Jean-François Debarnot, Directeur juridique ISCOOL, Gaëlle Periat,

BIG DATA, SECURITE DES DONNEES ET PROTECTION JURIDIQUE

6/26

donne quelque chose de très massif et effectuer une fouille devient très compliqué. Nous utilisons donc des outils pour le Big Data comme par exemple Hadoop, qui permet de représenter les données sous forme de graphes. Nous avons un certain nombre de problèmes avec la CNIL en termes de droit. Toutes les données que nous stockons référencient de manière anonymes les internautes, ce qui d’ailleurs est très important pour nos clients. Mais malgré tout, cela amène un certain nombre d’informations sur leur religion, leurs intolérances et leurs préférences alimentaires, etc. Il est difficile d’obtenir des précisions juridiques à l’heure actuelle. Pour conclure, à mon sens je dirais qu’avoir de la Data c’est bien mais avoir de la Data actionnable c’est mieux car cela permet de prendre des décisions. Se concentrer sur des données qui ont du sens est essentiel.

PRESENTATION DE ISCOOL – PAR GAELLE PERIAT (SOCIAL GAMES ANALYST) ET OLIVIER MATHIEU (DIRECTEUR ADJOINT, VP BUSINESS OPERATIONS)

GAELLE PERIAT, SOCIAL GAMES ANALYST Nous sommes éditeur de jeux. Nous réalisons beaucoup de jeux sociaux (social gaming) sur Facebook et sur mobile. Nous sommes un des leaders français en termes d’audience aujourd’hui. Nous accueillons 800 000 joueurs actifs chaque jour, nous avons un peu plus de 4 millions de fans sur Facebook, 60 employés répartis sur plusieurs pôles (data, créatif, business, etc.), et nous avons généré 10,2 millions d’euros de revenus en 2011. Comment créons-nous de la Big Data, à quoi nous sert-elle et pourquoi ? Le social gaming comment ça marche ? Tous nos jeux sont gratuits, en vous inscrivant vous gagnez certains biens, des cartes, des jetons si vous jouer à la belotte, etc. Plus vous venez plus on vous fait des cadeaux, et pour progresser dans le jeu il faut jouer encore et encore, se faire des amis, etc. et pour cela revenir chaque jour c’est mieux. Mais vous pouvez aussi acheter des jetons, ça c’est mieux pour nous. Depuis 2009, nous avons décidé d’avoir une approche data-driven. Nous n’avons pas développé spécialement plus de jeux ni obtenu beaucoup plus de joueurs, mais cette approche nous a permis de multiplier les revenus par 5. Le Big Data est constitué des 3 V : 1 > Le volume : Un des objets les plus échangés sur notre jeux ISCOOL, ce sont les points cools (vous dites à vos amis qu’ils sont cools et vous allez leur envoyer des points cools). Ces échanges de points cools génèrent plus de transactions journalières que le CAC 40. Nous en sommes à

Page 7: Big data, sécurité des données et protection juridiqueIBM, Serge Richard, Senior Security Solution Architect INA, Jean-François Debarnot, Directeur juridique ISCOOL, Gaëlle Periat,

BIG DATA, SECURITE DES DONNEES ET PROTECTION JURIDIQUE

7/26

1,4 milliards de points cools échangés, ce qui représente 10 téras de données dans notre base et 30 gigas de données journalières à stocker par jour. 2 > La variété : L’objectif est de récolter différents types de données. Nous en avons déterminé 3, que nous stockons : le log applicatif (à quels jeux nos joueurs ont joué, etc.), les insights Facebook (Facebook nous donne les informations qu’il a sur les joueurs), et nous avons aussi décidé de nous appuyer sur des tags analytics, un framework intégré sur notre jeu nous permet de récolter des informations à certains instants, sur les comportements du joueur comme par exemple qu’il a cliqué sur telle carte ou tel bouton, ça peut être intéressant, surtout pour le bêta-test par exemple. 3 > La vélocité : C’est-à-dire à quelle fréquence nous récupérons les données. Comme nous avons plusieurs sources de données, nous les récupérons sur des durées différentes. Par exemple, nous récupérons les logs applicatifs et les Facebook insights une fois par jour, tous les matins. Les tags analytics, nous pouvons les collecter chaque heure sans perturber l’expérience utilisateur, puisque nous n’allons pas vraiment toucher au jeu. Toutes ces données vont être récupérées dans nos bases et nos dashboard vont être updatés automatiquement dès la réception des données. Parmi nos sources de données nous avons du web Tracking, des logs applicatifs et parfois de l’open data. Nous avons réalisé des expériences pour voir si quand il pleut les gens jouent plus à nos jeux, car ils vont plutôt rester à la maison et ne pas sortir. Et en effet, nous constatons que c’est le cas, quand il fait beau nos DAU (Daily Active Users) baissent. Nous stockons tous ces logs sur Amazon S3. Aujourd’hui nous avons 10 teras de données sur Amazon mais toutes ne vont pas être utiles pour ce qu’on veut en faire, donc nous allons extraire juste ce dont nous avons besoin. Pour cela nous utilisons plusieurs solutions, comme Hadoop, et derrière nous avons un petit framework maison qui s’appelle Pbabe (Pig Babe) car il mange tout ce qu’on lui donne, comme un petit cochon. Nous utilisons également Google-refine. Une fois que nous avons cleané et formaté nos données comme on veut, nous les incluons dans nos bases de données. Aujourd’hui nous avons 2 terabits. Une fois ces données mises dans nos bases, nous allons nous appuyer sur des outils performants comme un tableau software pour de la Data Wise. Puis si nous souhaitons aller chercher de la Data plus en profondeur nous allons chercher des données plutôt sur SaaS. Enfin, nous allons faire un peu d’analyse de graphes. OLIVIER MATHIEU, DIRECTEUR ADJOINT, VP BUSINESS OPERATIONS Comment utilisons nous ces données au quotidien dans notre façon de gérer la société ? Nous partons de métriques que nous appelons iLevel, comme par exemple l’audience, la rétention, etc. qui sont des signaux de bonne ou mauvaise santé de nos jeux en termes de performance. Suivant les jeux, l’objectif est soit de développer la performance (faire venir

Page 8: Big data, sécurité des données et protection juridiqueIBM, Serge Richard, Senior Security Solution Architect INA, Jean-François Debarnot, Directeur juridique ISCOOL, Gaëlle Periat,

BIG DATA, SECURITE DES DONNEES ET PROTECTION JURIDIQUE

8/26

plus de joueurs), soit d’en contenir le déclin, soit d’améliorer sa performance économique (un jeu peut avoir une bonne audience mais mal monétiser), etc. Donc, sur chaque jeu en exploitation, nous regardons quels sont les points à travailler. Un certain nombre de KPI vont nous permettre d’observer où nous en sommes et ils vont aussi nous permettre de nous mettre d’accord en termes d’agenda, afin de décider sur les priorités à travailler. Les nombreuses décisions que nous prenons alimentent une chaîne de production (designers, graphistes, développeurs, etc.). L’enjeu est donc de faire travailler les bonnes personnes, sur le bon sujet, au bon moment, pour développer la performance économique. C’est ce que nous appelons l’« agenda setting ». Ces KPI sont très importants car ils permettent de mettre d’accord des gens de corps de métier différents, avec des sensibilités et des visions différentes des priorités. La première fois que nous nous sommes réunis pour prendre des décisions de « crise », nous avions un jeu qui avait bien marché pendant 1 an, et qui s’était mis à perdre des utilisateurs. Pour résoudre le problème, les priorités n’étaient pas les mêmes selon les personnes : au marketing la personne pensait qu’il fallait un programme CRM, les designers plus de contenus, l’équipe technique optimiser le codes pour réduire les bugs, etc. La Data est très utile car elle permet d’objectiver ce genre de décision. La 2ème phase est celle du data mining. Par exemple, si nous décidons de travailler sur la rétention des joueurs, nous allons essayer de comprendre le plus précisément possible pour quelles raisons la rétention est mauvaise sur ce jeu. Pour cela nous allons comparer les utilisateurs entre eux. Nous allons comparer ceux qui ont le comportement que nous souhaitons (jouer beaucoup, revenir souvent, monétiser, etc.) et ceux qui ont un comportement que nous ne souhaitons pas (ceux qui quittent le jeu). Nous allons essayer de comprendre les problèmes et les résoudre avec des KPI les plus précis possible. Par exemple, Facebook raconte bien comment ils ont construit une plateforme utilisée aujourd’hui par plus d’1 milliard de personnes. En observant ce que les gens aimaient, leurs préférences, etc., ils se sont rendus compte que le KPI le plus important pour les gens sur le réseau social Facebook était de pouvoir retrouver leur ami en 10 jours maximum sur la plateforme et ainsi toucher du doigt l’intérêt de Facebook. Ceux qui le trouvaient en moins de 10 jours restaient actifs des mois et des mois au lieu de partir au bout d’une semaine. Donc ils sont partis de ce constat et du fait qu’il fallait tout faire pour influer sur ce KPI : « retrouver cet ami en 10 jours ». Nous faisons la même chose, nous cherchons ce type de KPI prédictif, très précis. Une fois que nous avons décidé du KPI, nous listons toutes les actions qui vont aller dans ce sens. Toute l’activité peut être passée par ce filtre et pour chaque action, nous nous demandons si oui ou non elle améliore le KPI primitif. Nous réalisons ensuite des analyses pour voir si ça fonctionne et tant que nous n’avons pas atteint les chiffres que nous souhaitons, nous continuons.

Page 9: Big data, sécurité des données et protection juridiqueIBM, Serge Richard, Senior Security Solution Architect INA, Jean-François Debarnot, Directeur juridique ISCOOL, Gaëlle Periat,

BIG DATA, SECURITE DES DONNEES ET PROTECTION JURIDIQUE

9/26

Pour travailler avec ces données, nous avons mis en place quelques principes, les data model principles : > le timestamp : L’important est d’avoir un timestamp, c’est-à-dire pouvoir retracer la chronologie des événements. Chaque événement stocké a une date. Par exemple nous avions le cas d’un jeu qui avait une performance relativement décevante sur le nombre d’utilisateurs qui restaient actifs au bout de 15 jours. Quand nous avons cherché à comprendre pourquoi, la chronologie était importante, car nous pensions que nous perdions chaque jour plus d’utilisateurs que nous n’en gagnions. En l’occurrence ce n’était pas le cas. En réalité, les joueurs partaient au bout du 4ème jour car ils n’avaient plus de bonus -que nous leur avions fourni à l’inscription- et donc quittaient le jeu. Ce constat nous a permis de travailler sur cet aspect et régler assez facilement le problème. > la segmentation : La segmentation est relative à la méthode d’analyse des données. Nous travaillons sur environ 800 000 joueurs quotidiens. Sur ces volumétries les moyennes ne veulent rien dire. L’objectif pour nous est donc d’identifier les profils type de nos utilisateurs, c’est-à-dire le comportement qu’ils vont avoir vis-à-vis du jeu. Parmi les 800 000 joueurs, nous arrivons à trouver en général 3, 4, 5 profils type. Ce qui nous intéresse sont les corrélations entre certaines caractéristiques comportementales et le fait d’appartenir au groupe des utilisateurs les plus engagés (ceux qui reviennent le plus souvent jouer, ceux qui vont monétiser, etc.). Par exemple, dans les jeux où il s’agit de s’échanger des cartes et collectionner des images, nous avons trouvé des données comportementales qui nous permettent de savoir qu’à partir du moment où un joueur a échangé plus de X cartes avec Y partenaires tous les jours, nous savons qu’il va rester longtemps, va monétiser, etc. Donc nous essayons d’influencer les joueurs pour leur faire adopter ce type de comportement. > la distrust data (la méfiance) : Le dernier point concerne la méfiance envers la data, il faut faire attention à la donnée. D’une part corrélation ne veut pas dire causalité, et d’autre part avoir de la data c’est bien, mais avoir de la data actionnable c’est mieux. Donc nous nous méfions des algorithmes trop complexes et des KPI qui ne veulent plus rien dire. Nous essayons de rester sur des algorithmes qui expriment des choses simples. Au niveau de la CNIL nous respectons les règles et nous avons en plus à respecter les règles des plateformes avec lesquelles nous travaillons. GAELLE PERIAT, SOCIAL GAMES ANALYST D’un point de vue sécurité, nous avons décidé de stocker les datas que nous collectons sur plusieurs plateformes. Les logs sont sur S3. Au niveau des BDD nous avons 2 machines pour que les données ne soient pas toutes regroupées au même endroit et éviter d’avoir un hack de machine ou autre. En cas de problème cela évite qu’on récupère l’ensemble de nos

Page 10: Big data, sécurité des données et protection juridiqueIBM, Serge Richard, Senior Security Solution Architect INA, Jean-François Debarnot, Directeur juridique ISCOOL, Gaëlle Periat,

BIG DATA, SECURITE DES DONNEES ET PROTECTION JURIDIQUE

10/26

données. Bien sûr nos machines sont monitorées, une intrusion ou un autre problème est détecté automatiquement.

ÉCHANGES AVEC LE PUBLIC Pour comprendre votre positionnement et relativiser les volumes sur votre segment, êtes-vous petit ou grand leader ? En termes de CA nous sommes probablement le leader français aujourd'hui sur ce segment. Au niveau européen nous sommes dans le top 5 (niveau 3 ou 4). En termes d’audience, avec 800 000 auditeurs quotidiens sur Facebook, nous devons être plus ou moins 50ème éditeur au niveau mondial. D’autres ont de bien meilleures audiences, les leaders au niveau mondial ont à peu près 30 millions d’auditeurs. Comment dégagez-vous les KPI à partir des données que vous collectez ? Nous passons par une phase de data mining. Assez typiquement, parmi nos utilisateurs se trouvent des joueurs qui ont le comportement souhaité, les pratiques souhaitées, et d’autres qui ne l’ont pas. Nous observons les centaines de data points collectés qui permettent de caractériser un joueur (ex. un homme ou une femme, sa fréquence de jeu, etc.) et distinguons les joueurs qui ont le "bon" comportement et ceux qui ne l’ont pas. Ensuite nous essayons de trouver des des solutions pour que le plus de joueurs possible aient le comportement que nous souhaitons.

PRESENTATION DE BLABLACAR-CO-VOITURAGE.FR – PAR FRANCIS NAPPEZ, CO-FONDATEUR ET DIRECTEUR TECHNIQUE

Notre objectif est de mettre en relation des conducteurs et des passagers qui veulent faire un trajet ensemble, pour des prix moins élevés que ce que peuvent offrir les moyens de transports classiques. Nous sommes présents dans 10 pays européens et nous avons dépassé les 3 millions de membres. Nous transportons 600 000 passagers par mois. En termes de Big Data nous sommes moins impliqués que mes collègues précédents mais nous prenons sérieusement ce virage. Notre croissance nous pousse à réfléchir et à changer nos méthodes de travail. Nous avons une vision du Big Data très open source en termes d’outils. Nous cherchons de ce côté et réfléchissons à la manière de manipuler toutes ces données.

Page 11: Big data, sécurité des données et protection juridiqueIBM, Serge Richard, Senior Security Solution Architect INA, Jean-François Debarnot, Directeur juridique ISCOOL, Gaëlle Periat,

BIG DATA, SECURITE DES DONNEES ET PROTECTION JURIDIQUE

11/26

Il y a plusieurs enjeux pour nous à utiliser le Big Data. Le premier est un phénomène de visualisation. Sur YouTube si vous tapez « co-voiturage trafic », vous pouvez visionner des vidéos qui permettent de visualiser nos données, qui sont des données brutes, imbitables. Nous avons réussi à transformer ces données dans une vidéo trafic. Ainsi, à date, par exemple pour Pâques ou la Toussaint, vous pouvez visualiser le trafic sur la route et les endroits où il va y avoir plus ou moins de voitures qui circulent. Les vidéos que nous avons rendu publiques sur YouTube permettent d’observer la granularité des trajets et la corrélation avec la population. Aujourd’hui, nous sommes capables de dire si vendredi sera une journée rouge ou orange. Comme nous avons les données en avance nous sommes capables de prévoir le trafic pour les jours de voyages et même avoir les précisions à l’heure. C’est une manière d’utiliser nos données. C’est un enjeu de communication très fort pour nous et nous nous appuyons dessus pour faire parler de nous. Le deuxième enjeu est double et recouvre la notion d’événement. Tout ce qui se passe sur le site est un événement et peut être représenté comme un log, avec une date précise. Nous générons des millions d’événements par jour en fonction de ce que font les utilisateurs sur le site. Nous sommes ensuite capables de les analyser et d’analyser leur évolution. Ces analyses vont nous permettre d’observer si nos campagnes marketing sont performantes ou si nous devons les améliorer. Ensuite, nous allons observer si notre outil correspond à ce que les utilisateurs en attendent. Il est important de savoir si l’outil qu’on pilote est en adéquation avec ce que les utilisateurs en font, et pour cela la donnée est une source objective du comportement. Le dernier enjeu que nous avons mis en place relatif au traitement de la donnée concerne la gestion des fraudes. Nous avons un système de paiement en ligne, cela donne des idées à certaines personnes pour contourner le système. Nous avons donc mis au point des techniques en temps réel pour empêcher la fraude, et pour repérer qu’une transaction est potentiellement frauduleuse. Les informations remontent au service client qui peut donner une sanction finale et progresser dans les méthodes de prises de décisions. La détection des fraudes agrège énormément de données de l’utilisateur (avec qui a-t-il interagit, à quel moment, quelles sont les données de l’autre utilisateur, etc.). Avec toutes ces informations, nous sommes capables de lui donner une note de fraude quasiment en temps réel. Cette note va de 1 à 10 et nous intervenons ou pas en fonction (si la note de fraude est 3 par exemple, nous considérons que c’est un utilisateur normal). D’autres enjeux sont à venir concernant la gestion de nos trajets et de la recherche. Nous sommes sur Cassandra. Les bases de données graphes sont intéressantes et seront aussi une vraie solution je pense pour toutes les données à venir dans les prochaines années.

Page 12: Big data, sécurité des données et protection juridiqueIBM, Serge Richard, Senior Security Solution Architect INA, Jean-François Debarnot, Directeur juridique ISCOOL, Gaëlle Periat,

BIG DATA, SECURITE DES DONNEES ET PROTECTION JURIDIQUE

12/26

Animateur Ces différents exemples montrent que l’on peut créer de la valeur avec le Big Data, que c’est le cas avec Internet. Nous observons également à travers ces expériences que les problématiques juridiques et de sécurité (transaction et de fraude), peuvent être différentes et doivent s’aborder de façons différenciées selon l’usage Big Data dont on s’occupe. Regis Carral du cabinet Hoche va maintenant nous expliquer quelles sont les dimensions juridiques et quelles sont les précautions à prendre dans ce domaine, afin de développer un usage Big Data approprié.

PRESENTATION DE LA QUESTION JURIDIQUE PAR REGIS CARRAL, CABINET HOCHE Messieurs, si vous me donnez vos données, je peux vous dire quel est le risque en les soumettant à une machine. Ceci est une boutade, mais ce sera peut-être bientôt possible car aux US, depuis 2 ans, une base de données gigantesque sur l’analyse prédictive en matière de contentieux est en train d’être travaillée. Bientôt il n’y aura plus besoin de nous. Nous avons abordé la question juridique de manière pratique. Concernant la question BtoC, nous avons fait un focus sur les enjeux règlementaires. Nous avons pu observer à travers les présentations que ces enjeux réglementaires sont déjà très présents notamment à travers la CNIL (Commission Nationale de l’Informatique et des Libertés). Sur ces questions de la protection de la vie privée, comment appréhender à travers le Big Data ce qui est une règlementation de contrainte plutôt que d’organisation. Cette règlementation de contrainte est issue de la loi informatique et liberté, tout le monde y est assujetti. Qu’est-ce qu’une donnée à caractère personnel ? Il faut partir de cette question, définir cette notion afin de fixer légalement les choses. Une donnée à caractère personnel est une information rapportée à une personne physique, identifiée ou qui peut être identifiée. La difficulté du Big Data est de savoir à quel moment une personne peut être identifiée, par quelles données, ce qui peut être une problématique pour Chef Jérôme. Par exemple, dans l’histoire d’Internet, la question s’est posée de savoir si une adresse IP était une donnée personnelle ou pas. Aujourd’hui la majorité des acteurs s’accordent à dire que c’est une donnée à caractère personnelle. La question repose également sur la masse de nature d’informations qui sont traitées. Cette masse d’information aux US, est définie par une étude qui montre que 51 % des américains peuvent être identifiés à travers 3 données, par des machines qui travaillent sur

Page 13: Big data, sécurité des données et protection juridiqueIBM, Serge Richard, Senior Security Solution Architect INA, Jean-François Debarnot, Directeur juridique ISCOOL, Gaëlle Periat,

BIG DATA, SECURITE DES DONNEES ET PROTECTION JURIDIQUE

13/26

le Big Data. Ainsi il est possible de retrouver et de nommer 51 % des américains en donnant le code postal, le sexe et la date de naissance. Il y a des données à caractère classique et d’autres plus sensibles, comme la religion par exemple. Une façon d’attraper la religion c’est de savoir grâce aux données si la personne mange kasher ou halal par exemple, ou si elle ne mange ni kasher ni halal. Les données sensibles peuvent aussi être des données de santé. Chef Jérôme est peut-être capable de voir les gens qui consomment uniquement des produits sans sucres, donc qui sont peut être diabétiques. Tant que la donnée sensible est anonyme il n’y a pas de problème mais quand on reprend les 3 données qui permettent d’identifier 51 % des américains on a un vrai profilage. Si nous revenons sur les expériences présentées, Chef Jérôme vous attire par ses recettes et revend vos données à des tiers pour qu’ils vous vendent des produits selon votre profil. ISCOOL fait de la collecte d’information pour lui-même. Ces deux utilisations différentes des données pose des questions différentes, ce n’est pas la même chose et ça ne se déclare pas de la même façon. Big Data se sont plusieurs traitements automatisés et la difficulté est de savoir comment faire sa déclaration. Il faut en effet déclarer l’utilisation que vous allez faire de ces données. C’est une difficulté administrative qui implique une approche juridique séquencée. Bien sûr il faut aussi informer les gens auprès de qui vous collectez les informations. Les entreprises doivent déclarer qu’elles font de la transmission d’informations et déclarer qu’elles les mettent à disposition de tiers. C’est un des problèmes car les entreprises savent peut-être ce qu’elles vont faire de ces informations aujourd’hui mais pas forcément ce qu’elles vont en faire dans le futur. Quelle sera demain la fonctionnalité de cette masse d’information ? En France (et nous pouvons élargir à l’Europe) au moment où vous faites votre déclaration à la CNIL, vous devez préciser l’utilisation que vous allez faire des données (ex. marketing propre, marketing de cession, etc.), mais il est difficile de faire une déclaration pour ce qui n’existe pas encore demain. Ce cadre règlementaire est en train d’évoluer. Un projet de règlement pour 2014 prévoit un allègement des formalités, notamment car on se rend compte que la CNIL n’a pas le temps de traiter tout ça, mais il y aura une augmentation des obligations sur la sécurité des données. Une autre problématique concerne la localisation de vos serveurs. S’ils sont en France ou à l’étranger, par exemple s’ils se situent en Europe ou aux US les contraintes sont différentes. Ex. au US il faut respecter le Safe Harbor. Il y donc plusieurs enjeux sur la Big Data, ce qui est normal quand on voit ce que sont capables de faire les sociétés avec ces millions de données.

Page 14: Big data, sécurité des données et protection juridiqueIBM, Serge Richard, Senior Security Solution Architect INA, Jean-François Debarnot, Directeur juridique ISCOOL, Gaëlle Periat,

BIG DATA, SECURITE DES DONNEES ET PROTECTION JURIDIQUE

14/26

La CNIL permet aussi de donner de la valeur. Si votre BDD est certifiée par la CNIL elle a de la valeur, sinon elle n’a pas de valeur. Au-delà du cadre règlementaire, il y a une problématique de valeur. Les réseaux sociaux Concernant les réseaux sociaux, il y a là aussi plusieurs problématiques. Sur les réseaux sociaux, les gens vont échanger et de là naît une richesse de l’information qui va au-delà du nom et du numéro de compte du joueur. Qui va être propriétaire de ces informations sur les joueurs ? La Big Data se vend mais on ne peut vendre que ce qui nous appartient. Prenons un exemple d’actualité. Tout le monde a un compte LinkedIn et vous avez tous dû être chassé par des recruteurs sur LinkedIn. Si un employé de Michel Page décide de partir chez un concurrent avec son compte LinkedIn, en a-t-il le droit ? Michel Page a attaqué cet employé un mois après son départ. Son compte LinkedIn est à lui mais il s’en sert dans son travail. Alors à qui appartiennent les données ? Avez-vous le droit de les vendre ? Appartiennent-elles à Linkedin, à vous, à votre employeur ? Donc il faut noter que la façon dont vous allez nourrir votre BDD est fondamentale. Ce procès est en cours en Angleterre et nous attendons de voir quelle en sera l’issue. C’est vraiment cette approche ab initio (depuis le début), la manière dont je nourris la BDD, qui va nous permettre de ne pas avoir de problème et de créer de la valeur. Enfin le Big Data c’est de la masse. Si je vais sur les pages de Chef Jérôme, j’aurai des propositions de produits à un certain prix. Mais comme derrière un produit il y a une enseigne, par exemple Casino, je ne sais pas si l’enseigne va proposer le même prix à un autre consommateur. Est-ce légal ? Ce n’est pas de la science fiction. Des études réalisées aux US sur la sensibilité des prix montrent que le prix d’achat consenti est différent en fonction des gens et ce modèle peut exploser demain. Par exemple l’entreprise regarde si je joue ou si je ne joue plus à un jeu et peut proposer une réduction au consommateur pour continuer à l’avoir comme client, or en France il y a obligation d’afficher les prix. Donc sur ces questions nous sommes encore sur des choses qui ne sont pas définitives. En BtoB la problématique est la même. Quand vous vendez vos produits à des professionnels, les prix doivent être les mêmes suivant les clients et les remises doivent être objectives. Or le profilage est une offre personnalisée, à un prix personnalisé. Personne aujourd’hui ne s’est posé la question devant un tribunal si cette pratique est légale. Il existe encore d’autres problèmes. Comme par exemple savoir qui se trouve derrière l’ordinateur au moment où vous proposez un produit. Par exemple, si vous me proposez une bouteille de Bacardi et que je suis mineur vous pouvez être impacté par la loi Evin.

Page 15: Big data, sécurité des données et protection juridiqueIBM, Serge Richard, Senior Security Solution Architect INA, Jean-François Debarnot, Directeur juridique ISCOOL, Gaëlle Periat,

BIG DATA, SECURITE DES DONNEES ET PROTECTION JURIDIQUE

15/26

QUESTIONS/REPONSES Animateur En termes de protection et de sécurité des données, des sujets et des risques qui existaient hier sont encore pires aujourd’hui. Pour vous, qu’est-ce qui a changé en matière de sécurité ? HOCHE SOCIETE D'AVOCATS, Régis Carral On découvre que le Big Data permet de faire de l’analyse prédictive en termes de sécurité. Aujourd’hui les pouvoirs publics s’intéressent aux données qui peuvent permettre de prévoir les attaques des terroristes et du grand banditisme. Pour les entreprises, la cybercriminalité est un sujet important qui arrive en troisième position dans la liste des préoccupations. Le premier sujet de préoccupation pour les entreprises, en termes de perturbation de business, sont les mouvements sociaux ou révolutionnaires qui existent dans certains pays. Le sujet de la cybercriminalité arrive avant l’explosion de la zone euro dans la liste. Concernant la sécurité des données avec le Big Data, l’usurpation d’identité est un vrai sujet. Quand l’internaute met de l’information sur les réseaux sociaux ou ailleurs, il peut se voir « voler » son identité par une personne qui peut créer une double identité. C’est un sujet qui devient de plus en plus problématique. Ensuite, il existe tous les autres problèmes classiques liés à la protection des données. Animateur Y a-t-il des traitements qu’on ne peut pas faire, qui ne sont légaux ? HOCHE SOCIETE D'AVOCATS, Régis Carral Ca dépend. L’Etat traite des données de santé. On peut vous donner le droit de collecter des données sensibles mais il y a très peu de cas où on va vous l’autoriser si vous n’êtes pas dans le cadre administratif. Il peut y avoir des traitements interdits. Par exemple l’Etat voudrait faire des croisements mais n’a pas le droit de le faire. D’autre part, jusqu'à un passé récent, les entreprises s’intéressaient aux intrusions réussies et l’objectif était de renforcer la sécurité pour empêcher les gens de rentrer. Or aujourd’hui les attaques se préparent et les organisations sont capables de repérer ces tentatives de mises en place d’attaques, en analysant les données relatives aux logs, les accès, etc. Cette méthode est embryonnaire mais commence à intéresser des entreprises qui ont fait l’objet d’attaque.

Page 16: Big data, sécurité des données et protection juridiqueIBM, Serge Richard, Senior Security Solution Architect INA, Jean-François Debarnot, Directeur juridique ISCOOL, Gaëlle Periat,

BIG DATA, SECURITE DES DONNEES ET PROTECTION JURIDIQUE

16/26

Animateur A Boston, des technologies Big Data ont été utilisées pour essayer de reconnaître les deux suspects des récents attentats. Des cameras ont capté leurs images, et l’objectif a été de croiser les images captées et les images sur Facebook. Ca n’a pas marché, il n’a pas été possible de les retrouver car la technologie n’est pas encore assez au point, mais c’est un des exemples d’utilisation possible du Big Data. En termes de données sensibles, l’une des principes s’appelle la minimisation. Ce point vous pose-t-il un problème ? ISCOOL, Mathieu Olivier Nous n’étions pas au courant, mais pour nous la problématique est plus économique que juridique. Stocker les données coûte cher, donc si un joueur n’a pas joué depuis deux ans, nous jetons les informations recueillies. Animateur La CNIL, dans un des ses rapports, présentait une application mobile qui vous aide à trouver un restaurant non loin de l’endroit où vous vous situez. Pour cela, cette application utilise la géo-localisation pour vous guider au moment de la recherche, mais par la suite continue de vous geo-localiser toutes les 15 minutes. Donc se pose ce problème : Pourquoi continue-t-elle à vous géo-localiser toutes les 15 minutes après votre recherche ? Le principe de la minimisation est bien visible avec cette application. Des choses m’effraient, comme par exemple l’application de Chef Jérôme, il sait ce que je mange donc qui je suis. Comment faites-vous la différence avec les données qui sont du domaine du privé ? CHEF JEROME, Antoine Durieux C’est une vraie question. Nous ne possédons pas de données nominatives, nous avons uniquement des cookies qui permettent de lier un utilisateur à un cookie, mais bien sûr des recoupements sont possibles. Le problème vient du fait que de nombreux cookies se synchronisent entre eux et font des recoupements, exemple les cookies de Google et de Faceboook, donc il y a des fuites. De plus, en termes de juridiction, des paradis de données se développent, pour des entreprises qui sont dans d’autres pays avec des contraintes juridiques différentes. Qu’est ce qu’une donnée personnelle aujourd’hui ? Il faut trancher cette question au niveau mondial, au niveau national ça ne sert à rien. HOCHE SOCIETE D'AVOCATS, Régis Carral D’un point de vue juridique, s’il y a des fuites c’est de votre faute. Le paradis de la non-réglementation va faire fuir l’internaute. Il est vrai que celui qui va exploiter la donnée dans un paradis de la donnée ne sera pas poursuivi, mais au moment où une entreprise (ex. Chef Jérôme) va exploiter vos données sur le territoire français ou européen il sera poursuivi. En

Page 17: Big data, sécurité des données et protection juridiqueIBM, Serge Richard, Senior Security Solution Architect INA, Jean-François Debarnot, Directeur juridique ISCOOL, Gaëlle Periat,

BIG DATA, SECURITE DES DONNEES ET PROTECTION JURIDIQUE

17/26

exploitant la donnée, l’entreprise doit respecter les lois du territoire sur lequel il utilise les données. CHEF JEROME, Antoine Durieux Le problème vient du fait que les recoupements ne sont pas volontaires. Par exemple, si vous laissez votre date de naissance sur un site, c’est conforme à la CNIL. Sur un autre site, vous laissez un autre type d’information, c’est encore conforme à la CNIL. On ne peut pas empêcher la synchronisation des cookies. HOCHE SOCIETE D'AVOCATS, Régis Carral C’est de l’interconnexion c’est interdit. Question de la salle M. Carral, il est donc interdit de faire des recoupements sans l’accord de la CNIL ? HOCHE SOCIETE D'AVOCATS, Régis Carral Si vous faites de la collecte vous devez le déclarer. Vous devez déclarer l’usage que vous allez en faire, comme pour Chef Jérôme, qui va les revendre à des tiers. Iscool a une problématique différente puisqu’ils collectent leurs propres données mais ils ont un souci virtuel. Ils mettent de côtés des données, mais demain ils n’en feront rien car il faut au préalable que la déclaration précise quelle utilisation sera faite de ces données.

Page suivante > table ronde n° 2 : Big Data dans le secteur BtoB

Page 18: Big data, sécurité des données et protection juridiqueIBM, Serge Richard, Senior Security Solution Architect INA, Jean-François Debarnot, Directeur juridique ISCOOL, Gaëlle Periat,

BIG DATA, SECURITE DES DONNEES ET PROTECTION JURIDIQUE

18/26

Table ronde n° 2 : Big Data dans le secteur BtoB Résumé : Dans le secteur BtoB, à travers les exemples de nos intervenants qui travaillent dans des secteurs différents, vous pourrez observer que collecter la data se fait au profit d’une stratégie déterminée. La réflexion en amont est importante afin de ne pas polluer vos bases avec des datas inappropriées qui ne vous serviront à rien. Une fois cette data entre vos mains, dans vos bases, il peut être intéressant de réaliser des modèles et d’en tester l’efficacité avant de les généraliser. Enfin, cette collecte de données étant de plus en plus massive, complexe, et coûteuse, il peut être intéressant pour les entreprises de faire appel à des prestataires extérieurs. D’un point de vue juridique, il est important de penser à réaliser des contrats détaillés prenant en compte tous les aspects techniques et les risques potentiels, et déterminant avec précision le niveau de service et de sécurité souhaité.

Intervenants :

TRICAST, Louis Armagnat, Marketing VP BLUESTONE, Arnaud Laroche, Associé HOCHE SOCIETE D'AVOCATS, Frédéric Guénin, Avocat

PRESENTATION DE TRICAST - PAR LOUIS ARMAGNAT, MARKETING VP Les informations des clients, des contrats, des sinistres, constituent notre matière première. Nos deux piliers sont les informations individuelles et la mutualisation de la malchance. Nos deux piliers sont conflictuels dès le départ. Nous avons des contraintes politiques. Par exemple nous ne pouvons pas faire de différenciation entre les hommes et les femmes. Or nous notons que les comportements différents entre les deux sont flagrants et que cela va être mauvais pour l’économie de notre système. Par exemple, en Corée, nous ne pouvons pas distinguer les gens des différentes régions par des taux différents. Donc nous pouvons accumuler des données mais se pose la question de leur utilisation et de leur champ d’application. Le terme Big Data est un terme barbare, surtout pour les gens de ma génération. Nous disposons de données de plus en plus importantes, et nous allons les chercher à l’extérieur.

Page 19: Big data, sécurité des données et protection juridiqueIBM, Serge Richard, Senior Security Solution Architect INA, Jean-François Debarnot, Directeur juridique ISCOOL, Gaëlle Periat,

BIG DATA, SECURITE DES DONNEES ET PROTECTION JURIDIQUE

19/26

Ces données collectées à l’extérieur, que vous aller stocker dans vos bases, peuvent polluer la qualité de vos données. Il faut faire attention. Dans le domaine de l’assurance, en général les assureurs ont déjà des difficultés à avoir des données qualitatives par eux-mêmes et se plaignent de leurs propres données, donc les données qu’ils peuvent importer peuvent apporter de la pollution. Lors de mes premiers contacts avec mes clients, quand je leur demande de donner une note à leurs données, la note est rarement plus élevée que 6, avec des contrats en cours en portefeuille, sans parler d’import de données. Grâce à l’outil mathématique primaire, nous pouvons étudier les variables qui ont un impact sur le résultat. Rapidement nous nous rendons compte que seulement 3 ou 4 données ont une influence, et que les autres sont inutiles. Sur la base de cette constatation, quel est l’intérêt de faire venir des masses d’informations dans nos bases ? Notre métier est de promouvoir l’usage de l’outil décisionnel. Or l’informatique nous permet de gérer des évènements, mais pour prendre des décisions il faut pouvoir constater comment ces événements évoluent et comment il seraient susceptibles d’évoluer. Donc nous stockons les évènements par date, et cela nous amène à un calcul d’assureur. Nous avons plusieurs niveaux décisionnels. Tout d’abord nous réalisons une analyse unidimensionnelle, nous sommes amenés à observer un phénomène à chaque fois qu’il se produit. Ensuite intervient l’aspect multidimensionnel, qui est important car une grande quantité de variables entre en jeu dans notre métier. Pour faire du décisionnel, il nous faut ensuite créer des modèles. Aujourd’hui tout le monde utilise des modèles scolastiques. Nous allons créer des estimations du best estimate. Avec ce calcul, avant d’implémenter les modèles, nous testons les impacts et les modifications imaginées et les rentrons dans notre portefeuille en réalisant des tests en fonction des prédictions. Ensuite il faut pouvoir manipuler des variables. Nous sommes friands des traçabilités des calculs et des risques. Par exemple, un de mes clients utilise les informations GPS pour donner des informations plus ou moins fiables aux conducteurs, pour ne pas circuler sur certains types de route qui présenterait des risques de grand banditisme. Dans notre métier nous faisons de l’actuariat donc il faut écarter les informations qui n’ont pas de consistance. Cela se fait sous le chapeau des normes Solvency II. Plus il y a d’informations, moins elle est consistante et moins elle est bonne. Plus vous augmentez la masse d’information, plus vous augmentez l’imprécision. La majorité des assureurs que nous croisons dans le monde entier ne maîtrise pas encore assez les données qu’ils ont dans leur portefeuille de leur client, pour pouvoir en importer.

Page 20: Big data, sécurité des données et protection juridiqueIBM, Serge Richard, Senior Security Solution Architect INA, Jean-François Debarnot, Directeur juridique ISCOOL, Gaëlle Periat,

BIG DATA, SECURITE DES DONNEES ET PROTECTION JURIDIQUE

20/26

PRESENTATION DE BLUESTONE - PAR ARNAUD LAROCHE Notre société est spécialisée dans la Data science. Nous travaillons sur les datas small ou big. Nous avons 120 employés. Nous travaillons sur la valeur des brevets. Un brevet est un objet public, c’est un ensemble de mots, de dessins, de graphiques. Notre projet a été d’essayer d’en tirer du sens pour en tirer de la valeur. Il y a aujourd’hui une énorme croissance du nombre de dépôts de brevets. En Europe sont déposés 2,5 millions de brevets et 8 millions dans le monde chaque année. L’innovation est couverte à 60 % par des dépôts de brevet, le reste l’est par des publications qui sont rendues publiques. Le brevet est un matériau qui a des volumes importants et qui recèle un enjeu économique important. La valorisation classique traditionnelle des firmes ne suffit pas aujourd’hui et la question de l’actif immatériel des entreprises se pose. C’est une question difficile car il n’existe pas de marché pour les brevets. Les transactions sont souvent faites en secret et les valeurs sont souvent révélées par procès. Il est difficile de poser sur un brevet une valeur économique, il n’y a pas de marché donc il n’y a pas de prix. Pour fluidifier ce marché, il faut le rendre plus liquide, et pour ça il faut lui donner un prix. Nous avons essayé d’en donner une valeur qualitative par rapport à l’utilisation des données. L’hypothèse qui s’est développée dans le monde académique est que la valeur d’un brevet est véhiculée par la durée de son utilisation. Plus le brevet est renouvelé longtemps, plus son propriétaire va lui accorder de la valeur. Toutes ces informations concernant le cycle de vie des brevets sont publiques. Tout l’objet du projet a été de récupérer cette masse d’information. L’idée a donc été d’essayer de modéliser non pas le prix mais la durée de vie du brevet. Tout d’abord, nous avons analysé le texte des brevets de manière sémantique. Nous les avons passé à travers un tamis lexical pour analyser le texte et le transformer en des variables qui décrivent les inventeurs, les propriétaires, le lieu où il a été déposé, son cycle de vie, etc. L’étendue géographique du dépôt est importante. En effet, un brevet déposé dans de nombreux pays a probablement plus de valeur que dans quelques pays seulement. Enfin, un brevet n’est pas un objet unique. Les brevets se citent entre eux. Un brevet très cité a sûrement plus de valeur qu’un brevet peu cité. Sur ces bases, à partir de ces informations, nous avons constitué un modèle prédictif de la durée de vie d’un brevet prenant en compte la zone géographique et la durée de vie d’un brevet, afin de construire un score estimé. Pour tester notre modèle, nous avons analysé les brevets des années 90.

Page 21: Big data, sécurité des données et protection juridiqueIBM, Serge Richard, Senior Security Solution Architect INA, Jean-François Debarnot, Directeur juridique ISCOOL, Gaëlle Periat,

BIG DATA, SECURITE DES DONNEES ET PROTECTION JURIDIQUE

21/26

Notre système fonctionne, il est bien prédictif et performant pour détecter les très bons et les très mauvais. Pour des industriels ou des financiers qui achètent des paquets de brevets, notre modèle est utile pour mesurer la valeur du portefeuille. Actuellement, nous sommes encore en train de perfectionner notre modèle. Nous travaillons avec 5 industriels qui ont des expertises métiers. L’objectif final est d’avoir une approche à moindre coût. Concernant l’utilisation des données, nous n’avons pas de problème car elles sont publiques. La question qui se pose est la question de la brevetabilité de notre modèle algorithmique, qui crée de la valeur. Beaucoup de création de valeur vient de la capacité à traiter l’information. La question pour nous porte sur la manière de protéger notre modèle et de rester le plus performant possible. Question du public Comment faites-vous pour scorer des brevets sur des nouvelles technologies ? C’est-à-dire sur des territoires où vous ne pouvez pas comparer de nouvelles choses, par exemple les nanotechnologies ? Vous partez du fait que les brevets portant sur de nouvelles technologies sont en rupture, or nous avons un historique. Nous savons relier le fait qu’un brevet est en rupture technologique et a vécu longtemps, par l’étude que nous avons faite sur des brevets passés.

PRESENTATION DE FREDERIC GUENIN, CABINET HOCHE, AVOCAT Traiter de la data coûte cher. Nous constatons que les entreprises, des PME ou autres, se tournent vers des solutions clés en mains, qui vont être adaptées à leur gamme de prix. Des acteurs vont proposer des solutions de SaaS. Bien entendu cela conduit à gérer des volumes de données considérables et de Big Data. Beaucoup de questions se posent autour de ces services : Quelle est ma marge de négociation quand je suis client et quand je suis entreprise fournisseur ? Quel niveau de service exiger ? Quel est le niveau de sécurité ? Quelle peut-être la responsabilité de l’hébergeur, s’il disparaît ? Nous sommes dans une incertitude juridique. Le point important est le niveau de service. Le niveau de service Pour apprécier le niveau de service, il vous faut étudier et si besoin définir le Service Level Agreement (SLA) qui est un document qui définit la qualité de service requise entre un prestataire et un client. C’est là où se loge la qualité de ce qu’on va acheter. Ce document se trouve dans le contrat.

Page 22: Big data, sécurité des données et protection juridiqueIBM, Serge Richard, Senior Security Solution Architect INA, Jean-François Debarnot, Directeur juridique ISCOOL, Gaëlle Periat,

BIG DATA, SECURITE DES DONNEES ET PROTECTION JURIDIQUE

22/26

Il faut également étudier le Recovery Time Objective (RTO) qui constitue le temps maximal acceptable durant lequel une ressource informatique peut ne pas être fonctionnelle après une interruption majeure de service. Par exemple, si dans une société, à un moment le système plante et que 350 personnes sont en rade et qu’il y a une perte d’exploitation, si ça plante à 12h et que ça repart à 14h ça va, mais sinon quelle est la limite acceptable ? Si finalement j’ai un taux maximal de perte, si, par exemple le RTO est supérieur à 3h, il vous faut considérer le Recovery Point Objective (RPO). Le RPO quantifie les données qu'un Système d'information peut être amené à perdre par suite d’un incident, c’est la perte maximale de données que vous pouvez accepter. Pour vos clients ça a un coût et ça demande de mettre en place une informatique lourde, et bien entendu cela se paye. Concernant les pénalités, les prestataires nous demandent si les contrats peuvent spécifier des pénalités. Oui mais le problème c’est que là où ils vendent un service à N users, il peuvent avoir N pénalités. On peut le demander mais ce sera plus cher. Ces annexes de contrats peuvent être compliquées, donc il faut faire des calculs sur l’absurde, comme par exemple être bloqué la moitié du mois. Côté fournisseur, il faut s’employer à faire des indicateurs de plus en plus précis. La sécurité Les contrats sont compliqués. Il est très important de pouvoir faire des audits car un prestataire peut avoir un sous-traitant qui lui-même a un sous-traitant, qui lui est au philippines, sauf que vos données sont à caractère privé. La traçabilité est très importante dans nos contrats et il faut le nourrir d’un point de vue juridique et informatique. Le « USA Patriot Act » explique que nos données peuvent aller sur la BDD du FBI, à ce moment là comment je fais pour protéger les données de mes clients et être en phase avec le règlement français ? Aujourd’hui il faut avoir un comportement nuancé. Nous sommes en guerre économique au niveau mondial et peut-être faut-il attendre une cyber-convention de Genève afin de mieux fixer les choses. La prudence est bonne conseillère et dans les contrats c’est une bonne chose de prévoir des annexes. La réversibilité vient des gros contrats informatiques, vous avez un certain nombre d’obligations, comme ne pas conserver les données, ne pas les exploiter, ne pas faire de concurrence. Négocier sur ces points implique de négocier avec les techniciens, et il est très important déterminer un prix.

Page suivante > table ronde n° 3 : Bonnes pratiques et perspectives du Big Data, la question de l’open data

Page 23: Big data, sécurité des données et protection juridiqueIBM, Serge Richard, Senior Security Solution Architect INA, Jean-François Debarnot, Directeur juridique ISCOOL, Gaëlle Periat,

BIG DATA, SECURITE DES DONNEES ET PROTECTION JURIDIQUE

23/26

Table ronde n° 3 : Bonnes pratiques et perspectives du Big Data, la question de l’open data Résumé : Le Big Data est créateur de valeur pour les entreprises qui ont tout intérêt à collecter un maximum de données et à les conserver le plus longtemps possible. En effet, demain, ces datas seront peut-être créatrices d’usages qui ne sont pas encore identifiés aujourd’hui. D’autre part, nous observons que des questions se posent autour de la propriété de la donnée : les entreprises mettant en œuvre des outils (et donc dépensant de l’argent) pour collecter/créér ces données, n’en sont-elles pas propriétaires ? Enfin, il faut noter que les données personnelles ont une valeur économique et que la vente des données sera peut-être monnaie courante demain.

Intervenants :

INA, Jean-François Debarnot, Directeur juridique PWC, Zouheir Guedri, Directeur expert Big Data IBM, Serge Richard, Senior Security Solution Architect HOCHE SOCIETE D'AVOCATS, Régis Carral et Frédéric Guénin, Avocats

Animateur :

IT NEWS INFO, Jean-Pierre Blettner, Directeur des rédactions Animateur Récupérer les données peut être problématique d’un point de vue juridique, comme nous l’avons vu dans les présentations précédentes. La protection de la vie privée et la sécurisation de l’identification des personnes font parti des enjeux concernant le Big Data. D’un point de vue sécurité, pour l’utilisateur mais aussi pour l’entreprise, quels sont les enjeux de la collecte d’informations ? Quelles sont les bonnes pratiques à respecter ? PWC, Zouheir Guedri Les enjeux sont nombreux. Quand un utilisateur remplit un questionnaire, sa validation est appelée le « consentement ». Avant les questionnaires étaient assez simples, il fallait remplir un questionnaire et l’accepter en cochant une case. Aujourd’hui les entreprises récupèrent bien plus d’informations. Vous connaissez tous très bien ces questionnaires, vous passez les pages, vous passez vous passez, et vous acceptez. Mais ce que vous ne savez pas forcément

Page 24: Big data, sécurité des données et protection juridiqueIBM, Serge Richard, Senior Security Solution Architect INA, Jean-François Debarnot, Directeur juridique ISCOOL, Gaëlle Periat,

BIG DATA, SECURITE DES DONNEES ET PROTECTION JURIDIQUE

24/26

en acceptant c’est que vous allez être géo-localisé toutes les 15 min, comme dans l’exemple de l’application mobile dont nous parlions précédemment. Peut-on autoriser cela ? Est-ce légal ? En quoi l’application mobile qui vous aide à chercher un restaurant a besoin, ensuite, de vous localiser toutes les 15 minutes ? N’est-ce pas de l’intrusion dans votre vie privée ? Le deuxième point concerne la minimisation des données de la Big Data. Pour les entreprises, l’objectif est de récupérer le maximum de données et ensuite d’imaginer l’usage que l’on va en faire, mais que nous ne connaissons pas encore. Animateur Donc faut-il minimiser ou conserver ces données au maximum ? PWC, Zouheir Guedri Il faut les conserver au maximum, sinon nous pouvons passer à côté d’usages et d’utilisations que nous n’avons pas encore identifiés. Animateur Comment fait-on avec la CNIL ? Nous avons vu qu’il fallait déclarer à quoi vont servir les données. PWC, Zouheir Guedri Ce n’est pas quelque chose de nouveau, donc on fait comme avant. En réalité, les sociétés qui font leurs déclarations restent assez génériques sur le traitement des données qui seront faites. Animateur Donc ce n’est pas un obstacle et l’objectif est de faire une déclaration la plus large possible en termes d’utilisation ? PWC, Zouheir Guedri Oui, d’un point de vue opérationnel le Big Data ne va rien changer. C’est un problème en apparence. Il faut faire une déclaration la plus large possible. La CNIL ne se soucie pas du volume de données, ni que les données soient internes ou externes. De plus, elle ne se soucie pas non plus de la vélocité, c’est-à-dire de la vitesse et de la fréquence de collecte des données. Le Big Data ce n’est pas uniquement les 3 V, c’est un changement des usages. L’idée est de chercher à identifier des corrélations et se poser de nouvelles questions pour créer de la valeur. HOCHE SOCIETE D'AVOCATS, Régis Carral Le système déclaratif est complexe et il faut le quitter pour aller vers la sécurité, le droit s’arrête à partir de là. La deuxième chose importante concerne la valeur de la donnée. La donnée personnelle est protégée aujourd’hui, mais demain, si elle devient une propriété, va-t-on basculer du droit à la personnalité au droit à la propriété ? Car pour tout ce qui est Internet les entreprises collectent les données avec leurs outils, leurs appartiennent-elle

Page 25: Big data, sécurité des données et protection juridiqueIBM, Serge Richard, Senior Security Solution Architect INA, Jean-François Debarnot, Directeur juridique ISCOOL, Gaëlle Periat,

BIG DATA, SECURITE DES DONNEES ET PROTECTION JURIDIQUE

25/26

alors ? Ce serait un Big Bang car si on met un prix sur la donnée, des acteurs pourront vendre ma donnée personnelle. Animateur Quand arrivera ce phénomène d’après vous ? Dans 1 an, dans 2 ans ? Ca existe déjà même si je ne m’en rends pas compte sur un plan économique, car même si j’utilise quelque chose de gratuit, j’inscris/je donne mes données, donc je paye mais c’est une valeur inconsciente. Il y a un inconscient collectif sur la valeur des données que nous donnons aux entreprises. Nous n’en avons pas conscience et nous sommes en retard juridiquement. Aux US, un garçon a essayé de vendre ses données à Google donc nous sommes déjà dans ce phénomène. Ces données personnelles ont une valeur économique, ne devrait-on pas l’encadrer ? La donnée sera un bien d’échange demain et elle commence déjà à l’être aujourd’hui. Animateur A l’INA, quelles dispositions avez-vous prises concernant les droits de propriété intellectuelle ? INA, Jean-François Debarnot Concernant les ayants droits des auteurs, etc., nous avons pris le parti de prendre des accords qui nous permettent d’exploiter des prestations d’artistes interprètes sur notre site y compris en gratuit (perception de publicité par l’INA). Ces accords nous ont permis d’exploiter notre fonds mais il reste la question du droit à l’image. Animateur Si je suis une star et que je n’ai pas envie que l’on ré-exploite des choses que j’ai dites quand j’étais plus jeune, comment ça se passe ? INA, Jean-François Debarnot En effet, par exemple une actrice X ne voulait pas qu’on réutilise une interview qu’elle avait faite plus jeune. Un autre exemple, une personne anciennement militante d’un parti extrême ne souhaitait pas que sa femme découvre ses anciennes activités militantes. Concernant les héritiers dont l’image de leur ancêtre est utilisée, ils ne peuvent pas invoquer d’atteinte à l’image si le document ne leur porte pas atteinte directement. Notre fonds est de 12 millions de CA annuel. Nous l’exploitons directement sur notre site www.ina.fr, au cas par cas. Parfois, certains artistes interprètes veulent bloquer leur droit à l’image, et il peut y avoir une jurisprudence, mais généralement la diffusion est plutôt favorisée. Animateur Donc le droit à l’image ne peut pas s’opposer au droit à l’information. M. Richard, les sites sont contraints de développer du fingerprinting pour se protéger. Avez-vous le sentiment que séparer les données dans des silos différents soit suffisant ? IBM, Serge Richard Non, les mettre dans des silos différents ne suffit pas. Avec l’approche Big Data, pour sécuriser les données il faut chiffrer la donnée. Nous récupérons beaucoup de données mais

Page 26: Big data, sécurité des données et protection juridiqueIBM, Serge Richard, Senior Security Solution Architect INA, Jean-François Debarnot, Directeur juridique ISCOOL, Gaëlle Periat,

BIG DATA, SECURITE DES DONNEES ET PROTECTION JURIDIQUE

26/26

il n’y a pas de contrôle sur la qualité des données. Avoir des données de qualité est important. Par exemple sur le site www.data.gouv.fr des données gratuites sont accessibles à tous et portent une signature. Certaines données possèdent une empreinte cryptographique ce qui va nous permettre, à l’aide d’outils appropriés, de savoir que les données récupérées en open data sont conformes aux données d’origines. Animateur L’open data, est-ce l’avenir selon vous ? PWC, Zouheir Guedri L’open data prend son essor grâce à la Big Data et c’est une excellente initiative, mais il y a des dangers. Prenons par exemple le cas de l’INA qui est dépositaire de vidéos, et imaginons qu’elle permette la distribution des vidéos de son fonds. Si une vidéo a été distribué une 50aine de fois, et si une personne vient pour faire effacer des images car elle ne souhaite plus leurs diffusions, elle pourra faire effacer la vidéo par l’INA et par son partenaire direct, mais ailleurs, dans les autres endroits où la vidéo a été distribué, ce sera difficile voire impossible. Et si les images ressortent un jour, cela sera négatif pour l’image de marque de l’INA. INA, Jean-François Debarnot Pour moi la notion d’open data ne peut pas concerner des images d’archives. Le fonds d’archive de l’INA ne sera pas concerné par l’open data, seules les méta données le seront.