[livre blanc] "Les Big Data pour les services publics : enjeux, technologies et usages" CXP / Teradata (Avril 2015)

Date doc

© 2015 CXP Page 1/30 Livre Blanc – Avril 2015

LIVRE BLANC Les Big Data pour les services publics :

enjeux, technologies, usages

En partenariat avec

Date doc


Les Big Data pour les services publics

LES AUTEURS

Emmanuel Lartigue

Analyste Senior / Consultant BI, le CXP

Mathieu Poujol

Principal Consultant, Cyber Security, Infrastructures and Middleware, CXP-PAC

Nikolai Janoschek

Research Analyst, CXP-BARC


Les Big Data dans les services publics

SOMMAIRE

1. Les ambitions du Secteur Public

2. Les Big Data : apports et enjeux

3. La maîtrise des dispositions juridiques

4. Les technologies liées aux Big Data

5. Applications et usages

INTRODUCTION

Les systèmes d'information des services publics brassent un nombre important de flux de données concernant

tant le fonctionnement de la ville et que les déclarations des citoyens. La croissance exponentielle du volume de

données disponible et les corrélations entre ces données présente un véritable enjeu pour le secteur public.

Les initiatives autour du Big Data y sont nombreuses et les attentes importantes : un meilleur service rendu aux

usagers par une optimisation opérationnelle ou par une offre de services plus large, une réorganisation de la

prestation de service grâce aux nouvelles technologies, un meilleur partage des connaissances, ou encore un

renforcement du lien social par une meilleure prise en compte des applications digitales : web, blogs, réseaux

sociaux, etc. Tout cela avec un enjeu sécuritaire fort : si les Français sont inquiets sur l’exploitation de leurs

données personnelles, ils accordent leur confiance à l’Etat pour les héberger et en garantir la sécurité d’accès.

De nombreuses initiatives ont été engagées et plusieurs projets lancés par les organismes intéressés. Le secteur

privé témoigne régulièrement de cas d’usages métiers liés aux Big Data, des applications qui pourraient être

reprises dans le secteur public. Nous présenterons dans ce document deux projets Big Data dans le secteur

public : un lié à la recherche, un autre lié aux bibliothèques, ainsi qu’un éclairage sur la coordination nationale

des initiatives sur les données.

Toutefois, les responsables projets butent sur l’absence de ligne directrice et sur le choix des socles

technologiques. Trop d’incertitudes demeurent encore quant aux autres choix techniques à mettre en œuvre et

sur l’effort de conduite du changement à mener. La prise en compte de ces nouveaux canaux de communication

exigent une nouvelle architecture technique que nous allons décrire dans les derniers chapitres.



1 - LES ATTENTES DU SECTEUR PUBLIC

Le CXP a interrogé les acteurs du Secteur Public dans le but de mieux comprendre les nouvelles attentes et les

futurs défis à relever dans la prise en compte des Big Data et d’améliorer la performance des services publics.

UN MEILLEUR SERVICE FOURNI AUX USAGERS

Le service public, dans le cadre de ses missions et pour rendre un meilleur service aux usagers,

doit veiller au bon usage de la réutilisation des données.

La gouvernance de ces données, et les questions liées à l’intégrité, à la neutralité et à la qualité

des données, sont un des enjeux de la modernité et de la transparence du service public.

Les projets Big Data ont déjà montré leur efficacité dans la relation avec les citoyens en proposant

à la population de coparticiper à la gestion de la cité, tout en recherchant de nouvelles économies

et une meilleure efficacité. Les données des villes numériques, une fois analysées, permettront

d’imaginer des services novateurs, qui influeront sur l’organisation des villes et le quotidien des

individus.

DES SOLUTIONS INTÉGRÉES POUR TOUT TYPE DE DONNEES

Dans un contexte économique difficile où les services publics sont confrontés aux défis de la

rationalisation des coûts et de la maîtrise des dépenses, les solutions informatiques recherchées

doivent être optimisées et si possible centralisées.

Seules les données structurées sont bien maitrisées aujourd’hui (soit 20% des données). Les

nouveaux systèmes d’informations doivent prendre en compte des formats de données très variés,

documents, vidéos, images, et proposer si possible une gestion transparente de ces nouveaux

formats.

Afin de pouvoir capitaliser sur les compétences déjà maîtrisées, les nouveaux outils doivent si

possible être graphiques, ou générer automatiquement les scripts d’exécution en SQL, C ou encore

‘R’.

UN MEILLEUR PARTAGE DE L’INFORMATION

Les données sont aujourd’hui hébergées dans des silos de données. Pour tirer pleinement partie

des Big Data, il sera nécessaire de bâtir des ensembles transverses et cohérents de données.

Des mécanismes d’habilitation et de partage des informations devront être mis en place afin de

permettre au plus grand nombre d’accéder à l’information sans dupliquer cette information.

Ces systèmes devront se conformer au cadre fixé par La loi Informatique et Libertés, dans le cas

où de nombreuses informations sont susceptibles de porter atteinte aux droits et libertés des

personnes, ou à leur vie privée.

http://www.cxp.fr/



Figure 1 - Quels problèmes souhaitez-vous adresser avec les technologies Big Data ? (n=431, choix multiple)

Source le CXP 2015, n=431

2 – LES BIG DATA : APPORTS ET ENJEUX POUR LE SECTEUR PUBLIC

GENESE

Face à l’accroissement exponentiel des volumes de données liées à de nouveaux usages (réseaux sociaux,

mobiles, forums, Web, blogs, e-mails...), les architectures et outils classiques pour les traiter ne sont plus

adaptés. Cet « infodéluge » a ainsi fait naître de nouvelles approches décisionnelles destinées à traiter, analyser

et valoriser ces énormes volumes de données de toutes natures, semi-structurées ou non structurées, que l'on

peut trouver aujourd'hui dans bon nombre d'organisations, quelle que soit leur taille : c'est cet ensemble de

nouvelles technologies que l'on appelle les Big Data.

Les premiers utilisateurs à s'intéresser au phénomène ont été les entreprises privées orientées consommateur

final, telles que la grande distribution, les télécommunications, le tourisme, le loisir, les médias ou encore le

secteur financier. Ces entreprises ont vu dans les Big Data une opportunité économique et un axe de

développement pour l’entreprise (conquête de marchés, captation de nouveaux client…). Des Big Data, elles

attendent la possibilité de mieux connaitre leurs clients, de mieux cibler leurs attentes et, de plus en plus,

d’anticiper leurs demandes. Le graphique ci-dessous reprend les principales motivations qui ont poussé les

entreprises à s’équiper de solutions Big Data.

Si ces technologies ont eu un véritable impact sur le marketing et la relation client, qui représentent les

principaux revenus des grands acteurs du Web, elles se déclinent maintenant dans d'autres secteurs sur lesquels

elles ont désormais un réel impact sur la productivité et l’efficacité : les sciences de la vie, les transports,

l’énergie, les services financiers et la sécurité.



Figure 3 – Quels vont être vos prochains investissements pour les Big Data ?

Source: CXP Big Data Analytics Survey 2015, n = 222

Les objets vont devenir de plus en plus communicants et à terme les cartes SIM machines to machines, seront

plus nombreuses que les cartes SIM des milliards d’individus détenteurs de téléphones mobiles. L’exploitation

des données remontées par ces machines (sensors, web logs, smartmeters …) pour mieux comprendre leurs

conditions d’utilisation, avoir des métriques fiables, faire de la maintenance prédictive pour baisser les coûts de

maintenance, améliorer le maintien en conditions opérationnelles et donc la satisfaction des clients, sont autant

de domaines qui intéressent de près les services publics. Par exemple, dans le domaine des transports, Maersk a

placé des capteurs sur ses conteneurs, permettant de connaitre en temps réel leur emplacement et de surveiller

leur température lorsqu’ils contiennent des denrées périssables. Ces solutions intéressent aussi les acteurs les

acteurs du monde des transports comme la SNCF ou la RATP.

Ces nouvelles technologies Big Data sont disruptives pour le système d'information : les précédents systèmes

n’avaient pas été prévus pour prendre en compte d’aussi grands volumes de données dans une aussi grande

variété : désormais les vidéos, les documents scannés, les flux temps réel peuvent être stockés et analysés. Afin

de valider l’architecture ainsi que le bien-fondé de l’usage de ces technologies, les entreprises se sont lancées

dans une phase d’expérimentation (Proof Of Concept), puis elles ont franchi le pas pour s'équiper de solutions Big

Data.



Les projets Big Data ont un coût technologique, mais aussi organisationnel et stratégique. Les nouvelles

possibilités d’analyse et de prédiction peuvent avoir une incidence sur la manière dont l’entreprise sert ses clients

ou réalise son activité.

L’analyse des grands volumes de données exige par ailleurs de nouvelles compétences à la fois en algorithmique

et en statistique. Ces nouveaux profils, les Data Scientists, sont encore rares sur le marché, ce qui complique la

mise en place de projets novateurs sur les Big Data.

DE LA COLLECTE A LA RESTITUTION

Un projet Big Data commence par une collecte des données, de formats et d'origines très variés :

données issues de capteurs (compteurs de visites dans un magasin, machine-outil sous surveillance

constante, sondes réseaux placés sur un réseau informatique...), données issues de vidéos numériques de

surveillance ou encore de documents scannés qu’il faudra interpréter, logs de sites web, contenu des

mails reçus d’un client...

Après la collecte vient l’analyse des données. Cette opération nécessite de préparer la donnée

nécessaire, entre autres extraire les informations importantes des données les moins structurées. Pour

des documents scannés, le video-codage ou OCR (Optical Character Recognition), couplé à des outils de

sémantiques, permet par exemple de catégoriser les informations des documents. Pour l’analyse des voix

enregistrées, des outils de type Speach to Text existent sur le marché. Pour l’analyse des fichiers binaires,

des parseurs (ou analyseurs syntaxiques) se chargent de décomposer les enregistrements en entités

manipulables.

Les données sont ensuite stockées, organisées voire indexées pour pouvoir être exploitées. Elles doivent

généralement aussi être sécurisées : des droits et des habilitations sont posés sur ces données afin d’en

autoriser l’accès uniquement aux personnes habilitées.

Enfin, des outils de Data Visualisation permettent de restituer les résultats de l’analyse dans un format

interprétable et compréhensible par tous et d’explorer la donnée, afin de mieux comprendre les

comportements.

Figure 2 - Votre entreprise a-t-elle initié une démarche Big Data ? Si oui, où en êtes-vous ?

Source: CXP Big Data Analytics Survey 2015, n = 526



Figure 4 - Les différentes étapes du traitement des Big Data

Source le CXP 2015

Extraire

Stocker

Restituer

Analyser

Partager

Odata, ETL, WebCrawlerData Cleaning, Data Quality

Reporting Requêtes Ad-Hoc,

Tableaux de bord,

Data Visualization

Portails, Search, CollaborationSelf-Service

Datamining, ‘R’, Analytics, Data Discovery, Machine Learning

Hadoop, SGBDR, Cloud

Suite

intégrée



ENJEUX POUR LE SECTEUR PUBLIC

La collecte des données provient régulièrement des statistiques nationales, celles de l’Insee, Institut

National de la Statistique et des Études Économiques, par exemple. Ces données sont issues de

recensements, d’enquêtes et de toutes les sources administratives numériques disponibles.

L’analyse des données concerne la quasi-totalité des ministères, de nombreux organismes publics, voire

des institutions de droit privé chargées de missions de service public. Les statisticiens du secteur public

sont surtout présents dans les services statistiques ministériels : celui de l’Agriculture, le plus important,

de l’Éducation, du Développement Durable, des Douanes, de la Justice, du « Travail, emploi et formation

professionnelle » et de la « Santé et solidarités ». La Dares (travail et emploi) et la Drees (santé et

protection sociale) sont des organismes qui produisent régulièrement des statistiques sur les

établissements publics et leur personnel.

La gouvernance des données est certainement l’un des sujets les plus difficiles à traiter pour le secteur

public. La pluralité des missions et la diversité des données rendent très compliquées l’harmonisation et

la compatibilité des données. Les données peuvent en effet provenir à la fois de l’Administration

Centrale, des établissements publics, des collectivités territoriales, des Conseils Généraux et des services

déconcentrés. L’homogénéisation des données et le partage de référentiels qui faciliteraient la

consolidation des données ne sont pas toujours systématisés.

La mutualisation des données doit être encouragée pour réduire le nombre de silos de données afin de

réduire les coûts et favoriser les analyses croisées. La mise en place de référentiels communs à

différentes administrations, avec des classes de services en fonction de chaque contributeur et de chaque

partie prenante, permettrait de fiabiliser les données et de générer de la valeur à partir de ces données.

Les systèmes décisionnels complètent sans remplacer les systèmes transactionnels dont les méthodes de

fonctionnement au quotidien ne changent pas. Par contre ils peuvent en améliorer les processus, en leur

faisant bénéficier d’une information fiable car unique (stockée une seule fois au bon endroit) mais aussi

potentiellement enrichie par d’autres sources de données et par le fruit de potentielles analyses croisées

et avancées.

Enfin, une autre difficulté est le partage des informations publiques. L’échange peut être réalisé soit

entre les administrations, soit entre l’administration et le secteur privé et enfin entre l’administration et

les usagers. Il peut être intéressant de valoriser auprès de tiers les traitements Big Data qui produisent

des analyses de tendances, des analyses d’écarts ou encore de la prospective.

Quant à la restitution de ces données aux usagers, l’ouverture des données publiques (Open Data),

entreprise depuis maintenant quelques années, a déjà apporté de nouveaux services aux citoyens : la

diffusion des horaires de trains, la liste des vélos ou des voitures disponibles en partage, la liste des codes

postaux si utiles pour valider la saisie des adresses et sécuriser les livraisons et des éléments plus

spécifiques comme par exemple la liste des médicaments commercialisés en France ou encore la liste

des établissements d'enseignement supérieur.

Autre point crucial pour le secteur public : la sécurisation des données et la maîtrise des risques liés au

respect de la vie privée (données à caractère privé ou administratif) et à la protection des libertés

individuelles. L’utilisation de ces données doit être scrupuleusement contrôlée car elle doit respecter les

contraintes juridiques liées à l’utilisation ou à la divulgation de données personnelles.

Enfin, il existe une contrainte particulière associée au traitement des Big Data dans le secteur public : la maitrise des dispositions juridiques liées aux données. Un point essentiel qui mérite d'être développé.

https://www.data.gouv.fr/fr/datasets/base-officielle-des-codes-postaux/

https://www.data.gouv.fr/fr/datasets/base-officielle-des-codes-postaux/

https://www.data.gouv.fr/fr/datasets/base-de-donnees-publique-des-medicaments-base-officielle/

https://www.data.gouv.fr/fr/datasets/etablissements-denseignement-superieur/



3 – LA MAITRISE DES DISPOSITIONS JURIDIQUES

Les technologies Big Data sont nées avec le Web et avec la mondialisation des échanges informatiques. Aussi, le

défi juridique soulevé par les Big data est à la fois de portée nationale et internationale.

Les usagers français connaissent déjà l’existence des outils de reconnaissance faciale ou de lecture de plaques

minéralogiques (comme cela se pratique à l’entrée de parkings). De plus en plus sollicités par des actions de

marketing direct, ils réclament de faire valoir leur droit à l’oubli. Aussi attendent-ils du Service Public une

exemplarité sur la protection de leurs données personnelles : ils souhaitent que leur droit soit préservé en

France comme à l’étranger. Ce chapitre présente les principales législations en vigueur aujourd’hui ainsi que les

dispositions prises dans les pays Européens.

DES ORGANISMES ET DES REGLEMENTS FACE A LA MONDIALISATION

La France n’est pas le seul pays à subir la loi des grands acteurs du Web qui constituent des bases de plus en

plus riches sur les internautes du monde entier. En avril 2015, on estime qu’un internaute est déjà caractérisé

en moyenne par 3 000 attributs (pays, adresse IP, type de navigateur utilisé, adresse e-mail, nom, prénom, etc.).

Afin que les États n’encouragent pas cette inflation, une coordination européenne a été mise en place, dont le

but est de juguler la diffusion de données confidentielles. Régulièrement, des commissions et des organismes

tentent de s’organiser et de légiférer pour préserver la confidentialité des citoyens. Les différents pays

européens ont demandé aux entreprises du privé comme et au secteur public de nommer des responsables à la

protection des données. La carte ci-dessous précise la date à laquelle cette décision a été prise, l’intitulé de la

fonction et le caractère obligatoire ou facultatif de la mesure.

Les Etats ont intérêt à protéger leurs données. De même que les banques, au travers de mesures internationales

comme Bâle 3 ou l'obligation de stress tests, doivent justifier leur robustesse, les Etats devront prouver leur

capacité à protéger leurs données.

Figure 7 – Les pays Européens qui ont légiféré la fonction de Délégué à la Protection des Données

Source = La CNIL, mars 2015



LA REGLEMENTATION FRANÇAISE : LE LABEL CNIL

Un projet de loi numérique français est attendu pour 2015. Afin de sensibiliser les organismes

publics et privés et de leur permettre de se préparer à leurs nouvelles obligations, la CNIL a créé

un nouveau label portant sur la gouvernance informatique et libertés par une délibération.

Publié le 15 janvier 2015 au Journal Officiel, ce label de la CNIL permet aux entreprises de se

distinguer par la qualité de leurs services. C'est un indicateur de confiance pour les utilisateurs

de produits ou de services, car il leur offre la possibilité d’identifier et de privilégier ceux qui

garantissent un haut niveau de protection de leurs données personnelles. C’est enfin la

reconnaissance par la CNIL qu’un produit ou une procédure est conforme aux dispositions de la

loi "Informatique & libertés".

Chaque label est délivré pour une durée de trois ans et se décline selon quatre référentiels :

"Audit de traitements" : l’objectif de ce label est de faire contrôler et de valider les projets en cours ou

les solutions mises en œuvre pour anticiper tout risque de plainte. Il peut s'agir de traitements

informatiques mais aussi de systèmes de vidéosurveillance et de vidéo protection devant respecter le

cadre juridique encadrant leur usage ;

"Coffre-fort numérique" : ce label valide la bonne mise en œuvre de l’accès aux données, de la

conservation des données, de l’information des personnes, de la gestion des risques et des mécanismes

cryptographiques ;

"Gouvernance Informatique et Libertés" : ce label validation des exigences relatives à l'organisation liée

à la protection des données, à la méthode de vérification de la conformité des traitements et à la

gestion des réclamations et incidents (EG) ;

"Formations Informatique et Libertés " : ce label certifie que le contenu pédagogique et le programme

ont été validés par la CNIL.

Le candidat au label CNIL doit obligatoirement disposer d’un correspondant Informatique et libertés (CIL). Il peut

en désigner un en interne ou faire appel à un prestataire externe qui pourra l’accompagner dans ses démarches

d’obtention du label. Il doit aussi justifier que son CIL bénéficie d’un budget annuel dédié et de moyens lui

permettant d’assurer ses missions.

Ce label donne aux entreprises l’opportunité de communiquer leur engagement sur la protection des données

personnelles et de la vie privée et d’en faire un avantage concurrentiel, y compris sur un plan européen, alors

que se prépare l’harmonisation de la réglementation sur la protection des données personnelles.

Un prochain règlement européen va promouvoir le principe d’ «accountability ». Il désigne et rend obligatoire la

documentation de l’ensemble des mesures internes définies et prises par un responsable de traitement ou ses

sous-traitants afin d'attester de son niveau de conformité.

Afin de se préparer à cette labellisation et de se conformer à ce principe européen, les entreprises et les services

publics doivent dès à présent nommer un responsable de leurs données et répertorier et documenter leurs

mesures de sécurité pour que celles-ci puissent être facilement auditées.

http://www.journaldunet.com/cnil/



4 – LES TECHNOLOGIES LIEES AUX BIG DATA

LA CONSOLIDATION DES DONNEES

Le volume de données grandissant, il devient de plus en plus contraignant de répliquer les données. Les

nouveaux systèmes, s’ils doivent consolider les données réparties dans plusieurs silos d’information, devront

limiter la réplication de l’information et éviter la prolifération des Datamarts. L’objectif d’une solution

centralisée est de conserver dans un réservoir de données unique une seule version de la donnée, servant de

multiples usages, dans le but de simplifier les architectures, limiter les désynchronisations de données et gagner

en performance.

En factorisant les systèmes, les coûts d’infrastructures, les coûts logiciels et les coûts de supervision sont réduits

d’autant. L’administration centralisée des règles de sécurité et des règles d’accès aux données permet de

réduire les coûts d’administration de la plateforme. La centralisation des informations facilite aussi la mise en

place des règles de confidentialité ainsi que des procédures d’anonymisation des données conformes aux

préconisations des législateurs.

Cette concentration des fonctions d’administration et des données concoure aussi à la performance globale des

systèmes concernés.

LA RECHERCHE DE PERFORMANCE

L’immense volume des Big Data a une incidence sur les performances des solutions. Plusieurs approches ont été

tentées ces dernières années pour exploiter au mieux ces grands volumes de données. Voici les principes qui

peuvent être retenus aujourd’hui au regard des principaux retours d’expérience des projets.

Le premier constat, concernant l’organisation des larges entrepôts de données structurées, est de privilégier les

modèles logiques normalisés, comme peuvent le faire les progiciels de gestion. Plutôt que de chercher à

modifier les modèles de données en schémas en étoile ou en flocons afin d’accélérer les restitutions, il est

préférable d’utiliser, sur une plateforme SQL performante, des modèles de données conçus pour faciliter la mise

à jour de la donnée, éviter toute duplication source d’erreur et être capable d’évoluer simplement pour

accueillir de nouvelles informations.

La non-duplication des données devient désormais la nouvelle règle et seules des contraintes très fortes,

comme par exemple l’éloignement géographique ou des besoins de site de secours, peuvent justifier la recopie

d’une donnée d’un Datacenter Européen sur un Datacenter Australien par exemple.

Lors du transport de données massif entre un système opérationnel et un système décisionnel de type Big Data,

le principe de base à privilégier sera un fonctionnement de type E L T (Extraction, Loading, Transformation)

plutôt qu’E T L (la phase de transformation réalisée pendant le transport). Les transformations de données -

mises en forme, lookups, règles de gestion - seront en priorité réalisées sur la base de données cible plutôt que

sur le serveur applicatif de l’outil de transfert, même si cela ne permet pas de tirer parti de toutes les

fonctionnalités proposées par l’ETL.

Le traitement parallèle est désormais incontournable. Les traitements longs s’exécutent en parallèle sur des

sous-ensembles de données distribués, puis restituent un résultat consolidé. Ce traitement parallèle est

aujourd’hui la seule réponse trouvée pour garantir des temps de réponses acceptables face à l’inflation des

données. Le parallélisme doit pouvoir être réalisé de bout en bout, sur toutes les étapes d’un traitement



(lectures, croisements, calculs, tris …) afin d’éviter tout point de contention qui pénaliserait toute la chaîne de

traitement. Ce parallélisme ne doit pas être le fait de l’expertise de l’utilisateur mais réalisé de manière

automatique et transparente par la plateforme.

La stratégie d'allocation des ressources d’un système Big Data est primordiale pour assurer la performance. Les

outils de gestion de charge, connus sous le nom de Workload Manager ou encore de Kernel Resource

Management, sont à la fois des planificateurs de la charge de travail, des gestionnaires des ressources et des

moteurs de workflow. Leur rôle est d’optimiser l’allocation des ressources machine et de faire cohabiter des

usages très différents sur la même plateforme, permettant à chaque tâche de pouvoir s’exécuter dans les

meilleures conditions, selon son niveau de priorité et ses caractéristiques :

Des utilisateurs avancés, comme les statisticiens, les Data Scientists, les Data Miners, qui souhaitent

réaliser des requêtes complexes avec beaucoup de croissements de données,

Des centaines d’utilisateurs concurrents qui lancent leurs éditions et génèrent leur reporting,

Des traitements batchs ou temps réel qui alimentent le système en nouvelles informations.

Pour gagner en réactivité, les traitements parallèles en base de données (in-database) peuvent être complétés

par des traitements en mémoire (in-memory). Sans aller jusque monter en mémoire l’intégralité des données, il

est intéressant d’y placer les données les plus importantes, les plus récentes ou les plus accédées (données dites

très chaudes). L’accès et le traitement de ces données est alors fortement accéléré. Les autres données

pourront rester sur des supports de stockage moins couteux, le système se chargeant de monter

automatiquement en mémoire les données nécessaires. Pour les outils de restitutions et d’analyses il faudra

aussi privilégier le traitement en mémoire (In-Memory).

LE ROLE DE L'OPEN SOURCE

Avant l’avènement des Big Data, le coût des bases de données augmentait en fonction du volume de données à

gérer. Plus le serveur de données était puissant, plus la base de données coûtait cher. Gérer les Big Data au sein

d’une base de données payante était alors prohibitif.

Le Framework Hadoop est une réponse au problème. Il s'agit d’un ensemble

de programmes Java qui permettent de paralléliser un très grand nombre

d’opérations informatiques sur de larges clusters de serveurs accueillant des

données. La distribution gratuite d’Hadoop et son fonctionnement sur des

serveurs d'entrée de gamme ont permis de faire baisser les coûts, permettant la gestion d’un grand volume de

données à des prix attractifs. Un très grand nombre d’entreprises a pu se lancer dans le stockage des données

Big Data et inventer de nouveaux modèles économiques. Parmi les sociétés les plus connues qui utilisent le

framework Hadoop, on trouve Amazon Web Services, AOL, Facebook (un cluster de 2 000 serveurs), Linkedln

pour alimenter la rubrique « Les connaissez-vous ? » ou encore Twitter pour le stockage des tweets et des

fichiers logs.

Les limites d’une solution entièrement Open source : le Framework Hadoop est distribué gratuitement par la

fondation Apache. Hadoop est un système complexe à utiliser et est constitué d’un ensemble de modules qui

évoluent rapidement : Sqoop, Flume, Hive, Oozie, Pig, Mahout, Spark … Une entreprise qui réaliserait elle-même

l’intégration de ces modules devrait constituer un centre de compétences dédié afin de rester à un bon niveau

de performance, ce qui ne fait pas forcement partie la stratégie de l’entreprise. Aussi, de nombreux acteurs

proposent des installations pré-assemblées et pré-testées d’Hadoop, avec des modules d’administration et des

fonctionnalités additionnels. Ces distributions d’Hadoop - Map’R, Hortonworks, Cloudera, etc … ainsi que la



souscription payante au support sont à privilégier car les équipes de ces éditeurs, basées dans la Silicon Valley,

participent au développement des nouvelles versions des composants du Framework Hadoop.

De même, Hadoop ne remplace pas un système décisionnel existant basé une base de données relationnelle

mais vient le compléter. De nombreuses solutions unifiées proposent un écosystème simplifié (base de données

relationnelle et stockage de données polystructurées) afin de simplifier et de rationaliser les plateformes.

La meilleure approche de l’Open Source : afin de bénéficier pleinement des apports de la solution Hadoop, qui

est incontestablement un constituant important de la stratégie Big Data, il convient de chercher à intégrer la

solution Hadoop au mieux au système d’information existant. Du point de vue opérationnel, il est nécessaire de

rechercher des solutions intégrées avec une administration graphique du cluster Hadoop et une console

commune avec le système information existant. Il faut aussi pouvoir utiliser le langage SQL, connu des équipes

et des logiciels actuels et rechercher des outils qui génèrent automatiquement des scripts MapReduce ou ‘R’

pour pouvoir exploiter les données contenues dans Hadoop sans trop investir dans le conseil ou la formation.

Comme tout outil informatique qui est choisi en fonction de besoins métiers, il est très important, avant de

commencer un projet Big Data, de s’assurer de l’existence d’un véritable cas d’usage métier, de vérifier qu’une

solution en mode Cloud locatif (par exemple : suivi des campagnes marketing, analyse de la fraude, analyse e-

réputation, etc…) n’existe pas sur le marché pour ce besoin et que l’investissement sur la plateforme et les

formations donneront bien lieu à un retour sur investissement assez rapide.

L’AGILITE

Les systèmes décisionnels historiques ont montré leur capacité à produire un reporting automatisé, désormais

indispensable aux entreprises, mais leur manque d’agilité leur est souvent reproché. L’agilité d’une solution Big

Data doit être envisagée avant sa mise en œuvre. Elle s’appuie sur les principes suivants : une simplification de

l’administration et une mise à disposition de fonctions Self-Service pour les utilisateurs.

La simplification de l’administration s’appuie sur une plateforme commune entre l’opérationnel et l’analytique

permettant de simplifier l’infrastructure, réduire le nombre de matériels, d’applications et de logiciels

d’administration et de supervision. Certaines solutions, disponibles sous forme d’Appliance, proposent des

matériels et des logiciels optimisés et préinstallés pour la gestion des Big Data. Dans ce cas, le client bénéficie

d’un seul interlocuteur pour l’ensemble de la solution, avec lequel il peut contracter un engagement de service

pour l’ensemble de la solution (SLA, Service Level Agrement). L’efficacité opérationnelle ainsi dégagée vient

contrebalancer l’achat d’une plateforme intégrée.

Des fonctions simplifiées pour l’utilisateur. La Business Intelligence a beaucoup fait pour simplifier l’accès des

utilisateurs à l’information structurée de l’entreprise. Les utilisateurs souhaitent désormais pouvoir exploiter les

données poly-structurées, des algorithmes de la théorie des graphes, de la recherche des chemins, des

fonctions de classification (clustering) ou encore de Data Discovery.

Une plateforme agile permettra de mettre à disposition de l’utilisateur un espace de travail (du stockage, de la

puissance de calcul) le temps de son travail. Ces capacités d'autoprovisionning (allocation automatique de

ressources) autorisées et supervisées par l’administrateur du système, offrent une grande souplesse

d’administration et permettent des scénarios d’expérimentation et de Fail-Fast

Découverte de tendances, d’Insight

Recherche de tentatives de fraude, hypothèses de défaillance client, recherche de corrélation

Expérimentation de concepts avant remise en main aux équipes informatiques pour industrialisation.



Une plateforme intégrée, proposant des fonctions Plug & Play et une administration simplifiée, permettra de

couvrir économiquement les nombreux usages attendus d’une plateforme moderne de Big Data.



5 – APPLICATIONS ET USAGES

UN ENORME CAPITAL INFORMATIONNEL

L’État possède incontestablement un immense capital informationnel. Sans compter les ministères, de

nombreux organismes disposent de bases d’informations très riches : citons, entre autres, la Coface, la

Bibliothèque publique d’information (BPI), l’Agence Française pour le développement international des

entreprises (UBIFRANCE), ou encore l’Institut National de la Propriété Industrielle (INPI).

Les usagers souhaitent pouvoir accéder à toutes ces informations et pouvoir interroger des annuaires de

données qui recensent, ordonnent, aident à comprendre les données, qu’elles soient traitées et mises à

disposition du public par l’Etat (data.gouv.fr), par les collectivités locales (data.nantes.fr) ou par le privé (data-

publica.fr). Ces données publiques représentent une opportunité pour les individus (simples citoyens, militants

et journalistes), les entreprises (grandes et petites) et l’Etat.

DE NOMBREUSES INITIATIVES

L’état français a pris la mesure du sujet et a lancé un vaste programme d’investissement dans le domaine du

numérique. Plus de 150 millions d’€ d’aides à la recherche et au développement ont été alloués dans les

domaines suivants :

Le logiciel embarqué et objets connectés (l’internet des objets, les capteurs),

Le calcul intensif et la simulation numérique,

Le cloud computing et technologies d'exploitation massive des données ("Big Data"),

La sécurité des systèmes d'information.

L’École Polytechnique vient de créer une chaire « Data Scientist » et plusieurs écoles et Universités ont lancé

leur cursus « Big Data ». Enfin des formations en ligne sur ce sujet, disponibles sur le Web, des MOOC, Massive

Online Open Courses, sont diffusés depuis les Etats Unis.

Parmi les dernières initiatives en date, le programme VITAM (Valeurs immatérielles transmises aux archives

pour mémoire), lancé le 10 mars 2015, est chargé de collecter, conserver et communiquer au public les

documents numériques produits par les ministères et administrations centrales de l’Etat.

CAS D’USAGE

Le Cloud et la mobilité sont entrés dans le quotidien du citoyen. Un citoyen qui souhaite pouvoir accéder

partout à des informations toujours plus nombreuses pour améliorer ses conditions de circulation, identifier le

meilleur trajet, obtenir des informations sur la société. Tout en souhaitant préserver son identité, échapper aux

caméras de surveillance et bénéficier d'une vraie transparence sur l’accès aux informations et sur l’usage qui est

fait de ses données.

Nous avons recueillis des témoignages dans plusieurs domaines différents : la recherche et les biblothèques nationales. Des projets Big Data qui illustrent bien les différents engagements de l’État dans les projets Big Data. Enfin nous terminerons sur la coordination des différents projets et la sur la gouvernance des données.

http://www.data-publica.fr/

http://www.data-publica.fr/



Applications et usages

>>>>>



INTERVIEW - Jean-Michel ALIMI, Directeur de Recherche au LUT

« Les limites des simulations numériques repoussées grâce aux Big Data »

Jean-Michel Alimi, Directeur de Recherche au CNRS, nous présente une partie des travaux réalisés par son équipe sur la simulation numérique en cosmologie au Laboratoire Univers et Théories, Observatoire de Meudon, des calculs qui ont nécessité plus de 150 pétaoctets de données.

A l’Observatoire de Paris, avec votre équipe, vous avez entrepris de modéliser l'univers du Big Bang. Pouvez-vous nous présenter les grandes étapes de ce projet ?

Jean-Michel Alimi. Le projet DEUS, Dark Energy Universe Simulation, dont j’ai la responsabilité a débuté il y a dix

ans, son objectif est de comprendre l’origine de la structuration et la nature du contenu de notre univers et

spécialement la nature de l’énergie noire. Plus récemment, en 2012 nos efforts ont permis de réaliser la première

simulation mondiale de structuration de TOUT l’Univers observable du Big Bang jusqu’à aujourd’hui. C’est la taille

gigantesque des volumes manipulés qui en fait un projet Big Data remarquable, voire hors norme : alors que 150

Po de données sont générés durant les calculs, 2 Po de données ont été finalement conservés après un processus

de sélection très optimisé. Pour ce faire, l’équipe scientifique s’est appuyée sur le supercalculateur Curie qui

après 30 millions d’heures sur 76 032 cœurs de calcul, plus de 300 To de mémoire et un débit disque de plus de

50Go/sec aura permis d’expulser vers un système de fichiers parallèle les données produites par le calcul.

Quelles sont les précautions à prendre lorsque l’on se lance dans un projet Big Data de cette nature ?

J-M.A. Malgré la puissance de calcul et la capacité de stockage dont nous disposions, nous avons dû optimiser de

façon extrême l’ensemble des opérations. Toutes les facettes de la simulation haute performance ont été

sollicitées : le temps de calcul, l’usage de la mémoire, les schémas de communication, la gestion des

entrées/sorties. Tout devait être optimisé au même instant en exploitant toutes les ressources disponibles.

La sélection des données et leur analyse sont deux phases critiques qu’il faut savoir préparer. Il est indispensable

de retenir les données essentielles au calcul, mais aussi garder à disposition des informations qui pourraient

intervenir dans la modélisation ou être corrélées avec d’autres résultats. Si la plupart des données concerne le

projet Dark Energy qui vise à étudier la dynamique de l'expansion de l'univers et la croissance de structure à

grande échelle, de très nombreuses données sont conservées à des fins exploratoires pour de nombreuses autres

questions de cosmologie. Chaque année de nouveaux calculs, de nouvelles analyses nous conduisent encore à

générer près de 200 téraoctets de nouvelles données et la gestion de ce volume de données est un souci

quotidien.

Comme nous partageons le résultat de nos recherches avec d’autres laboratoires répartis sur l’ensemble de la

planète, nous sommes régulièrement confrontés à la latence des réseaux transcontinentaux, qui nous limite dans

la recopie et la mise à disposition de données.



Comment sont partagés ces résultats ? Y-a-t-il une exploitation commerciale des analyses réalisées ?

J-M.A. Du fait de leur complexité, les calculs scientifiques ne sont directement utilisés que par des chercheurs

très spécialisés dans le monde. Aussi, pour rendre les résultats accessibles à une plus large population, nous

avons réalisé par exemple des animations vidéo permettant de retracer toute l'histoire de l'Univers du Big Bang

jusqu'à aujourd'hui. La fabrication de ces animations n’est possible que grâce aux technologies Big Data. Ces

vidéos ont été par exemple diffusées aux journaux du 20h00, gracieusement offertes. Ces travaux sont rarement

commercialisés car la connaissance de notre l’univers n’a pas de prix ! Vous le savez, comme le disait Albert

Einstein, « tout ce qui compte ne se compte pas et tout ce qui se compte ne compte pas ! »

Dans ce domaine, la philosophie qui prédomine chez les chercheurs du monde entier est un état d’esprit ouvert

et une tradition de partage. Nous travaillons en partenariat avec de très nombreux centres de calculs, de

nombreuses équipes avec qui nous échangeons beaucoup de données : des données issues de simulations

numériques mais également des données réelles issues d’observation que nous confrontons à nos prévisions.

Nous interagissons également avec de nombreuses équipes de recherches spécialisées dans les simulations

numériques au-delà de notre discipline scientifique : avec des équipes de sismologie, de physique des particules,

ou encore de mécanique des fluides.

Ces données ont donc une vocation publique. La question de la sécurité porte donc plus sur la préservation des données ?

J-M.A. En effet, les difficultés de la gouvernance de ces données concernent davantage la mise à disposition des

données et leur sauvegarde que la sécurisation de l’accès. Les énormes volumes de données limitent les

possibilités de recopies et exigent une grande rigueur quant à leur diffusion afin de ne pas risquer une

multiplication des volumes. Nous sommes hébergés par de grands centres de données qui prennent en compte le

risque d’incendie et de perte des données, mais nous devons sans cesse arbitrer sur les volumes et sur les

conditions de mise à disposition de ces données.



INTERVIEW – Emmanuelle Bermes, BnF

« Le volume d’informations numériques a largement dépassé la production littéraire.»

Emmanuelle Bermes est adjointe pour les questions

scientifiques et techniques auprès du Directeur des

services et des réseaux Bibliothèque nationale de

France. Elle dresse un panorama du rôle des données

dans la gestion des Bibliothèques et de l’apport des

nouvelles technologies dans la gestion des Big Data.

La gestion des grands volumes de données dans les bibliothèques nationales a-t-elle évoluée ces dernières années depuis l’apparition du phénomène Big Data ?

Emmanuelle Bernes. Les bibliothèques nationales sont confrontées aux grands volumes de données depuis les

années 90, lorsque les premiers chantiers de numérisation des ouvrages ont commencé. Nous disposons

actuellement de plus de 3 millions de documents numérisés, nous avons appris à les gérer. Les bibliothécaires ont

une grande tradition de normalisation, de création de métadonnées et d’échange de données structurées. Un

format international d’échange de données documentaire existe depuis les années 1960 – MARC pour MAchine-

Readable Cataloging – avec sa déclinaison INTERMARC pour la Bibliothèque nationale de France. Nous utilisons

de nombreux référentiels internationaux pour coder nos métadonnées (code langues ISO, code pays ISO,

identifiants comme l’ISBN pour les livres ou l’ISNI pour les auteurs, etc..) : ce formalisme nous permet d’échanger

des données à la fois entre bibliothèques mais aussi entre pays.

Après cette première phase d’acquisition et de numérisation, l’avènement de Google en 2005 et de ses capacités

de recherche plein texte, le travail d’interprétation des documents numérisés s'est accéléré. Nous avons de plus

en plus utilisé l’OCR (Optical Character Recognition) pour transformer les documents numérisés en éléments

interrogeables et nous nous sommes mis à l'usage d'algorithmes de recherche.

Le troisième phénomène a été la production massive de documents numériques. Avec la généralisation des

ordinateurs individuels et des caméras numériques, les documents, les blogs, les vidéos ont proliféré sur le Web.

Les documents étaient désormais au format numérique natif, et il fallait les prendre ainsi en compte dans nos

bases documentaires.

Quelles ont été les conséquences de cette prolifération d’informations disponibles sur le Web ?

E.B. Depuis 2006, le dépôt légal a été étendu aux sites internet : toute information publiée en ligne doit être

conservée. C’est un travail que nous partageons avec l’INA, l’Institut national de l'Audiovisuel, qui est en charge

des sites internet de la radio et de la télévision. De notre côté nous collectons chaque année 4 millions de sites

internet français, dont 23 titres de presse quotidienne nationale et régionale (Ouest France, Le Républicain

Lorrain, Médiapart…) qui entrent chaque jour dans nos collections de manière automatique. Le volume

d’information est gigantesque : plus de 567 To de données, et ce volume croît chaque jour.



Existent-ils des progiciels pour gérer ces informations ?

E.B. Du fait du caractère exceptionnel du volume de données, la plupart des systèmes que nous utilisons sont

spécifiques. Il existe bien des solutions de gestion intégrées de bibliothèque et de gestion électronique de

documents commercialisées par des sociétés comme Archimed, BiblioMondo ou Ex Libris, mais elles ne

répondent pas aux spécificités d’une bibliothèque nationale (gestion du dépôt légal et des fonds patrimoniaux, en

particulier). La plupart de ces logiciels offrent toutefois la possibilité, pour les bibliothèques qui les utilisent, de

récupérer les informations que nous produisons sur les ouvrages, à partir du catalogue de la BNF

http://catalogue.BnF.fr/. Souvent, ils sont également capables de traiter d’autres sources de données comme

decitre.fr ou electre.com.

Pour gérer l’accès à de très grands volumes d’informations, nous utilisons des moteurs de recherche comme

CloudView d’Exalead (pour la bibliothèque numérique Gallica.bnf.fr) ou le moteur open source Lucene (pour le

catalogue général). Nous avons aussi créé des sélections basées sur des corpus numérisés – le sport, les

manuscrits – des corpus d’albums photographiques ou encore des corpus plus originaux comme celui des

partitions du fonds musical de la Bibliothèque Royale. Ces corpus réunis par des spécialistes des collections sont

consultables dans la bibliothèque numérique gallica.BnF.fr.

De plus, nous avons signé des partenariats avec d’autres fonds documentaires – bibliothèques, e-distributeurs –

qui nous permettent aussi de référencer des ouvrages, des documents ou des vidéos que nous ne détenons pas

en propre.

Les attentes des lecteurs et usagers de la BnF ont-ils changé avec la révolution numérique ?

E.B. Oui, bien sûr, la généralisation des moteurs de recherche des géants du Web a eu un fort impact sur les

différentes manières d’accéder à l’information. Les utilisateurs souhaitent de plus en plus interroger les systèmes

en langage naturel, plutôt qu’en suivant des menus. On peut aussi exploiter les « traces » laissées par les lecteurs

dans le cadre de leur consultation : un exemple concret est le portail tactiques.org/prevu des prêts de la

bibliothèque universitaire Paris 8 qui propose des statistiques sur les emprunts : le nombre de prêts de l’ouvrage,

l’âge moyen des emprunteurs, etc. Le système compile toute l’activité des prêts et en quelques clics vous accédez

à l’ensemble des prêts ventilés par secteur (psychologie, droit administratif, cinéma, sociologie), par langue

(français, anglais...), par répartition géographique, et à des classements comme le Top 10 des livres empruntés

parmi les 324401 prêts des deux dernières années.

Nous travaillons aussi beaucoup autour des outils de datamining et de recherche sémantique, nous suivons de

près les progrès du Web sémantique. Nous menons avec l’école Télécom ParisTech des recherches sur les usages

du patrimoine numérique des bibliothèques et sur l’exploitation des statistiques d’usage de Gallica.

De nombreux acteurs du Web souhaitent monétiser leurs données et se positionnent comme des DaaS, Data As A Service. Cela a-t-il du sens dans de le cadre de la BnF ?

E.B. Nous ne cherchons pas à monétiser les informations, mais au contraire à diffuser le plus largement possible

le contenu que nous gérons, tout en prenant soin de veiller aux contraintes juridiques et aux différents droits sur

les œuvres. C’est la raison pour laquelle nous avons adopté, pour la diffusion de nos données publiques, la licence

publique de l’Etat élaborée par la mission Etalab. Par ailleurs, la BNF publie régulièrement les catalogues de ses

collections, les catalogues d'expositions et des documents inédits.

http://catalogue.bnf.fr/jsp/recherchemots_simple.jsp?nouvelleRecherche=O&nouveaute=O&host=catalogue

http://www.decitre.fr/

http://www.electre.com/

http://gallica.bnf.fr/

http://tactiques.org/prevu/application/#/



INTERVIEW - Henri Verdier Administrateur général des données de l’État

« La transformation numérique de l'action publique passe par une bonne gouvernance des données »

Henri Verdier, Administrateur général des données de l’Etat - en anglais Chief Data Officer - présente le phénomène des Big Data non plus sous l’angle de l’entreprise privée qu’il connait bien, mais sous celui des politiques des données de l’Administration française. Il évoque ici sa vision du potentiel des données possédées par l’État face aux champions de l’économie numérique.

Henri Verdier, dans le cadre de votre nouvelle mission d'administrateur des données publiques, comment définissez-vous l'économie numérique ?

Henri Verdier. L’économie numérique est la rencontre entre deux écosystèmes : le

monde de la recherche technologique et de l’algorithmique avec celui de l’activité

réelle, deux écosystèmes qui ne se rencontrent que très rarement, ou du moins pas

assez souvent dans un monde en perpétuelle évolution. En tant qu'administrateur des

données publiques, notre rôle consiste à faciliter ces échanges, à insuffler les avancées

technologiques et surtout les nouvelles méthodes de gestion des données dans les

rouages existants. Le but est bien sûr de permettre à l’action publique de bénéficier

des mêmes moyens que les entreprises privées. Nous souhaitons mettre à disposition

d’une équipe de datascientists des données en très grand nombre afin que leurs

analyses puissent orienter les politiques à venir. Avec, toujours en ligne directrice, la

baisse des coûts des processus, un meilleur service public rendu et la modernisation du

système d’information de l’État. Toutes les organisations sont concernées : les services

publics, les administrations, les services déconcentrés comme les collectivités locales.

Votre service est rattaché au DISIC, la direction interministérielle des systèmes d’information et de communication, qui vise à améliorer le service rendu à l’usager et à l’agent et à accroître la valeur ajoutée des systèmes d’information. Comment votre expérience du numérique et des Big Data peut-elle contribuer à l’atteinte de ces objectifs ?

H.V. Nous intervenons comme force de proposition et comme influenceur. Nous veillons d’abord à l’usage des

données, en privilégiant l’ouverture des données publiques, un meilleur partage, plus de modernité et de

transparence, et une centralisation accrue pour une exploitation facilitée. Et surtout nous cherchons à insuffler

une nouvelle approche sur les données, proches des pratiques réalisées sur les Big Data, mêlant données

Henri Verdier a dirigé l’Etalab, un service rattaché au Secrétariat général pour la modernisation de l’action publique, dont la mission était de faciliter la réutilisation la plus large possible des informations publiques. Le portail unique interministériel Etalab, data.gouv.fr, rassemble et à met à disposition du public l’ensemble des informations publiques de l’Etat. Henri Verdier est également le membre fondateur du pôle de compétitivité Cap Digital et, à cette occasion, a rencontré la plupart des start-up françaises qui se lançaient dans les nouvelles technologies. En septembre 2014, il a été nommé par le gouvernement Administrateur des données de l’État.

https://www.data.gouv.fr/fr/

http://www.capdigital.com/



polystructurées, Data Science et techniques d’apprentissage automatiques. Systématiquement impliqué dans les

projets structurants et manipulant de grands volumes de données, notre service essaie d’imposer une visibilité

sur le stockage des données nécessaire à l’automatisation du processus, pour rechercher une corrélation, une

synergie avec d’autres silos de données existants dans l’administration, afin que le rapprochement des données

vienne enrichir le capital informationnel de l’État. Ce travail est complexe et doit être réalisé en amont pour

pouvoir influer sur l’architecture de la solution, en proposant par exemple des Web API, des ouvertures pour lire

la donnée qui demain aura autant de valeur que le processus optimisé lui-même. C’est une démarche disruptive :

elle présente la donnée comme un bien commun, utile au pilotage des activités et aussi à l’évaluation des

politiques menées.

La fonction d’Administrateur général des données de l’État est nouvelle en France, quelles sont vos sources d’inspirations et les modèles sur lesquels vous pouvez vous appuyer ?

H.V. La fonction de Chef Data Officer est de plus en plus présente dans les grandes entreprises internationales

ainsi que dans les grandes villes américaines, telles que New York ou San Francisco. De très nombreuses

initiatives y sont menées. Par exemple, New York compte une million d’immeubles dont 3 000 environ prennent

feu chaque année. En croisant les données de plusieurs systèmes d’information – la pauvreté du quartier, l’âge de

l’immeuble, la date des derniers travaux réalisés, le nombre de loyers impayés, la présence ou non de squatters,

la présence ou non d’un gardien – plus de 60 critères en tout, un algorithme a permis de déterminer où les 341

unités de pompiers de la ville doivent concentrer leurs visites de contrôle. Ce système a permis de rendre ces

contrôles pertinents dans 73% des cas au lieu de 13% auparavant. Voilà le type d’optimisation et d’amélioration

du service public que peuvent procurer une bonne gestion des données et l’apport des nouvelles technologies.

Personne ne gagnera seul le défi des Big Data. La collaboration des services est un élément clé de la stratégie

pour pouvoir offrir des services qui soient proches de la qualité que les usagers peuvent rencontrer par ailleurs.

Par exemple, nous menons actuellement une expérimentation associant l’IGN, La Poste et Open Street Map pour

créer un référentiel ouvert de la géolocalisation de toutes les adresses qui pourra être utilisé par tous les services.

Nous souhaitons aussi apporter de la modernité dans le pilotage des projets informatiques, en proposant des

cycles plus courts, favorisant la réutilisation des données ou des services déjà en place, et en traitant très en

amont les problématiques législatives, d’éthique et de confidentialité, incontournables dans tous les projets liés

aux données, toujours en concertation avec les organismes comme la CNIL, la CADA ou encore l'AFNIC. La prise

en compte d’une bonne gouvernance des données et de son exploitation a posteriori sera un véritable levier de la

transformation numérique de l’action publique.

http://www.ign.fr/

http://www.laposte.fr/professionnel

http://openstreetmap.fr/

http://www.cnil.fr/

http://www.cada.fr/

https://www.afnic.fr/



A propos de

>>>>>



A propos de Teradata

Teradata France Antony Parc 1 2/6 Place du général de Gaulle 92184 Antony cedex Tél : +33 1 81 89 15 00 Site Internet : http://fr.teradata.com/government/

Teradata (NYSE : TDC) est le spécialiste des plates-formes analytiques de données et des applications et services marketing. Les produits et services novateurs de Teradata offrent aux entreprises des solutions d'intégration de données et une approche métier qui leur permettent de prendre les meilleures décisions possibles et de se doter de véritables avantages concurrentiels. Bureaux à Dayton, Ohio ; San Diego, Atlanta et Indianapolis ; Bureaux en Amérique du Nord et Amérique du Sud, en Europe, au Moyen-Orient, en Afrique (EMEA), ainsi que dans la zone Asie et Japon. Teradata compte 11 500 salariés dans plus 40 pays

Industries ciblées : Services financiers et assurance, gouvernement et services publics, santé, Sciences de la

vie ,eCommerce, media numériques, divertissement, commerce de détail, industrie,

pétrole et gaz, hôtellerie, télécommunications, voyage et transport, service public.

Leadership : Teradata collabore avec plus de 2600 clients dont 1800 utilisent les applications

Teradata parmi lesquels :

15 des 20 premières banques mondiales 18 des 20 premières entreprises mondiales de télécommunications Les 6 premières compagnies aériennes mondiales 14 des 20 premières agences de transport et de voyage 15 des 20 premiers détaillants mondiaux 11 des 20 premières sociétés de l’industrie de la santé 11 des 20 premières sociétés du monde de l’industrie

Chaque jour, plus de 3 millions d'utilisateurs dans le monde entier accèdent à un

environnement Teradata analytics ou applications marketing dans le cadre de leur

travail dans quasiment tous les secteurs.

Une sélection de

partenaires

Accenture, Adam Software, Alteryx, Attensity, Brierly, Capgemini, Celebrus, Cloudera,

Cognizant Technology Solutions, Deloitte Consulting, ESRI, Fuzzy Logix, Harte Hanks,

HortonWorks, IBM: Global Business Services, IBM Cognos, Guardium, InfoSphere,

Optim, and SPSS; Informatica, LiveRamp, MapR, Microgen, Microsoft, MicroStrategy,

Oracle, Protegrity, Qlik Technologies, Inc., Revolution Analytics, SAP, SAS, Tableau,

Tibco, Urban Airship, Webtrends, Wipro & Wherescape.

http://fr.teradata.com/government/

http://fr.teradata.com/?LangType=1036&LangSelect=true



Une sélection de clients

français

SFR, Bouygues, Orange, BNP PARIBAS, Air France, SNCF, Geopost, ERDF,

Carrefour, Auchan, Intermarché, Monoprix, ADEO Canal+, Banque Accord., Société

Générale, LCL, iBP, CA, Française des jeux…..

Direction : Mike Koehler, Président-Directeur Général

Hermann Wimmer, Co - President, Teradata Data & Analytics

Bob Fair, Co-président Teradata Marketing Applications

Dan Harrington, Executive Vice President, Global Consulting and Support Services

Stephen Brobst, Chief Technology Officer

Eric Joulié, Président Teradata France et Vice Président Western Europe, Southern

et Middle East Africa

Thierry Teisseire, Directeur Teradata Applications France et Europe de l’ouest

Les biographies sont disponibles sur le site : www.teradata.com

Prix et récompenses

Teradata est reconnue par les analystes, la presse et les groupes de réflexion pour son leadership dans le domaine des solutions d'entrepôts de données, des solutions analytiques d'entreprise, du marketing intégré, ainsi que dans le domaine du Big Data.

La liste complète des prix remportés par Teradata et ses dirigeants, disponible sur le site Teradata

Teradata® Unified Data Architecture™

Teradata Unified Data Architecture™ est au cœur des solutions orientées données de Teradata. Cette

architecture permet aux organisations et entreprises d’analyser tous types de données hébergées par différents

systèmes Teradata. L’architecture UDA tire avantage des technologies évoluées de Teradata, de la plateforme

Teradata Aster Discovery, de l’environnement open-source Apache™ Hadoop® et de nos partenaires

technologiques : les utilisateurs métier peuvent exécuter, à la demande, les requêtes de leur choix sur toutes les

données à disposition, quelle que soit la fonction analytique choisie. Cette architecture associe des modules

logiciels - Teradata Viewpoint, Teradata Connectors et Teradata Vital Infrastructure – et matériels – une suite

complète d’appliances Teradata dédiées aux entrepôts de données, ainsi que les produits Teradata Aster

Discovery et les solutions dédiées à Hadoop. Avec l’architecture UDA, les organisations accèdent, utilisent et

gèrent toutes leurs données structurées ou non.

Teradata QueryGrid™, dévoilé en 2014, constitue une innovation majeure qui propulse les utilisateurs d’UDA

aux avant-postes des technologies de base de données. Elle leur offre un accès transparent et en self-service aux

données et à des fonctions analytiques exécutables sur différents systèmes, à partir d’une seule instance de

Teradata Database ou requête Aster Database.

Teradata Database – notre plateforme logicielle phare est reconnue en tant que référence pour analyser et traiter des données toujours plus volumineuses et complexes, proposer des requêtes pertinentes, offrir des performances optimales et encourager la rentabilité d’un tel investissement.

http://www.teradata.com/leadership/?ICID=Alt&LangType=1033&LangSelect=true

http://www.teradata.com/awards/

http://www.teradata.com/awards/?LangType=1033&LangSelect=true



Les plateformes Teradata spécifiques à la gestion des charges de travail sont des systèmes pouvant être

utilisés sur l’ensemble du périmètre d’entreprise: entrepôts de données actifs, entrepôts de donnés unifiés et

multi-métiers, appliance d’entrepôts d’entrée de gamme, référentiels de données spécifiques ou

environnements de type sandbox. Ces plateformes utilisent les technologies SMP (symmetrical multi-

processing) ou MPP (Massively Parallel Processing), et sont reconnues pour leurs hautes-performances, leurs

évolutivité et leur simplicité en matière de support.

Teradata Aster Discovery Platform. Cette gamme de produits offre des fonctionnalités telles que Teradata Aster

SQL-MapReduce®, Graph Analytics, Teradata Aster File Store ™, ainsi que le framework Teradata Aster SNAP

(Seamless Network Analytic Processing)™. Ces innovations permettent une visibilité détaillée et riche au cœur

de données aux structures différentes, issues de sources Web, de réseaux de capteurs, de réseaux sociaux, de

travaux de génomique ou autres. Associées aux fonctions de traitement analytique et aux entrepôts de données

de Teradata, ces solutions apportent à ses utilisateurs de nouveaux angles de visibilité qui font défaut aux outils

des autres éditeurs : niveaux de détail plus précis sur les données, génération accélérée de cette visibilité

détaillée, ainsi que de nouvelles fonctions de visualisation.

Teradata Aster Big Analytics Appliance optimise la génération de valeur à partir des données. Cette appliance

associe la plateforme open source Hadoop d’Apache et Teradata Aster Discovery Platform au sein d’une

appliance unique, parfaitement intégrée et optimisée.

Teradata Portfolio for Hadoop – Cette suite flexible de produits et de services permet d’intégrer Hadoop au sein

d’un environnement Teradata et de l’adosser à une architecture d’entreprise élargie, tout en bénéficiant de

services et d’un support de premier rang fournis par Teradata. Cette solution intègre des produits et services

adaptés à tous les budgets et niveaux de maturité vis-à-vis de Hadoop : versions de distribution Hadoop,

appliances intégrées, ainsi que des services de conseils et de support sur les matériels existants chez les clients.

Services Teradata

Services de conseils professionnels Teradata - Nos centres d’expertises répartis dans le monde entier emploient des professionnels formés et complètent les équipes locales de conseil en exploitant notre base de connaissances accumulées et en fournissant des ressources de conseil à l'étranger le cas échéant.

Les services d'assistance à la clientèle Teradata - Cette assistance revêt une importance croissante pour les environnements d'entreposage de données stratégiques de nos clients, à savoir ceux qui fonctionnent 24 heures sur 24, 7 jours sur 7.



A propos du CXP Le Groupe CXP est le premier cabinet européen indépendant d’analyse et de conseil dans le domaine des

logiciels, des services informatiques et de la transformation numérique.

Il offre à ses clients un service complet d’assistance pour l’évaluation, la sélection et l’optimisation de solutions

logicielles et les accompagne dans leur transformation numérique. Le CXP intervient dans plus d’une dizaine de

domaines (BI, gestion de contenu, ERP, finance, SIRH, CRM, BPM, IT management, sécurité du SI…).

Le Groupe CXP assiste également les DSI dans l'évaluation et la sélection des ESN et les accompagne dans l’optimisation de leur stratégie de sourcing et dans leurs projets d'investissements. Enfin, le Groupe CXP aide les éditeurs et les ESN à optimiser leur stratégie et leur go-to-market à travers des analyses quantitatives et qualitatives ainsi que des prestations de conseil opérationnel et stratégique. Les organisations et les institutions publiques se réfèrent également à nos études pour développer leurs politiques informatiques.

Capitalisant plus de 40 ans d’expérience, implanté dans 8 pays (et 17 bureaux dans le monde), fort de 140

collaborateurs, le Groupe CXP apporte chaque année son expertise à plus de 1 500 DSI et directions

fonctionnelles de grands comptes et entreprises du mid-market et à ses fournisseurs. Le Groupe CXP est

composé de 3 filiales : le CXP, BARC (Business Application Research Center) et PAC (Pierre Audoin Consultants).

Le CXP et le Secteur Public c’est :

Des Dossiers de recherche et des Études : - Portail citoyen - Dématérialisation dans les collectivités - Open Data - Etat d’avancement de la directive européenne INSPIRE - Réforme DIT & DICT versus SIG - GBCP & SI financier - SIRH pour le secteur public

Un Club Secteur Public CXP

Le CXP a créé en juin 2011 un Club Secteur Public destiné aux collectivités locales et territoriales,

ministères, organismes et entreprises publiques pour mieux répondre aux demandes d’évolution et aux

problématiques spécifiques en termes de progiciels (en mode licence, Cloud/SaaS, Open Source…).

Le Club réunit actuellement près de 120 membres et propose tout au long de l’année des ateliers et Web

Conférences sur des thématiques d’actualité (dématérialisation, portail citoyen, archivage, gestion de

contenus, Big Data, ville connectée, mutualisation des services,…). Une rencontre entre décideurs du

secteur public et éditeurs est également organisée chaque année, la prochaine Journée Secteur Public se

déroulera Jeudi 5 novembre 2015 à Paris.

Un vivier de répondants

La notoriété du CXP sur le marché français nous permet d’avoir des relations suivies avec un grand nombre

d’acteurs. Outre nos +1 500 clients utilisateurs (DSI et Directions fonctionnelles), notre lettre hebdomadaire est

envoyée à plus de 30 000 contacts et notre site Web fait l’objet de plus de 50 000 visites par mois.

http://www.cxp.fr/



De nombreuses études dans le domaine des Services Publics

Nous réalisons de nombreuses études dans ce domaine. Voici les dernières parutions du CXP qui évoluent avec

l’état de l’art du marché :

• La Performance dans les services publics, un livre blanc sur les enjeux et les pistes d’amélioration,

réalisé à partir d’une enquête menée auprès des professionnels du Secteur Public.

• Secteur Public – Le Portail Citoyen au service des usagers. Une étude complète sur les 8 principales

solutions logicielles de portail web présentes en France pour les mairies et collectivités territoriales

AUTRES PUBLICATIONS PROPOSÉES PAR LE CXP

DOSSIERS DE RECHERCHE

- ERP en open Source : une alternative crédible ?

- GBCP : Impacts sur le Système d’Information

- Pourquoi monter un projet MDM ?

- Améliorer son BFR : méthodes et outils

- Secteur public : les spécificités de la gestion des RH

- Big Data : mesurer la performance des activités publiques

AUTRES ETUDES ET BENCHMARKING DE SOLUTIONS

- Gestion des achats et relations fournisseurs

- Solutions de planification

- Plates-formes décisionnelles

Des prestations de conseil

Le Consulting CXP propose un ensemble de prestations spécifiquement conçues pour vous aider à réussir vos

projets :

• Audit de vos outils informatiques et organisation • Etudes des objectifs, des besoins cibles et éléments d’opportunités de lancer le projet • Réalisation de cahier des charges et formalisation d’appel d’offres publics • Aide à la renégociation de contrats, dépouillement d’Appels d’Offres publics • Assistance à maîtrise d’ouvrage.

Pour toute information :

Le Service Clients CXP

[email protected]

+33 (0)1 53 05 05 90

www.cxp.fr

Le CXP – 13 rue le Sueur – 75116 PARIS – 01 53 05 05 53 – www.cxp.fr

mailto:[email protected]