26
Livre blanc Réussir l’intégration du Big Data au cœur du Système d’Information Usages, opportunités et bénéfices pour l’informatique d’entreprise Janvier 2014 « Du Mobile au Big Data »

Réussir l’intégration du Big Data au cœur du système d’information

Embed Size (px)

Citation preview

Page 1: Réussir l’intégration du Big Data au cœur du système d’information

Livre blanc

Réussir l’intégration du Big Data au cœur du Système d’Information

Usages, opportunités et bénéfices pour l’informatique d’entreprise

Janvier 2014

« Du Mobile au Big Data »

Page 2: Réussir l’intégration du Big Data au cœur du système d’information

Livre blanc Big Data 2014 Copyright Groupe Infotel

2

Page 3: Réussir l’intégration du Big Data au cœur du système d’information

Livre blanc Big Data 2014 Copyright Groupe Infotel

3

MOT DU PRÉSIDENT

La tendance aujourd’hui est d’accéder à toujours plus de données à partir de terminaux de plus en plus petits. Tel est le sens du « Mobile to Big Data ». Pourquoi cette évolution ? Quels sont les problèmes liés au développement d’applications sur les mobiles ? Comment seront structurées ces gigantesques bases de données ? Depuis l’apparition de la 3G, il était évident que l’accès à internet par un téléphone portable n’était pas une fin en soi. Il fallait non seulement adapter la présentation à ces petits appareils, mais aussi profiter de leur puissance de calcul pour y développer des conversations intelligentes avec les sites web et même des applications autonomes pouvant, lorsque c’est nécessaire entrer en contact avec le site. Après les constructeurs de Smartphones, ce sont les fournisseurs de contenu qui se sont intéressés à doter ce matériel d’applications adaptées à leur marché. Ainsi les banques fournissent des applications de gestion des comptes, les gestionnaires de parkings du paiement sans contact et les offres se multiplient. La principale difficulté à laquelle se heurtent les fournisseurs d’application est la différence entre les systèmes des portables (iPhone, Android, BlackBerry ou Windows Phone) ce qui pose des problèmes d’adaptation à chaque marque. Avec les volumes énormes de données auxquelles peuvent accéder les applications mobiles (images, films, jeux en ligne), il fallait développer des systèmes de bases de données capables non seulement de les stocker, mais d’y accéder à la vitesse exigée par les clients. Or, le modèle relationnel qui avait mis si longtemps pour s’imposer au point de devenir pratiquement universel avec son langage SQL se trouvait mal adapté à ce stockage. C’est ainsi que sont apparus de nouveaux SGBD ne se réclamant plus du modèle relationnel, voire s’en affranchissant totalement en reniant SQL. Ils ont deux ambitions principales : la rapidité d’accès et le volume d’information. C’est ce que recouvre l’expression « Big Data ».

Pour en savoir plus sur la stratégie du groupe Infotel,

flashez ce code !

BERNARD LAFFORET

Président du groupe Infotel

Page 4: Réussir l’intégration du Big Data au cœur du système d’information

Livre blanc Big Data 2014 Copyright Groupe Infotel

4

SOMMAIRE

1. CONSTAT ET ENJEUX DU BIG DATA ......................................................................................... 5

L’explosion des volumes de données : savoir faire face ................................................................................... 5 Le SI à l’heure du Big Data ............................................................................................................................................... 5 Accélération des cycles de décision et de production..................................................................................... 7 2. LES SOLUTIONS BIG DATA ......................................................................................................... 9

L’évolution du SI vers le Big Data ................................................................................................................................ 9 Les domaines d’application des solutions Big Data............................................................................................ 9 Les enseignements tirés des solutions Big Data ............................................................................................... 12 3. LE BIG DATA POUR MON SI .................................................................................................... 13

Comment intégrer avec succès le Big Data à mon SI ? ................................................................................... 13 4. RETOURS D’EXPÉRIENCE ......................................................................................................... 16

Cas 1 : Créer une solution d’analyse sémantique à l’échelle du SI ........................................................... 16 Cas 2 : Stocker et archiver l’information ............................................................................................................... 18 Cas 3 : Affiner la connaissance client - illustration dans le secteur bancaire ..................................... 19

Page 5: Réussir l’intégration du Big Data au cœur du système d’information

Livre blanc Big Data 2014 Copyright Groupe Infotel

5

1. CONSTAT ET ENJEUX DU BIG DATA

L’explosion des volumes de données : savoir faire face

En partant des seuls chiffres de l’explosion des volumes de données, le constat est évident : il faut savoir répondre à une déferlante de données, qu’elle soit générée en interne du SI, à la frontière du SI, ou depuis l’extérieur… En effet, la porosité des frontières (solutions en mode SAAS, open data, mobilité) ne fait que renforcer la démultiplication et la diversité des données.

Ce sont les nouveaux usages qui multiplient les données. Citons par exemple :

NOUVEAUX USAGES EXEMPLES

La multiplication des capteurs d’information

Les smartphones enregistrent : la position GPS, la vitesse, des photos et vidéos, etc. Les objets connectés nous envahissent : automobiles, montres, TV, lunettes, équipements médicaux...

La consommation d’information se niche dans toutes les activités

dans et hors entreprise, multipliant les volumes d’activités,

Dématérialisation : contrats, factures, documents avec image + texte + vidéo. CRM, RH … : toutes sont ciblées par la digitalisation de l’entreprise La tablette en remplacement du poste de travail accroît la responsabilité du SI à supporter le rôle du stockage et du traitement de l’information.

Les systèmes sont plus que jamais interconnectés ou inter-exploités

(Solutions SAAS, utilisations d’API, robots aspirateurs Web, Open

Data….)

Cas concret : une entreprise veut analyser les comportements sur les réseaux sociaux pour positionner de nouvelles offres ou produits (analyse de performance de campagne, analyse d’évolution des usages dans le temps….) Marketing, Production, Distribution, Après-vente, CRM, Ressources humaines : tous les services génèrent des données liées à un client, et l’exploitation cohérente de celles-ci n’est pas suffisamment organisée ou même possible.

Le SI à l’heure du Big Data

Il existe un nombre important d’axes selon lesquels on peut quantifier la performance de son Système d’Information et, sur cette base, prioriser les nouveaux projets ou les mutations à accompagner : Couverture fonctionnelle, Aptitude au changement, Adhérence à une technologie non supportée ou obsolète, Disponibilité de compétences, Sécurité...

Objectifs de cette rubrique : ⇨ Connaître les raisons d’une explosion des données, ⇨ Évaluer la performance de son SI à l’heure du Big Data, ⇨ Illustrer par des cas concrets d’entreprise.

Figure 1 Source CISCO 2013

Page 6: Réussir l’intégration du Big Data au cœur du système d’information

Livre blanc Big Data 2014 Copyright Groupe Infotel

6

Désormais, la capacité à faire face à de très grands volumes de données est un critère qui doit tenir un rôle de premier ordre dans la cartographie du SI.

Chaque décideur informatique peut se projeter ainsi sur sa situation « idéale » :

1. Je suis capable d’avoir des applications performantes : je résiste à la charge, je monte en capacité sans douleur.

2. Je surmonte l’hétérogénéité technique et historique de mon SI dans une démarche unifiée : je peux la recombiner pour les nouveaux besoins.

3. Je fais communiquer sans douleur toutes mes applications et j’ai une vision claire de la cartographie de mon SI « Communicant » ou « Intégré » (SOA, Batch…)

4. Je tire profit de toute information, je suis réactif, j’ai la bonne information avec une restitution qui m’aide à la décision.

À l’heure du « tout digital » les démarches s’adaptent au contexte de chaque domaine : 1er cas : le Système d’Information est proche de cette situation optimale de performance et il

doit muter progressivement pour accompagner les changements à venir : « Il ne faut pas perdre cet avantage compétitif »

2ème cas : Le SI doit progresser dans son efficacité sur des domaines qui ne supporteront pas les nouveaux enjeux. Conduite du changement, ruptures techniques et méthodologiques,… : « Tirer profit du Big Data exige une stratégie adaptée à de multiples niveaux dans l’entreprise ».

⇨ Dynamiser son Système d’Information et créer de nouvelles opportunités dans la valorisation des données : voici comment le Big Data va s’inscrire profondément dans l’entreprise.

Partons de l’hypothèse suivante : ⇨ Votre entreprise développe un service B2B ou B2C qu’elle rend disponible au travers d’une

API publique. Celle-ci rend un service simple et isolé. La communauté s’en empare et en fait un service à valeur ajoutée en l’intégrant dans une application mobile à très forte adoption (ce pourrait être le nouveau Google Maps – ou OpenStreetMap) : le succès est phénoménal.

⇨ Votre Système d'Information est-il prêt à suivre cette évolution ?

Page 7: Réussir l’intégration du Big Data au cœur du système d’information

Livre blanc Big Data 2014 Copyright Groupe Infotel

7

Accélération des cycles de décision et de production Ce phénomène s’explique par la conjonction des progrès technologiques, une appétence des consommateurs pour de nouveaux services, lesquels doivent être toujours plus personnalisés, ainsi qu’une démultiplication de la concurrence. Ceci explique l’émergence de nouveaux usages qui associent technologies et innovation métier :

Création de contrats d’assurance au kilomètre parcouru ; Mesure et bonification de comportements éco-responsable (conduite, transports en commun):

voici un des exemples de mesure et de récompense. Transport : Création de communautés de voyageurs par similarité en analysant les

déplacements, horaires, centre d’intérêts.

Il s’agit également d’accompagner nos clients en anticipant la mutation des métiers « historiques ». Les entreprises doivent se réinventer toujours plus vite sous peine de disparaître, comme l’illustre les déboires malheureux d’acteurs comme Kodak ou BlackBerry qui n’ont pas su prendre les bons virages d’innovations à temps. L’accélération est également portée au niveau de la concurrence par l’arrivée de nouveaux acteurs qui agissent en pure players. Partis d’une feuille blanche, ils créent sans contrainte de services qui ont une visibilité de premier plan sur le Web. Ces concurrents ne sont qu’à un clic des acteurs historiques avec une capacité à faire bouger les lignes incontestable. En voici quelques exemples : Dans le domaine des services : Les moyens de déplacement se réinventent en combinant mobilité, partage et réseaux sociaux :

Uber contre les Taxis1 L’analyse croisée des informations comportementales et géolocalisées pour proposer des

services complets et personnalisés: La SNCF et la menace Google2

Dans le domaine du Commerce et de la grande distribution : Après l’opposition du e-Commerce et du commerce physique, l’heure est à l’hybridation et

l’accompagnement du client sur toute la chaine de son processus d’achat. Par exemple : fournir en magasin des recommandations d’achats sur le modèle d’Amazon : le client voit sur son smartphone les produits associés à l’article choisi en rayon, avec des promotions sur mesures.

Dans le domaine bancaire : La démultiplication des mesures et des moyens de valoriser les actions introduisent des

monnaies virtuelles qui s’invitent dans le monde réel, jusqu’à des phénomènes plus importants tel que la devise dématérialisée BitCoin. Plus simplement, les moyens de paiement par mobile vont non seulement révolutionner les transactions mais s’enrichir d’informations contextuelles. Sur ce terrain, une entreprise comme Square3 vient bousculer les schémas établis.

1 http://leplus.nouvelobs.com/contribution/955978-taxis-contre-voitures-avec-chauffeurs-a-uber-nous-allons-devoir-augmenter-les-tarifs.html 2 http://www.lenouveleconomiste.fr/sncf-contre-google-20090/ 3 https://squareup.com/

Page 8: Réussir l’intégration du Big Data au cœur du système d’information

Livre blanc Big Data 2014 Copyright Groupe Infotel

8

Pour surmonter ces fortes contraintes caractérisées par les 3V (Variété du contenu, Vélocité d’acquisition, Volume de données constitué), les technologies regroupées sous le label « Big Data » répondent par des approches innovantes qu’il faut savoir choisir et mettre en œuvre pour dynamiser son Système d’Information. Ces solutions partagent les caractéristiques suivantes :

Un stockage de données à coût raisonnable, Une capacité à monter en charge horizontale très importante en multipliant les machines plutôt

qu’en renforçant la puissance d’une seule, Une grande rapidité de mise en œuvre imposée par leur intégration dans des architectures

composites, L’excellence dans leur domaine d’application (stockage, transformation, indexation, exploration

statistique de comportements…).

Quelles que soient les technologies employées pour créer ces opportunités, elles doivent offrir : ⇨ Un niveau de performance et de puissance sans cesse repoussé, ⇨ Une souplesse d’utilisation en ligne avec le rythme d’évolution de l’entreprise pour

encourager l’innovation métier, ⇨ Une capacité de transformation continue.

Page 9: Réussir l’intégration du Big Data au cœur du système d’information

Livre blanc Big Data 2014 Copyright Groupe Infotel

9

2. LES SOLUTIONS BIG DATA

L’évolution du SI vers le Big Data

Nous avons la certitude que les technologies Big Data joueront un rôle essentiel dans la réussite de cette migration de l’entreprise vers le « tout digital ». Fortes des réussites observées chez les acteurs majeurs du Web, elles promettent de pouvoir faire face aux volumes gigantesques et variés de données :

1. Quelles sont ces solutions ? Comment les évaluer et les choisir ? 2. Comment les utiliser pour créer de nouvelles opportunités métier ? 3. Quelle stratégie adopter pour les déployer ? a. Quel est impact sur l’existant ? 4. Comment choisir son projet d’entrée dans le Big Data ? 5. Quelle gestion du changement dois-je entreprendre ? 6. Quel est mon retour sur investissement ?

Les enjeux et démarches globales étant définis, il faut encore connaître et apprécier les différentes solutions Big Data selon leur domaine d’application.

Les domaines d’application des solutions Big Data

Nous identifions 7 domaines d’application pour cartographier les solutions « Big Data » : Stocker, Transformer, Comprendre, Communiquer, Déployer, Accélérer. En voici une représentation graphique :

Figure 2 Cartographie des acteurs et technologies majeures du Big Data par Infotel

Objectifs de cette rubrique : ⇨ Cartographier les acteurs majeurs des familles technologiques,

(Hadoop, No SQL…) ⇨ Visualiser le périmètre d’application dans le Système

d’Information.

Page 10: Réussir l’intégration du Big Data au cœur du système d’information

Livre blanc Big Data 2014 Copyright Groupe Infotel

10

ACCÉLÉRER

Objectif : Se confronter aux très grands volumes, c’est extrapoler toutes les problématiques techniques. Quand il s’agit de répondre à des charges de travail extrêmement soutenues, des solutions ‘In-Memory’ ou bien des appliances dédiées à des pans métiers spécifiques (pour la BI entre autres) soulagent le système d’information : elles se préoccupent de points très spécifiques comme la montée en mémoire des informations très sollicitées.

Caractéristiques : Ces solutions dopent les traitements et opèrent le plus souvent en frontal du SI. Elles regroupent dans une même famille les systèmes de caches distribués (du simple clé-valeur à des modèles plus élaborés) et les bases in-memory qui associent plus étroitement les couches logicielles et matérielles pour des seuils de performance très élevés.

STOCKER

Objectif : Dépasser les limites de stockage, supporter des formats hétérogènes, rationnaliser le coût de possession des données. Les collectes de données peuvent recouvrir des finalités distinctes : Opérationnelles, Business Intelligence ou Archivage.

Caractéristiques : Ces solutions partagent une même ligne directrice de montée en charge horizontale, en multipliant les machines (au travers de ‘clusters’ capable de grandir avec le volume de data généré). Qu’elles soient « bases NoSQL » ou systèmes de fichiers distribués, elles cherchent à offrir une optimisation du triplet ‘Performance, Fiabilité, coût de possession‘. Elles s’accompagnent d’écosystèmes très riches pour communiquer avec le reste du SI.

TRANSFORMER

Objectif : La solution de stockage s’intègre dans une globalité qui nécessite : De pouvoir y placer et récupérer nos données et donc de

s’appuyer sur des solutions d’insertion / extraction haute performance,

De normaliser et croiser les informations qui ont été collectées dans des domaines disjoints,

D’extraire l’information pertinente (qui peut en soi constituer une grande quantité de données) au travers d’outils de haut niveau.

Caractéristiques : Les outils à notre disposition sont variés : des librairies d’interrogation haut-niveau apparentées au SQL (PIG, Hive, Impala…) aux boîtes à outils statistiques (SAS, R) en passant par les modules de Machine Learning qui font émerger des modèles probabilistes en balayant une masse d’informations colossale.

Page 11: Réussir l’intégration du Big Data au cœur du système d’information

Livre blanc Big Data 2014 Copyright Groupe Infotel

11

COMPRENDRE

Objectif : La donnée est cruciale pour la prise de décision. Elle offre de nouvelles opportunités d’interprétation et d’utilisation permettant de prendre de meilleures décisions en temps réduit. Pour cela, on doit être capable de créer son « Google » maison.

Caractéristiques : Sous la bannière de la « compréhension », se retrouvent les moteurs de recherche et d’indexation ainsi que les portails de Business Intelligence. La DataVisualisation permet d’avoir une fenêtre fonctionnelle sur le Big Data. Le dénominateur commun est une indexation de données de très haute capacité, un portefeuille de fonctions de recherche riche, une restitution graphique intuitive et personnalisable.

DÉPLOYER

Objectif : Les solutions évoquées sont capables de fonctionner sur des infrastructures modestes en capacité et en nombre de machines. Néanmoins, elles sont appelées à évoluer et croître avec les données manipulées et la déclinaison des usages. À l’échelle du Big Data, le déploiement et l’intégration de ces solutions doivent être très largement automatisés et offrir tous les outils nécessaires à la gestion de ces nouvelles infrastructures.

Caractéristiques : Que ce soit pour un déploiement sur site ou bien dans le Cloud, ces technologies prennent en charge diverses fonctionnalités : le démarrage et la configuration de nouvelles machines virtuelles, qui viennent s’intégrer à l’existant ; la collecte d’informations techniques sur la consommation des ressources (réseau, puissance, la mémoire) pour prévenir toute défaillance et le cas échéant effectuer des tâches préprogrammées (backup, montée en charge, délestage).

COMMUNIQUER

Objectif : Dynamiser son SI grâce au Big Data, c’est faire circuler la donnée au-delà des frontières de son application ou de son domaine tout en maîtrisant les exigences de performance et d’intégrité. Les solutions de communication tissent les liens entre les briques du SI : ils amortissent de manière fiable les montées en charge et ouvrent par leur modularité des opportunités de redistribution et d’exploitation des données très nombreuses. Caractéristiques : Les solutions présente trois rôles principaux : Les capteurs (ils enregistrent les messages à partir de traces applicatives, bases de données et logs techniques), les intermédiaires qui transportent les informations de manière performante et robuste et les guichets qui pérennisent les messages et les distribuent à tous les clients abonnés.

Page 12: Réussir l’intégration du Big Data au cœur du système d’information

Livre blanc Big Data 2014 Copyright Groupe Infotel

12

Les enseignements tirés des solutions Big Data

1. La diversité des solutions qui nous sont offertes pour chaque problématique. Chacune d’entre elles a été conçue pour un usage très spécifique, il semble naturel de faire correspondre une solution à une problématique du SI donnée.

2. Une approche isolée n’apportera pas de rupture, ni de gains substantiels. Il faut les associer et orchestrer pour maximiser la valeur dégagée.

Cette spécificité va complexifier la gouvernance des architectures. Des acteurs apportent des solutions plus intégrées pour rationaliser les efforts de déploiement et la surveillance.

3. Malgré son rôle central, Hadoop n’est pas indispensable pour une première démarche vers le Big Data. Cependant, pour raisonner à plus grande échelle pour le stockage, le traitement, l’extraction et l’ exploration, il devient incontournable.

Ceci est tempéré par le fait que ces solutions sont conçues pour : la facilité de déploiement, la résilience, la robustesse. Cela se confirme au travers des retours d’expérience : la marche technologique à franchir est loin d’être insurmontable avec de forts retours sur investissement. De plus, les solutions mises en place par les « Géants du Web » ont affronté avec succès l’épreuve des données colossales engendrées par leurs infrastructures et sont aujourd’hui portées par des communautés open-source très actives.

⇨ Les acteurs « Géants du Web » se sont construits autour du logiciel et ont placé au cœur de leur activité la capacité à évoluer de manière agile dans un environnement Big Data. Dans l’entreprise, Architectes Big Data / IT / Métier doivent se rapprocher et s’organiser pour profiter pleinement de ces approches.

Page 13: Réussir l’intégration du Big Data au cœur du système d’information

Livre blanc Big Data 2014 Copyright Groupe Infotel

13

3. LE BIG DATA POUR MON SI

Comment intégrer avec succès le Big Data à mon SI ?

Nous avons parcouru les caractéristiques des solutions Big Data, solutions les plus couramment mises en œuvre. Pourquoi adopter ces solutions ? Quels seraient les bénéfices sur mon SI ? Comment définir et amorcer une stratégie de mise en œuvre ?

Retenons trois points essentiels :

1. Ces solutions se focalisent sur un domaine d’application pour s’y adapter le mieux possible : de manière isolée, à l’échelle d’une application par exemple, elles vont offrir des gains non négligeables (performance, robustesse, richesse de fonctionnalités).

2. Elles sont conçues pour être associées : construire une solution transversale sera encouragée et offrira un vrai levier d’optimisation du SI et d’opportunités métier.

3. Dans un contexte de SI qui inclut très majoritairement une grande profondeur d’historique, la qualité des données existantes est un facteur essentiel de réussite de la stratégie Big Data. Pour pouvoir les mettre en valeur hors du contexte opérationnel, il faut travailler la donnée en amont et faciliter les ponts vers les nouvelles solutions.

À l’échelle du SI

Le SI offre des services que l’on peut catégoriser ainsi :

Les applications en lien direct avec les traitements opérationnels : Production, Supply Chain, Marketing, Présence Internet, Intégration avec « le monde extérieur » (APIs, Acquisition de flux, SAAS) …

Support : CRM, Ressources humaines, Achats,… Business Intelligence : analyse financière, stratégique, marketing, Archivage, Sécurité et PRA.

Objectifs de cette rubrique : ⇨ Identifier les contraintes agissant sur le SI et comment les soulager, ⇨ Choisir une approche globale : comprendre les bénéfices d’une

vision à 360° de la donnée, Adopter les architectures techniques taillées pour le Big Data.

Page 14: Réussir l’intégration du Big Data au cœur du système d’information

Livre blanc Big Data 2014 Copyright Groupe Infotel

14

En voici une représentation non exhaustive de la complexité de gouvernance à l’échelle d’une entreprise :

Les applications métier répondent respectivement aux problématiques suivantes :

- Acquérir des données, interagir en interne et externe, indexer, - Générer de la donnée structurée et non structurée (qui n’est pas nécessairement mise

en valeur, faute d’outils ni de moyens), - Détenir, de façon isolée, chacune une part d’information en offrant parfois des méthodes

sur-mesure de recherche et d’analyse des données « opérationnelles », - Déléguer aux solutions BI souvent peu agiles la consolidation des informations.

Elles s’inscrivent dans une problématique d’industrialisation qui souffre souvent de rigidité

(temps de mise en œuvre, limites physiques qui agissent en véritable carcan) : - Infrastructure, - Stockage, - Sécurité, Pérennité, - Gouvernance en silos.

Page 15: Réussir l’intégration du Big Data au cœur du système d’information

Livre blanc Big Data 2014 Copyright Groupe Infotel

15

À l’échelle d’une application

Si, à l’heure de se confronter à la double contrainte des volumes de données croissants et du raccourcissement des cycles métier (time-to-market), le SI présente des vulnérabilités dans sa globalité, les signes de stress s’observent également à l’échelle de chaque application :

Pour évoluer dans un mode de démultiplication de la donnée et de fortes mouvances, les applications doivent pouvoir présenter les caractéristiques suivantes : Montée en puissance, résistance à la charge, Évolutivité soutenue en ligne avec les cycles métiers, Aptitude à s’intégrer dans un SI lui aussi très changeant, Démultiplication de la donnée brute qui pourra être mise en valeur par des solutions Big Data

dédiées.

Big Data à l’échelle globale et unitaire : comment et où commencer ?

Pour comprendre ce nouveau paradigme, il faut pouvoir répondre à ces 3 questions clés : Comment renforcer les composantes unitaires de mon SI,

- Performance, capacité, fonctionnalités Comment dégager de la richesse transverse ?

- Agrégation, croisement, intelligence artificielle, - De nouvelles applications tournées exclusivement dans l’exploitation de données

Comment construire les futures solutions Métier ? - Elles devront adresser plus de données, moins structurées…. - Plus rapidement…

⇨ Les équipes DSI et métiers disposent des solutions pour mener des projets innovants sans engager des chantiers pharaoniques et risqués.

Page 16: Réussir l’intégration du Big Data au cœur du système d’information

Livre blanc Big Data 2014 Copyright Groupe Infotel

16

4. RETOURS D’EXPÉRIENCE

Cas 1 : Créer une solution d’analyse sémantique à l’échelle du SI

Contexte

Le cas concerne une entreprise dont l’activité repose sur sa capacité à analyser des données très largement issues de documents « libres » et de construire des outils d’aide à la décision : Documents Web dans toute leur diversité d’expression, Bibliothèques documentaires scientifiques, littéraires, etc., Analyse qualitative et quantitative par ses collaborateurs.

L’enjeu est d’amorcer la mutation du SI pour qu’il soit prêt à relever des défis typiquement Big Data : Volume : plus de données, dans des quantités non soutenables avec les solutions actuelles, Variété : la nature même du métier concerné empêche toute normalisation en amont, Vélocité : accélérer la prise de décision en analysant plus vite et continuellement les données

acquises.

Situation de départ

Le Système d’Information est en souffrance sur deux de ses domaines principaux : L’acquisition et la normalisation des données qui doivent mieux exploiter la quantité

croissante de données, La recherche et l’évaluation de documents, dont les outils sont peu évolutifs et coûteux à

maintenir.

Par ailleurs, les choix des solutions doivent intégrer les contraintes opérationnelles suivantes : La capacité à s’intégrer techniquement avec les solutions en place pour assurer le

fonctionnement d’un SI cohérent, Se conformer aux exigences de pérennité de l’information et de continuité de services (et

donc de s’inscrire dans le Plan de Recouvrement d’Activité existant), Accélérer le traitement d’information et la mise à disposition pour les calculs BI par échanges

massifs de données avec le système DB2 en place (LOAD / UNLOAD).

Objectifs de cette rubrique : ⇨ Connaître les leviers à fort retours sur investissement, ⇨ Anticiper les impacts de ce changement sur les équipes Métier et IT, ⇨ Construire une approche incrémentale de cette stratégie au cœur du SI.

Page 17: Réussir l’intégration du Big Data au cœur du système d’information

Livre blanc Big Data 2014 Copyright Groupe Infotel

17

La réponse « Big Data » appliquée :

Les différents projets de dynamisation du SI se sont concrétisés par :

La classification automatique des documents par une solution de Machine Learning, capable de monter en charge sur ses fonctions d’indexation et catégorisation statistique des données,

- Technologies : R. Le passage de certains services en mode SAAS reposant sur des technologies Cloud : encaisser

les pics de charge et rationnaliser les coûts d’infrastructure, - Technologies : VMWare, Zookeeper,RabbitMQ.

L’indexation complémentaire des données normalisées pour offrir l’opportunité de construire des portails innovants (transverses, par ligne « métier », tableaux de bord),

- Technologies : ElasticSearch, D3JS Choix d’une solution NoSQL pour recueillir les données en retenant les critères suivants,

priorisés selon les exigences métier : - Souplesse de requête, - Structure de données « Documentaire », - Robustesse et facilité d’administration, - Intégration avec la ligne technique existante, - Disponibilité du support commercial. - Technologies : MongoDB

Il n’est pas nécessaire d’adopter une stratégie « 100 % Big Data » : l’introduction « chirurgicale » de solutions pour traiter la volumétrie peut garantir à elle seule un fort revenu sur investissement.

Gains observés

Les objectifs d’agilité et de plus grande richesse fonctionnelle ont été atteints. L’association des solutions de stockage et d’indexation requiert une vraie expertise mais permet de profiter au maximum de l’excellence de chaque technologie dans son domaine. Une fois les différentes solutions mises en œuvre, Hadoop est venu se greffer au système pour construire des traitements d’enrichissement des données nécessitant de très fortes capacités de calcul et de stockage. Toute autre solution basée sur l’architecture en place aurait été bien plus coûteuse.

Page 18: Réussir l’intégration du Big Data au cœur du système d’information

Livre blanc Big Data 2014 Copyright Groupe Infotel

18

Cas 2 : Stocker et archiver l’information

Contexte

Ce retour d’expérience provient de différents projets d’archivage menés auprès de grands groupes industriels. Ces groupes doivent proposer une combinaison entre la pérennité de l’information et la rationalisation des coûts de possession sur des volumes toujours plus importants.

Les cycles de gestion et rétention de l’information sont multiples dans l’entreprise. L’archivage est une composante essentielle du patrimoine digital et n’échappe pas à la tendance d’explosion de volumes de données. La déclinaison des capteurs de données sera un facteur d’accélération important de la croissance à venir. De plus, l’archivage doit s’intégrer dans une recherche et une consommation beaucoup plus soutenues des données. Le phénomène « Coffre-Fort numérique ». Par exemple, vous pouvez créer aujourd’hui votre DropBox ou votre Evernote « maison ».

Il faut donc : Choisir une solution capable de monter en charge et atteindre des capacités en ligne avec les

explosions de volume pressenties : adaptée à l’échelle des Peta-Octets (1 Million de Go) Offrir l’accès à l’information de manière optimisée, par extraction de métadonnées, Maintenir les exigences de sécurité, d’interopérabilité et de flexibilité, Supporter des cycles de consommation et recherche d’archives toujours plus nombreux.

Le(s) solutions(s)

Positionner les capteurs auprès des sources de données quelles qu’elles soient dans le SI, Connecter ces capteurs au système d’archivage en garantissant l’acheminement jusqu’à celui-ci, Indexer, enregistrer et pérenniser l’information, Organiser et piloter la montée en capacité du système d’archivage, y compris les couches

dédiées au stockage, Offrir des outils d’exploration.

Figure 3 Exemple de fonctionnement d'Arcsys pour l'archivage du SI

Gains observés

La solution d’archivage suit le rythme d’évolution de la donnée dans l’entreprise en la rendant toujours plus disponible aux applications opérationnelles (consultation, recherche).

Page 19: Réussir l’intégration du Big Data au cœur du système d’information

Livre blanc Big Data 2014 Copyright Groupe Infotel

19

Cas 3 : Affiner la connaissance client - illustration dans le secteur bancaire

Contexte

La banque pour laquelle ce projet a été mené est représentative des évolutions de ce secteur. Aujourd’hui, les banques décloisonnent les activités historiques de tenue de compte et de crédit et démultiplient les canaux d’accès aux produits bancaires.

Historiquement centrée sur les produits bancaires consommés entre l’agence et web, la relation client se développe aujourd’hui sur mobile et tablettes, au travers d’offres largement déclinées (Banque en ligne, Crédits à la consommation, produits d’assurance) qui sont parfois portées par des partenaires ou filiales (Distribution, e-Commerce, Location de véhicules). Le Système d’Information a dû se conformer à ces nouvelles déclinaisons du métier. Sur la base de d’observations auprès des clients, la solution au cœur de la connaissance client est analogue à la représentation suivante, concentrant les informations du SI mais également les flux extérieurs :

La solution pivot a en charge l’acquisition, la transformation et la normalisation de la donnée client. Elle supporte également le partage de l’information ainsi valorisée avec le reste du Système d’Informations. Au vu de cette situation saturée, comment peuvent être appréhendé avec confiance les futurs enjeux du métier ?

À titre d’exemples : Croisement des données avec les offres d’assurance, leasing, etc. Compréhension des nouveaux comportements d’achat avec les offres de paiement par mobile, Connaissance enrichie du client par intégration des données issues des réseaux sociaux, des

partenaires et autres acteurs (open data) qui alimenteront le SI de données non structurées, Analyse cross-canal avancée au travers d’outils de restitutions réactifs, Mise en place d’un modèle prédictif par une analyse statistique à 360°.

Page 20: Réussir l’intégration du Big Data au cœur du système d’information

Livre blanc Big Data 2014 Copyright Groupe Infotel

20

1ère étape : Soulager le point névralgique, notre chaîne de transformation

Objectif : Sans bousculer l’architecture en place, la première approche, basée sur Hadoop, apporte une capacité de stockage et de traitement de l’information qui repousse les limites de l’existant en offrant immédiatement des services à valeur ajoutée (mais encore isolés).

Principes :

Les étapes sont les suivantes :

Mise en place et configuration du cluster Hadoop. Ceci inclut le choix des technologies connexes qui entreront en jeu (HBASE pour structurer les données, Sqoop pour l’intégration avec les bases de données relationnelles, DB2 Fast Unload pour l’alimentation depuis le Mainframe, Pig et/ou Hive pour manipuler les données,…)

Création d’outils de haut niveau à partir de PIG / Hive pour offrir des actions prêtes à l’emploi et exécutables : ces batchs entrent dans la chaîne de traitement de notre application de connaissance client,

Montée en capacité du cluster de 6 à 10 puis 20 nœuds dans un premier temps, en rationnalisant les aspects d’infrastructures,

Création des flux vers l’extérieur (DataMart, Applications, Partenaires) en remplacement ou en complément de l’existant.

Gains observés :

La vitesse de production des extractions et consolidations est largement améliorée, Les coûts engendrés liés à la consommation sur le système z/Os sont minimisés, La multiplication des usages est encouragée par cette plus grande disponibilité de la plateforme. Nous constatons que la mise en condition opérationnelle du premier périmètre est rapide (<3

mois).

Page 21: Réussir l’intégration du Big Data au cœur du système d’information

Livre blanc Big Data 2014 Copyright Groupe Infotel

21

2ème étape : Déployer et compléter l’offre

Conclusion de la 1ère étape :

La solution est stabilisée et opérationnelle. Elle offre des facilités de travail de la donnée mais reste encore limitée dans son périmètre d’application.

Principes :

Faire entrer les sources de données non cartographiées initialement (ex : base de connaissance du domaine « Assurance », Collecte Web Analytique, Données des réseaux Sociaux),

Harmoniser le formalisme de stockage pour favoriser les usages ultérieurs et notamment la création de tableaux de bords sur toute métrique,

Doper nos applications pour plus de performances et plus de collecte de données (bases NoSQL, Solutions de Cache),

Inclure les solutions de visualisation des données (prédéfinies ou largement paramétrables), Accroître le nombre et la variété des flux de données en sortie.

Gains observés : La connaissance client est améliorée, étendue à des domaines jusqu’à présent cloisonnés, L’intégration de données externes enrichit le modèle initial, Les applications sont optimisées et préparées pour générer plus de données qui sont mieux

traitées, avec des capacités largement repoussées, Les directions métiers disposent de premières fenêtres sur leur Big Data et peuvent élaborer de

nouveaux modèles de compréhension grâce à une vaste panoplie d’indicateurs composables : segments, corrélations, tendances, simulations.

Page 22: Réussir l’intégration du Big Data au cœur du système d’information

Livre blanc Big Data 2014 Copyright Groupe Infotel

22

3ème étape : manipuler la donnée, la très grande donnée !

Objectif :

Une collecte de la donnée à grande échelle est organisée et mise en œuvre. Elle offre des opportunités de recomposition et d’analyse ambitieuses. Principes :

Adosser une solution « Machine Learning » qui identifiera des modèles statistiques de connaissance du client en brassant des données hétérogènes : les moteurs de recommandations donnent une couleur prédictive à ces analyses,

Introduire un moteur d’indexation sur lequel se construisent des indicateurs et des portails métiers personnalisés,

Démultiplier les capteurs et donc les mesures possibles (Géolocalisation et Heure, Niveau d’influence d’un client dans les réseaux sociaux) qui opéreront à terme comme un réseau de neurones dans le Système d’Information.

Gains observés :

Une connaissance approfondie des clients, L’établissement d’un modèle pensé pour la prédiction, L’ouverture vers des nouveaux usages. L’architecture est agnostique quant au métier ciblé et

elle devient polyvalente, Un raccourcissement drastique de la mise à disposition de la donnée pour l’activité de Business

Intelligence, L’entreprise se projette vers un désengagement progressif du Mainframe.

⇨ Cet exemple dans le monde bancaire peut trouver son analogie dans l’industrie sur la détection préventive de panne. L’approche sera alors de croiser les informations issues des bases de connaissances de l’incidentologie, les signaux des capteurs embarqués, l’analyse des comportements de conduite, les données issues des révisions en garage, les conditions météorologiques et ceci à des échelles encore inenvisageables.

⇨ Constat : Cette stratégie de mutation vers le Big Data est représentative des enjeux et démarche à entreprendre. Chaque entreprise ajustera selon ses priorités et selon les caractéristiques de son système d’Information. Par exemple, l’ordre d’adoption et de propagation des solutions évoquées est susceptible de changer. De plus, tous les systèmes d’information n’adopteront pas nécessairement l’exhaustivité du panel évoqué.

Page 23: Réussir l’intégration du Big Data au cœur du système d’information

Livre blanc Big Data 2014 Copyright Groupe Infotel

23

CONCLUSION

Quelle démarche pour placer le Big Data au cœur de son SI ?

Au travers d’illustrations concrètes de mise en œuvre, nous percevons les promesses offertes par les nouvelles technologies dites « Big Data » mais également les dispositions à prendre pour faire fructifier les données encore inexploitées dans les Systèmes d’Information.

Nous conseillons tout d’abord de cartographier les activités pour lesquelles la démarche devient prioritaire : elles peuvent être « métier », comme la détection de fraude qui agrège les données transverses du SI, ou bien « techniques » pour surmonter les limites physiques d’une architecture non préparée à l’explosion des volumes de données.

Il s’agit ensuite d’aligner ces chantiers avec la gouvernance du Système d’Information dont l’équilibre ne doit pas être compromis. Cela concerne :

La communication sur une vision globale de la donnée et de son exploitation, Le choix des solutions et leur aptitude à délivrer de la valeur et à s’interfacer avec l’existant, L’acquisition des compétences (Logiciel, Réseau, Infrastructure, Statistique) : former ses

collaborateurs, faire appel à des experts Big Data, La conduite du changement : cette rupture dans les schémas établis nécessite que les

intervenants métiers et IT soient mobilisés sur les évolutions en cours ou à mener, L’intégrité des données, les règles de confidentialités et la sécurité d’accès.

Nous produisons chaque jour toujours plus d’informations. Il est essentiel de savoir les capter, les pérenniser et les exploiter. Les projets Big Data répondent à cette nécessité des entreprises. Même s’ils sont dans un premier temps modestes, en volume ou en périmètre fonctionnel, ils promettent de rendre des services inestimables. Aujourd’hui, l’enjeu est de choisir les projets grâce auxquels vous allez booster votre Système d’Information.

Découvrez l’offre « Big Data 360 »

d’Infotel

Page 24: Réussir l’intégration du Big Data au cœur du système d’information

Livre blanc Big Data 2014 Copyright Groupe Infotel

24

À PROPOS D’INFOTEL Infotel est le partenaire stratégique des grands comptes dans la gestion de leur capital « données » et l’adaptation continue de leur système d’information. Société de conseil, de services numériques de pointe et un éditeur mondial de logiciels, Infotel a développé un savoir-faire reconnu dans la gestion des très grands volumes de données. Grâce à son double savoir-faire Services/Logiciels articulé autour des bases de données, le Groupe maîtrise les évolutions technologiques et développe une offre complète de prestations de service associée à une gamme de logiciels performants. Au cœur des métiers des clients, les experts d’Infotel mettent en place des applications stratégiques à forte valeur ajoutée et proposent des solutions sur mesure.

Avec 142,7 M€ de chiffre d’affaires et une croissance de plus de 6 % pour l’année 2013, Infotel a su progresser dans un contexte défavorable pour les sociétés informatiques. En se donnant des objectifs forts pour 2016 et en s’appuyant sur la mobilité et le Big Data comme leviers de croissance, le Groupe entend poursuivre sa stratégie de développement à l’international.

Page 25: Réussir l’intégration du Big Data au cœur du système d’information

Livre blanc Big Data 2014 Copyright Groupe Infotel

25

GLOSSAIRE

API : Interface de programmation ; expose un service ou un traitement informatique avec une définition haut niveau qui en cache la complexité en favorisant la réutilisation et la combinaison. Appliance : Serveur regroupant de manière optimisée les éléments logiciels et matériel pour adresser un besoin particulier (pour la Business Intelligence, pour la sécurité). Son évolutivité nécessite l’intervention du constructeur. B2B : Business To Business. Relation ou échange entre entreprises. B2C : Business To Consumer (ou Customer). Relation entre l’entreprise et le client (dans le sens d’individu) ; « Des entreprises aux particuliers ». Cloud : en informatique, ressources de stockage et de puissance de calcul qui ne sont pas figées dans des frontières techniques parfaitement définies (localisation, montée en puissance). CRM : « Customer Relationship Manager », outil de gestion de la relation client. DataMart : regroupement structuré de données à des fins d’analyse métier, souvent entreposé dans une base relationnelle, et ciblant un domaine précis (par opposition au datawarehouse). Hadoop : logiciel open-source basé sur le principe de MapReduce. Il est basé sur le système de fichier distribué HDFS et exploite sa capacité à se répartir sur un très grand nombre de serveurs pour exécuter des traitements d’exploration et transformation de très grands volumes de données. Machine Learning : ou « Apprentissage Automatique » ; domaine logiciel basé sur la combinaison de modèles statistiques, de règles de comportements et d’apprentissage sur des données poussées dans le système pour en améliorer la connaissance et offrir des modèles de compréhension. MapReduce : algorithme popularisé par Google schématiquement basé sur le principe de « Diviser le travail puis Agréger les résultats obtenus unitairement ». NoSQL : Not-only SQL. Solutions qui se différencient du SQL et des bases de données relationnelles en ne supportant pas toutes les contraintes de cohérence et d’unicité pour favoriser la performance, la capacité à monter en charge ou à supporter des données très hétérogènes … SOA : Software Oriented Architecture ; Principe de conception logicielle qui favorise la réalisation d’applications qui exposent et consomment des services applicatifs pour encourager la réutilisation et la souplesse au sein d’un système d’information. SAAS : « Logiciel en tant que Service ». Mode d’utilisation d’un logiciel qui s’effectue par connexion à un service ou une installation distante. La facturation est liée à un abonnement basé sur le niveau de sollicitation du service. Time-To-Market : temps de mise sur le marché d’un produit ou d’un service calculé à partir du lancement du projet. Les marques, services ou produits cités dans ce document sont la propriété exclusive de leurs auteurs et ayant droits. Google Maps : service de cartographie de la société Google (http://www.google.com/) OpenStreetMap : service de cartographie de l’association OpenStreetMap (http://openstreetmap.fr/) Kodak : marque de la société Eastman Kodak Co. Blackberry : marque de la société Blackberry (ex RIM) Uber : service de voiture de tourisme avec chauffeur disponible sur téléphone mobile intelligent. SNCF : entreprise publique française opérant dans le transport ferroviaire Amazon : entreprise de commerce électronique américaine basée à Seattle BitCoin : Bitcoin est une monnaie électronique distribuée (crypto-monnaie). Elle permet le transfert d'unités appelées bitcoins à travers le réseau Internet Square : Système de paiement par carte bancaire fonctionnant par branchement d’un périphérique dédié sur mobile. Hadoop : framework Java libre destiné à faciliter la création d'applications distribuées et échelonnables (scalables) MongoDB : système de gestion de base de données orientée documents, répartissable sur un nombre quelconque d'ordinateurs, efficace pour les requêtes simples, et ne nécessitant pas de schéma prédéfini des données. ElasticSearch : moteur de recherche libre (open source) basé sur Apache Lucene.

Page 26: Réussir l’intégration du Big Data au cœur du système d’information

Livre blanc Big Data 2014 Copyright Groupe Infotel

26

D3JS : bibliothèque graphique JavaScript qui permet l'affichage de données numériques sous une forme graphique et dynamique. VMWare : société informatique américaine fondée en 1998, filiale d'EMC Corporation depuis 2004, qui propose plusieurs produits propriétaires liés à la virtualisation d'architectures x86. Zookeeper : Service de configuration et de synchronisation automatique de serveurs opérant dans un cluster. RabbitMQ : Système de gestion de file messages construit pour la robustesse et la performance, basé sur la mise en relation de Producteurs et Consommateurs. R : Solution d’analyse statistique comprenant le langage R ainsi que l’environnement de développement dont les versions commerciales sont supportées par RevolutionAnalytics.

CONTRIBUTEURS

Michel KOUTCHOUK – Directeur Général d’Infotel

Hubert STEFANI - Responsable Offres et Innovation

Laurent FRASNAY –Direction technique – Architecte Big Data

Stéphane NOTTER –Direction technique – Expert Architecture et Performance des données

Cynthia FLAMANT – Chargée de communication - Conception et coordination

PLUS D’INFORMATIONS

Ce livre blanc vous est proposé par la société Infotel. Ce document est non contractuel. ©2014 Infotel. Tous droits réservés.

Contact :

[email protected] http://www.infotel.com http://blogdesexperts.infotel.com https://twitter.com/Infotel_ https://www.facebook.com/groupeInfotel