http://quelhadoop.com - événement organisé par Ysance en collaboration avec MAPR
Text of Quel hadoop (#quelhadoop)
1. Quel Hadoop ? Jeudi 12 Juin 2014
2. 2 Agenda 1. Voyage au pays du Big Data Linitiative Big Data
Chez Cdiscount 2. Et pourquoi pas muscler la plateforme BI Legacy ?
V+V+V = CPU+RAM+IO ? 3. Choisir sa distribution Hadoop ! Comment le
choix MAPR sest impos 4. Et si ctait refaire ? REX aprs 1 an en
oprations
3. 3 Du POC la ralit PROJET STAFFING (DSI) INFRA PHASE 1 POC
PHASE 2 Adoption de la technologie PHASE 3 Passage lchelle Q1 2013
Q2 2013 Q3 2013 Q4 2013 Q1 2014 Q2 2014 Plateforme MAPR (M3)
Plateforme HD-INSIGHT Plateforme MAPR (M3) 3 puis 4 et enfin 6
Noeuds MAPR (M3) Plateforme MAPR (M3) Plateforme MAPR (M5) 3
Personnes Ddies Accompagnement par Dataiku 10 personnes pour
assurer les dveloppements 3 Personnes pour ladministration de la
plateforme Accompagnement continu (Dataiku, Ysance et MAPR) 2
projets dploys (1 par POC) Dploiement progressif dune quinzaine de
projets, concernant le marketing, la rgie pub, les achats, la
logistique, et bien sr le site avec de la personnalisation
4. 4 Focus Architecture Technologies mises en oeuvre Log Files
BizData (customers, orders, products, offers, ) Website
Personalization Data Sharing (partners) Logistic Analytics
Reporting & Data Sharing (customers) BI
5. 5 Agenda 1. Voyage au pays du Big Data Linitiative Big Data
Chez Cdiscount 2. Et pourquoi pas muscler la plateforme BI Legacy ?
V+V+V = CPU+RAM+IO ? 3. Choisir sa distribution Hadoop ! Comment le
choix MAPR sest impos 4. Et si ctait refaire ? REX aprs 1 an en
oprations
6. 6 Le premier V : Volume Impact de laugmentation des volumes
HW HW HW Laugmentation exponentielle du TCO limite la capacit des
systmes traditionnels grer de gros volumes de donnes
7. 7 Le second V : Velocity Ncessit dacclrer la mise
disposition des analyses HW SW HW HW Laugmentation exponentielle du
TCO limite la capacit des systmes traditionnels grer des
performances accrue (Scale-Up only)
8. 8 Le troisime V : Variety Opportunit de traiter des sources
de donnes htrognes HW SW HW HW HW Laugmentation exponentielle du
TCO limite la capacit des systmes traditionnels grer des donnes non
structures
9. 9 Le choix dHadoop Volume, Velocity, Variety Les systmes
traditionnels peuvent jusqu un certain point rpondre ces enjeux
Nous avons travaill cette voie avec des acclrateurs dinfrastructure
sur du dcisionnel classique pour donner le temps linitiative
BigData dmerger tout en continuant de rpondre aux enjeux mtier
court terme Le choix dHadoop Plusieurs diteurs ont mis sur le march
des solutions de BI en scale-out (Parralel DWH chez Microsoft par
exemple), faisant passer le TCO dun modle exponentiel vers un modle
linaire Mais seules les solutions construites sur le Framework
Hadoop associes du Commodity Hardware permettent de rendre le TCO
asymptotique. De nouveaux horizons La rupture technologique apporte
par ce genre de solutions permet aux DSI douvrir de nouveaux
horizons lensemble de nos business line (et pas seulement aux
data-scientist des quipes marketing)
10. 10 Agenda 1. Voyage au pays du Big Data Linitiative Big
Data Chez Cdiscount 2. Et pourquoi pas muscler la plateforme BI
Legacy ? V+V+V = CPU+RAM+IO ? 3. Choisir sa distribution Hadoop !
Comment le choix MAPR sest impos 4. Et si ctait refaire ? REX aprs
1 an en oprations
11. 11 Hadoop : Les trois alternatives Construire sa propre
distribution sur la base du Framework Lensemble des composants du
projet Apache Hadoop sont open-source Construire sa propre
distribution permet de disposer des dernires fonctionnalits publies
par la communaut Ncessite davoir des quipes rompues lintgration de
softwares open-source Choisir une des trois distributions majeures
Trois distribution se partagent le march (MAPR, Cloudera et
HortonWorks) Ces distributions garantissent pour une version donne
lintgration de lensemble des composants du framework Hadoop
(MapReduce, Zookeeper, Hbase, Hive, Pig, ) Ces trois distribution
contribuent de manire importante au projet Apache Hadoop Ces trois
distributions sont lorigine de nombreuses amliorations du Framework
Choisir une solution intgre (Package) Ces solutions se basent
souvent sur une des trois distributions prcdentes Elles apportent
une intgration avance avec linfrastructure En mode Cloud :
HD-Insight, Elastic Map Reduce En mode OnPremise : Pivotal, IBM
InfoSphere BigInsights, Oracle, Microsoft, SAP
12. 12 Hadoop : Les critres de choix Notre Enjeu Majeur
Haute-disponibilit et performance des systmes : par construction,
HDFS, bien que permettant de faire du scale-out, a un gros point
faible (le name-node) Les problmatiques nouvelles Backup et PRA :
Le volume de donnes consquent ne permet pas daborder la scurisation
des donnes avec les mthodes traditionnelles Administration des
systmes : au dmarrage de linitiative BigData, 95% des systmes (un
millier dinstances de serveurs) exploits taient des systmes
windows. Les quipes Cdiscount ne sont donc pas rompues
ladministration des systmes linux et encore moins avec des systmes
de fichier non-POSIX (comme HDFS)
13. 13 Hadoop : notre choix MAPRFS Dpasse les contraintes de
contention et de haute disponibilit du name-node dHDFS Systme de
fichier Full POSIX simplifiant ladministration des systmes
(commandes linux usuelles) Accessibilit du filesystem en NFS
(simplification des taches de maintenance sur les donnes :
migration, copie darchive, ) Haute Disponibilit Rplication native
sur un second cluster (OnPremise ou dans le Cloud) Gestion de
bascule du service sur le rplicat Capacit faire des snapshots pour
du fast-recovery Mais aussi Une intgration propre avec lETL Talend
Un dashboard de mtrologie et supervision permettant aux dveloppeurs
davoir un bon niveau dinformation sur ltat du cluster Une roadmap
produit mettant en avant des enjeux qui nous parlent (Haute-dispo,
performance et temps-rel)
14. 14 Agenda 1. Voyage au pays du Big Data Linitiative Big
Data Chez Cdiscount 2. Et pourquoi pas muscler la plateforme BI
Legacy ? V+V+V = CPU+RAM+IO ? 3. Choisir sa distribution Hadoop !
Comment le choix MAPR sest impos 4. Et si ctait refaire ? REX aprs
1 an en oprations
15. 15 Linitiative BigData aprs un an Les plus Le ROI de la
plateforme est suprieur aux attentes Le dploiement de nouveaux
primtres a t plus rapide que prvu La capacit de manipuler les
donnes via NFS est un vrai plus pour les oprations de maintenance
(migration, recopie denvironnement, ) La plateforme dispose dun PRA
(ce qui nest pas le cas de notre plateforme dcisionnelle
traditionnelle) Les Moins Le rapatriement de la plateforme
OnPremise aurait du tre acclr en regard de lacclration des
dploiements de projets business Malgr le choix dune distribution
rpute facile administrer, le manque de maitrise technique de nos
quipes (environnements linux) rend la gestion dincident
relativement complexe
16. 16 Les prochaines tapes Temps Rel Se donner la capacit
personnaliser la navigation sur des chelles de temps rduite (au
sein mme dune session de navigation) Se donner la capacit de
mesurer lefficacit de nos mises en avant produit sur des chelles de
temps rduites ( lheure prs vs J+1 aujourdhui) Evaluation de Shark
& Spark Calculs complexes & Machine Learning Affiner le
matching entre nos segments clients et produits pour amliorer la
performance des recommandations produits Mcaniques dlasticit des
prix (en fonction des ventes, du stock, de la concurrence, )
Gestion des risques et dtection de la fraude Mcaniques de prvision
destination de la logistique et de nos vendeurs Marketplace
Industrialisation du produit Dataplatform by Cdiscount Accompagner
linternationalisation de la plateforme E-commerce (6 pays fin juin
2014, objectif 20 pays dici 2016) avec un produit Dataplatform
packag Normalisation des entres/sortie