Quel hadoop (#quelhadoop)

  • Published on
    29-Nov-2014

  • View
    341

  • Download
    2

Embed Size (px)

DESCRIPTION

http://quelhadoop.com - vnement organis par Ysance en collaboration avec MAPR

Transcript

<ul><li> 1. Quel Hadoop ? Jeudi 12 Juin 2014 </li> <li> 2. 2 Agenda 1. Voyage au pays du Big Data Linitiative Big Data Chez Cdiscount 2. Et pourquoi pas muscler la plateforme BI Legacy ? V+V+V = CPU+RAM+IO ? 3. Choisir sa distribution Hadoop ! Comment le choix MAPR sest impos 4. Et si ctait refaire ? REX aprs 1 an en oprations </li> <li> 3. 3 Du POC la ralit PROJET STAFFING (DSI) INFRA PHASE 1 POC PHASE 2 Adoption de la technologie PHASE 3 Passage lchelle Q1 2013 Q2 2013 Q3 2013 Q4 2013 Q1 2014 Q2 2014 Plateforme MAPR (M3) Plateforme HD-INSIGHT Plateforme MAPR (M3) 3 puis 4 et enfin 6 Noeuds MAPR (M3) Plateforme MAPR (M3) Plateforme MAPR (M5) 3 Personnes Ddies Accompagnement par Dataiku 10 personnes pour assurer les dveloppements 3 Personnes pour ladministration de la plateforme Accompagnement continu (Dataiku, Ysance et MAPR) 2 projets dploys (1 par POC) Dploiement progressif dune quinzaine de projets, concernant le marketing, la rgie pub, les achats, la logistique, et bien sr le site avec de la personnalisation </li> <li> 4. 4 Focus Architecture Technologies mises en oeuvre Log Files BizData (customers, orders, products, offers, ) Website Personalization Data Sharing (partners) Logistic Analytics Reporting &amp; Data Sharing (customers) BI </li> <li> 5. 5 Agenda 1. Voyage au pays du Big Data Linitiative Big Data Chez Cdiscount 2. Et pourquoi pas muscler la plateforme BI Legacy ? V+V+V = CPU+RAM+IO ? 3. Choisir sa distribution Hadoop ! Comment le choix MAPR sest impos 4. Et si ctait refaire ? REX aprs 1 an en oprations </li> <li> 6. 6 Le premier V : Volume Impact de laugmentation des volumes HW HW HW Laugmentation exponentielle du TCO limite la capacit des systmes traditionnels grer de gros volumes de donnes </li> <li> 7. 7 Le second V : Velocity Ncessit dacclrer la mise disposition des analyses HW SW HW HW Laugmentation exponentielle du TCO limite la capacit des systmes traditionnels grer des performances accrue (Scale-Up only) </li> <li> 8. 8 Le troisime V : Variety Opportunit de traiter des sources de donnes htrognes HW SW HW HW HW Laugmentation exponentielle du TCO limite la capacit des systmes traditionnels grer des donnes non structures </li> <li> 9. 9 Le choix dHadoop Volume, Velocity, Variety Les systmes traditionnels peuvent jusqu un certain point rpondre ces enjeux Nous avons travaill cette voie avec des acclrateurs dinfrastructure sur du dcisionnel classique pour donner le temps linitiative BigData dmerger tout en continuant de rpondre aux enjeux mtier court terme Le choix dHadoop Plusieurs diteurs ont mis sur le march des solutions de BI en scale-out (Parralel DWH chez Microsoft par exemple), faisant passer le TCO dun modle exponentiel vers un modle linaire Mais seules les solutions construites sur le Framework Hadoop associes du Commodity Hardware permettent de rendre le TCO asymptotique. De nouveaux horizons La rupture technologique apporte par ce genre de solutions permet aux DSI douvrir de nouveaux horizons lensemble de nos business line (et pas seulement aux data-scientist des quipes marketing) </li> <li> 10. 10 Agenda 1. Voyage au pays du Big Data Linitiative Big Data Chez Cdiscount 2. Et pourquoi pas muscler la plateforme BI Legacy ? V+V+V = CPU+RAM+IO ? 3. Choisir sa distribution Hadoop ! Comment le choix MAPR sest impos 4. Et si ctait refaire ? REX aprs 1 an en oprations </li> <li> 11. 11 Hadoop : Les trois alternatives Construire sa propre distribution sur la base du Framework Lensemble des composants du projet Apache Hadoop sont open-source Construire sa propre distribution permet de disposer des dernires fonctionnalits publies par la communaut Ncessite davoir des quipes rompues lintgration de softwares open-source Choisir une des trois distributions majeures Trois distribution se partagent le march (MAPR, Cloudera et HortonWorks) Ces distributions garantissent pour une version donne lintgration de lensemble des composants du framework Hadoop (MapReduce, Zookeeper, Hbase, Hive, Pig, ) Ces trois distribution contribuent de manire importante au projet Apache Hadoop Ces trois distributions sont lorigine de nombreuses amliorations du Framework Choisir une solution intgre (Package) Ces solutions se basent souvent sur une des trois distributions prcdentes Elles apportent une intgration avance avec linfrastructure En mode Cloud : HD-Insight, Elastic Map Reduce En mode OnPremise : Pivotal, IBM InfoSphere BigInsights, Oracle, Microsoft, SAP </li> <li> 12. 12 Hadoop : Les critres de choix Notre Enjeu Majeur Haute-disponibilit et performance des systmes : par construction, HDFS, bien que permettant de faire du scale-out, a un gros point faible (le name-node) Les problmatiques nouvelles Backup et PRA : Le volume de donnes consquent ne permet pas daborder la scurisation des donnes avec les mthodes traditionnelles Administration des systmes : au dmarrage de linitiative BigData, 95% des systmes (un millier dinstances de serveurs) exploits taient des systmes windows. Les quipes Cdiscount ne sont donc pas rompues ladministration des systmes linux et encore moins avec des systmes de fichier non-POSIX (comme HDFS) </li> <li> 13. 13 Hadoop : notre choix MAPRFS Dpasse les contraintes de contention et de haute disponibilit du name-node dHDFS Systme de fichier Full POSIX simplifiant ladministration des systmes (commandes linux usuelles) Accessibilit du filesystem en NFS (simplification des taches de maintenance sur les donnes : migration, copie darchive, ) Haute Disponibilit Rplication native sur un second cluster (OnPremise ou dans le Cloud) Gestion de bascule du service sur le rplicat Capacit faire des snapshots pour du fast-recovery Mais aussi Une intgration propre avec lETL Talend Un dashboard de mtrologie et supervision permettant aux dveloppeurs davoir un bon niveau dinformation sur ltat du cluster Une roadmap produit mettant en avant des enjeux qui nous parlent (Haute-dispo, performance et temps-rel) </li> <li> 14. 14 Agenda 1. Voyage au pays du Big Data Linitiative Big Data Chez Cdiscount 2. Et pourquoi pas muscler la plateforme BI Legacy ? V+V+V = CPU+RAM+IO ? 3. Choisir sa distribution Hadoop ! Comment le choix MAPR sest impos 4. Et si ctait refaire ? REX aprs 1 an en oprations </li> <li> 15. 15 Linitiative BigData aprs un an Les plus Le ROI de la plateforme est suprieur aux attentes Le dploiement de nouveaux primtres a t plus rapide que prvu La capacit de manipuler les donnes via NFS est un vrai plus pour les oprations de maintenance (migration, recopie denvironnement, ) La plateforme dispose dun PRA (ce qui nest pas le cas de notre plateforme dcisionnelle traditionnelle) Les Moins Le rapatriement de la plateforme OnPremise aurait du tre acclr en regard de lacclration des dploiements de projets business Malgr le choix dune distribution rpute facile administrer, le manque de maitrise technique de nos quipes (environnements linux) rend la gestion dincident relativement complexe </li> <li> 16. 16 Les prochaines tapes Temps Rel Se donner la capacit personnaliser la navigation sur des chelles de temps rduite (au sein mme dune session de navigation) Se donner la capacit de mesurer lefficacit de nos mises en avant produit sur des chelles de temps rduites ( lheure prs vs J+1 aujourdhui) Evaluation de Shark &amp; Spark Calculs complexes &amp; Machine Learning Affiner le matching entre nos segments clients et produits pour amliorer la performance des recommandations produits Mcaniques dlasticit des prix (en fonction des ventes, du stock, de la concurrence, ) Gestion des risques et dtection de la fraude Mcaniques de prvision destination de la logistique et de nos vendeurs Marketplace Industrialisation du produit Dataplatform by Cdiscount Accompagner linternationalisation de la plateforme E-commerce (6 pays fin juin 2014, objectif 20 pays dici 2016) avec un produit Dataplatform packag Normalisation des entres/sortie </li> <li> 17. Questions / Rponses </li> </ul>

Recommended

View more >