Quel hadoop (#quelhadoop)

Quel Hadoop ?

Jeudi 12 Juin 2014

2

Agenda

1. Voyage au pays du Big Data L’initiative Big Data Chez Cdiscount

2. Et pourquoi pas muscler la plateforme BI Legacy ? V+V+V = CPU+RAM+IO ?

3. Choisir sa distribution Hadoop ! Comment le choix MAPR s’est imposé

4. Et si c’était à refaire ? REX après 1 an en opérations

3

Du POC à la réalitéIN

FRA

STAF

FIN

G (D

SI)

PRO

JET

Q1 2013 Q2 2013 Q3 2013 Q4 2013 Q1 2014 Q2 2014

PHASE 1POC

PHASE 2Adoption de la technologie

PHASE 3Passage à l’échelle

Plateforme MAPR (M3)

Plateforme HD-INSIGHT

Plateforme MAPR (M3)3 puis 4 et enfin 6 Noeuds MAPR (M3)



3 Personnes Dédiées

Accompagnement par Dataiku

10 personnes pour assurer les développements

3 Personnes pour l’administration de la plateforme

Accompagnement continu (Dataiku, Ysance et MAPR)

2 projets déployés(1 par POC)

Déploiement progressif d’une quinzaine de projets, concernant le marketing, la régie pub, les achats, la logistique, … et bien sûr le site avec de la personnalisation

4

Focus ArchitectureTechnologies mises en œuvre

Log Files

BizData(customers, orders, products, offers, …)

WebsitePersonalization

Data Sharing(partners)

LogisticAnalytics

Reporting & Data Sharing (customers)

BI

5

Agenda





6

Le premier V : VolumeImpact de l’augmentation des volumes

HW

HW

HW

L’augmentation exponentielle du TCO limite la capacité des systèmes traditionnels à gérer de gros volumes de données

7

Le second V : VelocityNécessité d’accélérer la mise à disposition des analyses

HW

HW

HW

L’augmentation exponentielle du TCO limite la capacité des systèmes traditionnels à gérer des performances accrue (Scale-Up only)

SW

8

Le troisième V : VarietyOpportunité de traiter des sources de données hétérogènes

HW

HW

HW

L’augmentation exponentielle du TCO limite la capacité des systèmes traditionnels à gérer des données non structurées

SW

HW

9

Le choix d’Hadoop

Volume, Velocity, Variety– Les systèmes traditionnels peuvent jusqu’à un certain point répondre à ces enjeux– Nous avons travaillé cette voie avec des accélérateurs d’infrastructure sur du décisionnel

classique pour donner le temps à l’initiative BigData d’émerger tout en continuant de répondre aux enjeux métier court terme

Le choix d’Hadoop– Plusieurs éditeurs ont mis sur le marché des solutions de BI en scale-out (Parralel DWH

chez Microsoft par exemple), faisant passer le TCO d’un modèle exponentiel vers un modèle linéaire …

– … Mais seules les solutions construites sur le Framework Hadoop associées à du « Commodity Hardware » permettent de rendre le TCO asymptotique.

De nouveaux horizons– La rupture technologique apportée par ce genre de solutions permet aux DSI d’ouvrir de

nouveaux horizons à l’ensemble de nos business line (et pas seulement aux data-scientist des équipes marketing)

10

Agenda





11

Hadoop : Les trois alternatives

Construire sa propre « distribution » sur la base du Framework– L’ensemble des composants du projet Apache Hadoop sont open-source– Construire sa propre distribution permet de disposer des dernières fonctionnalités

publiées par la communauté– Nécessite d’avoir des équipes rompues à l’intégration de softwares open-source

Choisir une des trois distributions majeures– Trois distribution se partagent le marché (MAPR, Cloudera et HortonWorks)– Ces distributions garantissent pour une version donnée l’intégration de l’ensemble des

composants du framework Hadoop (MapReduce, Zookeeper, Hbase, Hive, Pig, …)– Ces trois distribution contribuent de manière importante au projet Apache Hadoop– Ces trois distributions sont à l’origine de nombreuses améliorations du Framework

Choisir une solution intégrée (Package)– Ces solutions se basent souvent sur une des trois distributions précédentes– Elles apportent une intégration avancée avec l’infrastructure– En mode Cloud : HD-Insight, Elastic Map Reduce– En mode OnPremise : Pivotal, IBM InfoSphere BigInsights, Oracle, Microsoft, SAP

12

Hadoop : Les critères de choix

Notre Enjeu Majeur– Haute-disponibilité et performance des systèmes : par construction, HDFS, bien que

permettant de faire du scale-out, a un gros point faible (le name-node)

Les problématiques nouvelles– Backup et PRA : Le volume de données conséquent ne permet pas d’aborder la

sécurisation des données avec les méthodes traditionnelles

– Administration des systèmes : au démarrage de l’initiative BigData, 95% des systèmes (un millier d’instances de serveurs) exploités étaient des systèmes windows. Les équipes Cdiscount ne sont donc pas rompues à l’administration des systèmes linux et encore moins avec des systèmes de fichier non-POSIX (comme HDFS)

13

Hadoop : notre choix

MAPRFS– Dépasse les contraintes de contention et de haute disponibilité du name-node d’HDFS– Système de fichier Full POSIX simplifiant l’administration des systèmes (commandes linux

usuelles)– Accessibilité du filesystem en NFS (simplification des taches de maintenance sur les

données : migration, copie d’archive, …)

Haute Disponibilité– Réplication native sur un second cluster (OnPremise ou dans le Cloud)– Gestion de bascule du service sur le réplicat– Capacité à faire des snapshots pour du fast-recovery

… Mais aussi– Une intégration propre avec l’ETL Talend– Un dashboard de métrologie et supervision permettant aux développeurs d’avoir un bon

niveau d’information sur l’état du cluster– Une roadmap produit mettant en avant des enjeux qui nous parlent (Haute-dispo,

performance et temps-réel)

14

Agenda





15

L’initiative BigData après un an

Les plus– Le ROI de la plateforme est supérieur aux attentes– Le déploiement de nouveaux périmètres a été plus rapide que prévu– La capacité de manipuler les données via NFS est un vrai plus pour les opérations de

maintenance (migration, recopie d’environnement, …)– La plateforme dispose d’un PRA (ce qui n’est pas le cas de notre plateforme décisionnelle

traditionnelle)

Les Moins– Le rapatriement de la plateforme OnPremise aurait du être accéléré en regard de

l’accélération des déploiements de projets business– Malgré le choix d’une distribution réputée facile à administrer, le manque de maitrise

technique de nos équipes (environnements linux) rend la gestion d’incident relativement complexe

16

Les prochaines étapes

– Temps Réel– Se donner la capacité à personnaliser la navigation sur des échelles de temps réduite (au sein

même d’une session de navigation)– Se donner la capacité de mesurer l’efficacité de nos mises en avant produit sur des échelles de

temps réduites (à l’heure près vs J+1 aujourd’hui)– Evaluation de Shark & Spark

– Calculs complexes & Machine Learning– Affiner le matching entre nos segments clients et produits pour améliorer la performance des

recommandations produits– Mécaniques d’élasticité des prix (en fonction des ventes, du stock, de la concurrence, …)– Gestion des risques et détection de la fraude– Mécaniques de prévision à destination de la logistique et de nos vendeurs Marketplace

– Industrialisation du produit « Dataplatform by Cdiscount »– Accompagner l’internationalisation de la plateforme E-commerce (6 pays à fin juin 2014,

objectif 20 pays d’ici 2016) avec un produit Dataplatform packagé– Normalisation des entrées/sortie

Questions / Réponses

Data & Analytics

Quel hadoop (#quelhadoop)