Author
romain-broussard
View
358
Download
3
Embed Size (px)
DESCRIPTION
http://quelhadoop.com - événement organisé par Ysance en collaboration avec MAPR
Quel Hadoop ?
Jeudi 12 Juin 2014
2
Agenda
1. Voyage au pays du Big Data L’initiative Big Data Chez Cdiscount
2. Et pourquoi pas muscler la plateforme BI Legacy ? V+V+V = CPU+RAM+IO ?
3. Choisir sa distribution Hadoop ! Comment le choix MAPR s’est imposé
4. Et si c’était à refaire ? REX après 1 an en opérations
3
Du POC à la réalitéIN
FRA
STAF
FIN
G (D
SI)
PRO
JET
Q1 2013 Q2 2013 Q3 2013 Q4 2013 Q1 2014 Q2 2014
PHASE 1POC
PHASE 2Adoption de la technologie
PHASE 3Passage à l’échelle
Plateforme MAPR (M3)
Plateforme HD-INSIGHT
Plateforme MAPR (M3)3 puis 4 et enfin 6 Noeuds MAPR (M3)
Plateforme MAPR (M3)
Plateforme MAPR (M5)
3 Personnes Dédiées
Accompagnement par Dataiku
10 personnes pour assurer les développements
3 Personnes pour l’administration de la plateforme
Accompagnement continu (Dataiku, Ysance et MAPR)
2 projets déployés(1 par POC)
Déploiement progressif d’une quinzaine de projets, concernant le marketing, la régie pub, les achats, la logistique, … et bien sûr le site avec de la personnalisation
4
Focus ArchitectureTechnologies mises en œuvre
Log Files
BizData(customers, orders, products, offers, …)
WebsitePersonalization
Data Sharing(partners)
LogisticAnalytics
Reporting & Data Sharing (customers)
BI
5
Agenda
1. Voyage au pays du Big Data L’initiative Big Data Chez Cdiscount
2. Et pourquoi pas muscler la plateforme BI Legacy ? V+V+V = CPU+RAM+IO ?
3. Choisir sa distribution Hadoop ! Comment le choix MAPR s’est imposé
4. Et si c’était à refaire ? REX après 1 an en opérations
6
Le premier V : VolumeImpact de l’augmentation des volumes
HW
HW
HW
L’augmentation exponentielle du TCO limite la capacité des systèmes traditionnels à gérer de gros volumes de données
7
Le second V : VelocityNécessité d’accélérer la mise à disposition des analyses
HW
HW
HW
L’augmentation exponentielle du TCO limite la capacité des systèmes traditionnels à gérer des performances accrue (Scale-Up only)
SW
8
Le troisième V : VarietyOpportunité de traiter des sources de données hétérogènes
HW
HW
HW
L’augmentation exponentielle du TCO limite la capacité des systèmes traditionnels à gérer des données non structurées
SW
HW
9
Le choix d’Hadoop
Volume, Velocity, Variety– Les systèmes traditionnels peuvent jusqu’à un certain point répondre à ces enjeux– Nous avons travaillé cette voie avec des accélérateurs d’infrastructure sur du décisionnel
classique pour donner le temps à l’initiative BigData d’émerger tout en continuant de répondre aux enjeux métier court terme
Le choix d’Hadoop– Plusieurs éditeurs ont mis sur le marché des solutions de BI en scale-out (Parralel DWH
chez Microsoft par exemple), faisant passer le TCO d’un modèle exponentiel vers un modèle linéaire …
– … Mais seules les solutions construites sur le Framework Hadoop associées à du « Commodity Hardware » permettent de rendre le TCO asymptotique.
De nouveaux horizons– La rupture technologique apportée par ce genre de solutions permet aux DSI d’ouvrir de
nouveaux horizons à l’ensemble de nos business line (et pas seulement aux data-scientist des équipes marketing)
10
Agenda
1. Voyage au pays du Big Data L’initiative Big Data Chez Cdiscount
2. Et pourquoi pas muscler la plateforme BI Legacy ? V+V+V = CPU+RAM+IO ?
3. Choisir sa distribution Hadoop ! Comment le choix MAPR s’est imposé
4. Et si c’était à refaire ? REX après 1 an en opérations
11
Hadoop : Les trois alternatives
Construire sa propre « distribution » sur la base du Framework– L’ensemble des composants du projet Apache Hadoop sont open-source– Construire sa propre distribution permet de disposer des dernières fonctionnalités
publiées par la communauté– Nécessite d’avoir des équipes rompues à l’intégration de softwares open-source
Choisir une des trois distributions majeures– Trois distribution se partagent le marché (MAPR, Cloudera et HortonWorks)– Ces distributions garantissent pour une version donnée l’intégration de l’ensemble des
composants du framework Hadoop (MapReduce, Zookeeper, Hbase, Hive, Pig, …)– Ces trois distribution contribuent de manière importante au projet Apache Hadoop– Ces trois distributions sont à l’origine de nombreuses améliorations du Framework
Choisir une solution intégrée (Package)– Ces solutions se basent souvent sur une des trois distributions précédentes– Elles apportent une intégration avancée avec l’infrastructure– En mode Cloud : HD-Insight, Elastic Map Reduce– En mode OnPremise : Pivotal, IBM InfoSphere BigInsights, Oracle, Microsoft, SAP
12
Hadoop : Les critères de choix
Notre Enjeu Majeur– Haute-disponibilité et performance des systèmes : par construction, HDFS, bien que
permettant de faire du scale-out, a un gros point faible (le name-node)
Les problématiques nouvelles– Backup et PRA : Le volume de données conséquent ne permet pas d’aborder la
sécurisation des données avec les méthodes traditionnelles
– Administration des systèmes : au démarrage de l’initiative BigData, 95% des systèmes (un millier d’instances de serveurs) exploités étaient des systèmes windows. Les équipes Cdiscount ne sont donc pas rompues à l’administration des systèmes linux et encore moins avec des systèmes de fichier non-POSIX (comme HDFS)
13
Hadoop : notre choix
MAPRFS– Dépasse les contraintes de contention et de haute disponibilité du name-node d’HDFS– Système de fichier Full POSIX simplifiant l’administration des systèmes (commandes linux
usuelles)– Accessibilité du filesystem en NFS (simplification des taches de maintenance sur les
données : migration, copie d’archive, …)
Haute Disponibilité– Réplication native sur un second cluster (OnPremise ou dans le Cloud)– Gestion de bascule du service sur le réplicat– Capacité à faire des snapshots pour du fast-recovery
… Mais aussi– Une intégration propre avec l’ETL Talend– Un dashboard de métrologie et supervision permettant aux développeurs d’avoir un bon
niveau d’information sur l’état du cluster– Une roadmap produit mettant en avant des enjeux qui nous parlent (Haute-dispo,
performance et temps-réel)
14
Agenda
1. Voyage au pays du Big Data L’initiative Big Data Chez Cdiscount
2. Et pourquoi pas muscler la plateforme BI Legacy ? V+V+V = CPU+RAM+IO ?
3. Choisir sa distribution Hadoop ! Comment le choix MAPR s’est imposé
4. Et si c’était à refaire ? REX après 1 an en opérations
15
L’initiative BigData après un an
Les plus– Le ROI de la plateforme est supérieur aux attentes– Le déploiement de nouveaux périmètres a été plus rapide que prévu– La capacité de manipuler les données via NFS est un vrai plus pour les opérations de
maintenance (migration, recopie d’environnement, …)– La plateforme dispose d’un PRA (ce qui n’est pas le cas de notre plateforme décisionnelle
traditionnelle)
Les Moins– Le rapatriement de la plateforme OnPremise aurait du être accéléré en regard de
l’accélération des déploiements de projets business– Malgré le choix d’une distribution réputée facile à administrer, le manque de maitrise
technique de nos équipes (environnements linux) rend la gestion d’incident relativement complexe
16
Les prochaines étapes
– Temps Réel– Se donner la capacité à personnaliser la navigation sur des échelles de temps réduite (au sein
même d’une session de navigation)– Se donner la capacité de mesurer l’efficacité de nos mises en avant produit sur des échelles de
temps réduites (à l’heure près vs J+1 aujourd’hui)– Evaluation de Shark & Spark
– Calculs complexes & Machine Learning– Affiner le matching entre nos segments clients et produits pour améliorer la performance des
recommandations produits– Mécaniques d’élasticité des prix (en fonction des ventes, du stock, de la concurrence, …)– Gestion des risques et détection de la fraude– Mécaniques de prévision à destination de la logistique et de nos vendeurs Marketplace
– Industrialisation du produit « Dataplatform by Cdiscount »– Accompagner l’internationalisation de la plateforme E-commerce (6 pays à fin juin 2014,
objectif 20 pays d’ici 2016) avec un produit Dataplatform packagé– Normalisation des entrées/sortie
Questions / Réponses