Download pdf - Sahara : Hadoop as Service avec OpenStack

Hadoop as Service,

OpenStack + Hadoop

Charly CLAIRMONTCTOALTIC

@egwada

ma petite bio

Depuis 10 ans Altic

Une évolution permanente avec les technologies suivantes :

Un des animateurs de l'écosystème Hadoop en France

Un groupe de plus en plus actif !(messages échangés sur l'année)

Altic

Métier

Informatique Décisionnelle

Intégration de données

Valeurs

– Innovations

– Open Source

Hadoop, OpenstackPopularité

http://www.google.com/trends/explore?hl=fr&q=openstack,+hadoop&cmpt=q&content=1

http://www.google.com/trends/explore?hl=fr&q=openstack,+hadoop&cmpt=q&content=1

Vous connaissez ?Forcément !

Hadoop, en quelques mots

● Fondé par Doug Cutting

● Initialement développé chez Yahoo

● Open source

● Initialement stockage et traitements distribués de données

● « Data OS »

– Aujourd'hui Plateforme standard pour la gestion de données

Hadoop, est robuste

● Stable

– Testé - Yahoo!(40 000 nœuds)

● Fiable

– Tolérant à la panne

● Flexible

– Schéma à la lecture !

– Passage à l'échelle

● Économique

– Prédictibilité des coûts

Hadoop,Système d'exploitation de la données

Vous connaissez ?Forcément !

Openstack

système d'exploitation pour le cloud

– CPU / RAM

– Disque

– Réseau

Standard du IAAS

Simple

– Tableau de bord d'administration

– Provisionnement par les utilisteurs finaux

API très riche

Openstack

● Calcul - Nova

● Réseau - Neutron

● Object Storage - Swift

● Block Storage - Cinder

● Sécurité / Identité - Keystone

● Gestion Image VM (iso) - Glance

● Administration / Interface Web - Horizon

● Monitoring - Ceilometer

● Orchestration - Heat

● Traitement de données - Sahara

Pourquoi Hadoop + Openstack ?

Des cas d'utilisation...

Hadoop as services,cas d'utilisation :

Administrateur système

● Faciliter les soucis d'installation, de gestion, de monitoring des clusters

● Avoir un point central pour administrer l'infrastructure toute entière de l'entreprise

● Supporter différentes versions d'Hadoo


Développeur, QA

● Créer différents environnements Hadoop simplement :

– dev, test, pré-prod

● Avoir une API pour construire et lancer son cluster à la volée, notamment lors des tests

● Avoir la possibilité d'exploiter les mêmes données par plusieurs clusters


Analystes

● Isolation des environnements pour éviter la surcharge de la production

– Bac à sable

Architecture

Architecture

Architecture

● Auth component – responsable pour l'authentification et les autorisations , dialogue avec Keystone

● Accès aux données (DAL) - référencé en base

● Provisioning Engine - composant responsable de la communication avec Nova, Heat, Cinder and Glance

● Vendor Plugins - mécanisme qui permet aux distribution Hadoop de provisionner les VM

● Elastic Data Processing (EDP) - responsable de la planification et de la gestion des jobs Hadoop sur les clusters provisionnés par Sahara

● REST API - expose les fonctionnalités de Sahara grâce à des services web REST

● Client Python pour Sahara - similaire aux autres composants Openstack qui ont leur propre client python

● Sahara pages - GUI pour Sahara intégré à Horizon

Sahara plugin

● Très important dans l'architecture

● Permet aux distributions Hadoop de se fondre (pluger) au sein de Sahara

● Intégrations actuelles :

– Vanilla (impl. de référence avec Apache Hadoop),

– HDP (via Ambari),

– IDH (via Intel Manager) ???

– et en test CDH et Spark

Elastic Data Processing (EDP)

● permet l'exécution de jobs sur le cluster

● Hive, Pig, MapReduce, et des jobs Java

● Les jobs enregistrés sous forme de binaire dans Swift ou en base de données

● configuration des jobs lors de leur soumission

● exécution des job sur les clusters existants ou temporaires

Performance du provisionnement du cluster

● Un cluster Hadoop de 200 noeuds en peu plus de 6 min.

Roadmap

Feuille de route

● Intégration de la première version stable au sein de Icehouse

● Meilleure intégration avec l'écosystème d'Openstack

– Heat

– Tempest

– Devstack

– Ceilometer

– Ironic

● Amélioration d'EDP

● Finition de l'api v2

● Tests de performances

Démo

Démo

https://www.youtube.com/watch?v=vmry_kXqn4c

Questions

Hadoop as Service,

OpenStack + Hadoop

Charly CLAIRMONTCTOALTIC

@egwada

Merci !