Hadoop as Service,
OpenStack + Hadoop
Charly CLAIRMONTCTOALTIC
@egwada
ma petite bio
Depuis 10 ans Altic
Une évolution permanente avec les technologies suivantes :
Un des animateurs de l'écosystème Hadoop en France
Un groupe de plus en plus actif !(messages échangés sur l'année)
Altic
Métier
Informatique Décisionnelle
Intégration de données
Valeurs
– Innovations
– Open Source
Hadoop, OpenstackPopularité
http://www.google.com/trends/explore?hl=fr&q=openstack,+hadoop&cmpt=q&content=1
Vous connaissez ?Forcément !
Hadoop, en quelques mots
● Fondé par Doug Cutting
● Initialement développé chez Yahoo
● Open source
● Initialement stockage et traitements distribués de données
● « Data OS »
– Aujourd'hui Plateforme standard pour la gestion de données
Hadoop, est robuste
● Stable
– Testé - Yahoo!(40 000 nœuds)
● Fiable
– Tolérant à la panne
● Flexible
– Schéma à la lecture !
– Passage à l'échelle
● Économique
– Prédictibilité des coûts
Hadoop,Système d'exploitation de la données
Vous connaissez ?Forcément !
Openstack
système d'exploitation pour le cloud
– CPU / RAM
– Disque
– Réseau
Standard du IAAS
Simple
– Tableau de bord d'administration
– Provisionnement par les utilisteurs finaux
API très riche
Openstack
● Calcul - Nova
● Réseau - Neutron
● Object Storage - Swift
● Block Storage - Cinder
● Sécurité / Identité - Keystone
● Gestion Image VM (iso) - Glance
● Administration / Interface Web - Horizon
● Monitoring - Ceilometer
● Orchestration - Heat
● Traitement de données - Sahara
Pourquoi Hadoop + Openstack ?
Des cas d'utilisation...
Hadoop as services,cas d'utilisation :
Administrateur système
● Faciliter les soucis d'installation, de gestion, de monitoring des clusters
● Avoir un point central pour administrer l'infrastructure toute entière de l'entreprise
● Supporter différentes versions d'Hadoo
Hadoop as services,cas d'utilisation :
Développeur, QA
● Créer différents environnements Hadoop simplement :
– dev, test, pré-prod
● Avoir une API pour construire et lancer son cluster à la volée, notamment lors des tests
● Avoir la possibilité d'exploiter les mêmes données par plusieurs clusters
Hadoop as services,cas d'utilisation :
Analystes
● Isolation des environnements pour éviter la surcharge de la production
– Bac à sable
Architecture
Architecture
Architecture
● Auth component – responsable pour l'authentification et les autorisations , dialogue avec Keystone
● Accès aux données (DAL) - référencé en base
● Provisioning Engine - composant responsable de la communication avec Nova, Heat, Cinder and Glance
● Vendor Plugins - mécanisme qui permet aux distribution Hadoop de provisionner les VM
● Elastic Data Processing (EDP) - responsable de la planification et de la gestion des jobs Hadoop sur les clusters provisionnés par Sahara
● REST API - expose les fonctionnalités de Sahara grâce à des services web REST
● Client Python pour Sahara - similaire aux autres composants Openstack qui ont leur propre client python
● Sahara pages - GUI pour Sahara intégré à Horizon
Sahara plugin
● Très important dans l'architecture
● Permet aux distributions Hadoop de se fondre (pluger) au sein de Sahara
● Intégrations actuelles :
– Vanilla (impl. de référence avec Apache Hadoop),
– HDP (via Ambari),
– IDH (via Intel Manager) ???
– et en test CDH et Spark
Elastic Data Processing (EDP)
● permet l'exécution de jobs sur le cluster
● Hive, Pig, MapReduce, et des jobs Java
● Les jobs enregistrés sous forme de binaire dans Swift ou en base de données
● configuration des jobs lors de leur soumission
● exécution des job sur les clusters existants ou temporaires
Performance du provisionnement du cluster
● Un cluster Hadoop de 200 noeuds en peu plus de 6 min.
Roadmap
Feuille de route
● Intégration de la première version stable au sein de Icehouse
● Meilleure intégration avec l'écosystème d'Openstack
– Heat
– Tempest
– Devstack
– Ceilometer
– Ironic
● Amélioration d'EDP
● Finition de l'api v2
● Tests de performances
Démo
Démo
https://www.youtube.com/watch?v=vmry_kXqn4c
Questions
Hadoop as Service,
OpenStack + Hadoop
Charly CLAIRMONTCTOALTIC
@egwada
Merci !