Apache Storm - Introduction au traitement temps-réel avec Storm

Benjamin Houdu @benjaminhoudu

Architecte, Zenika

Florian Hussonnois @fhussonnois

Lead Développeur Java, Zenika

Stockage

HDFS• Système BigData et Temps-réel

• Qu’est ce que Storm ?

• Les principaux concepts

• Parallélisme et fiabilité de traitement

• Architecture physique et tolérance à la panne

Stockage

Données absorbées par le batch Non absorbées

Quelques heuresde données

Vision erronée de la réalité

Données absorbées par le batch Non absorbées

Quelques heuresde données

Capteurs / logs

Cliques web

Transactionsfinancières

Capteurs / logs

Cliques web

Data Lake

BatchView

(Map-Reduce)

Capteurs / logs

Cliques web

Data Lake

BatchView

(Map-Reduce)

Capteurs / logs

Cliques web

Data Lake

Real TimeView

TraitementsAnalyses

BatchView

(Map-Reduce)

Capteurs / logs

Cliques web

Data Lake

Real TimeView

TraitementsAnalyses

BatchView

(Map-Reduce)

Capteurs / logs

Cliques web

Data Lake

Real TimeView

TraitementsAnalyses

BatchView

(Map-Reduce)

Capteurs / logs

Cliques web

Data Lake

Real TimeView

TraitementsAnalyses

Stockage

Créé par Nathan Marz @BackType Analyse en temps réel d'impact sur les réseaux sociaux

Open-source(Twitter) Septembre 2011 Licence Eclipse Public 1.0 V 0.5.2

Evolution rapideIncubateur Apache Septembre 2013

0.9.1 10 Février 2014

0.9.2 25 Juin 2014

0.9.3 - RC 20 Octobre 2014

« Apache Top-Level » projet depuis Septembre 2014

Stockage

HDFSLogs serveurs, clicks, capteurs

Mise à jour continue de bases de données

Paralléliser d’intenses calculs

Traitement au fil de l'eau et en continu de gros volumes de données issues de flux

Plusieurs milliers de workers / clustersParallélisme

Réassignement automatique des tâches en échecs

Fiabilité de traitement de chaque messageSémantique : au moins une fois & exactement une fois

Possibilité d’implémenter la logique de traitement avec n'importe quels langages

Stockage

Principale structure de données

Liste de valeurs nommées – typage dynamique

Immuable

Stockage

Flux de données

Séquence illimité de tuples

Un flux de données est créé et traité en temps réel de manière distribué.

Tuple Tuple TupleTuple

Stockage

HDFSSource de flux de données.

Se connecte à une source de données externe puis émet des Tuples.

Output streams

Stockage

HDFSSource de flux de données.

Se connecte à une source de données externe puis émet des Tuples.

Output streams Kafka RabbitMQ Kestrel Redis - PublishSubscribe

Stockage

HDFSPrincipaux composants pour manipuler les flux de données.

Encapsulent la logique des traitements à appliquer sur un où plusieurs flux.

Input stream

Stockage

HDFSInput stream

Souscrit à n’importe quels flux devant être: Transformés Filtrés Agrégés

Peut lire / écrire depuis et vers une base de données

Stockage

HDFS Un bolt peut émettre de nouveaux flux.

Input stream

Output streams

Stockage

HDFS Un bolt peut émettre de nouveaux flux.

Input stream

Output streams Kafka HDFS / HBase Cassandra MongoDB Elasticsearch

Stockage

Graphe orienté acyclique (DAG) Modélisation d’un Workflow

Les Bolts/Spout s’exécutent en parallèle en tant que tâches.

Une topologie s’exécute indéfiniment.

Les tuples sont distribués aléatoirement et de manière équitable entre les tâches.

Field=A

Field=B

Le flux est partitionné en fonction d’un ou plusieurs champs.

Le flux est répliqué vers l’ensemble des tâches

La totalité du flux est redirigé vers une unique tâche.

Parallélisme = 1

Parallélisme = 4

Parallélisme = 2

Chaque (instance) est exécuté par un exécuteur.

Chaque (thread) s’exécute au sein d’un (JVM).

Parallélisme = 1

Parallélisme = 4

Parallélisme = 2

Storm répartit de manière égale le nombre d’executor à travers les workers.

Parallélisme = 1

Parallélisme = 4

Parallélisme = 2, Tâches = 6

Chaque exécute séquentiellement 3 tâches

Storm garantit que chaque « tuple spout » émis sera traité dans son intégralité par la topologie.

Un tuple peut être ancré avec un ou plusieurs tuples parents.

Un tuple peut ne pas être rattaché à un arbre.

Les bolts informent le système de la réussite du traitement d’un tuple

Les bolts informent le système de l’échec du traitement d’un tuple

Un tuple est automatiquement considéré en échec après un certain lapse de temps.

Timeout à 30 secondes par défaut

Un de par tuple

Storm utilise des bolts systèmes (ackers) pour suivre l’état de complétion d’un tuple spout.

Etat de l’arbre de tuples

Le tuple B est ancré au tuple A lorsqu’il est émis.

Le bolt transmet l’état de l’arbre à la tâche acker.

{A} XOR {A} XOR {B} != 0

{A} XOR {A} XOR {B} != 0 {A} XOR {A} XOR {B} XOR {B} = 0

La tâche acker notifie la tâche spoutdu succès du traitement du tuple A.

{A} XOR {A} XOR {B} != 0 {A} XOR {A} XOR {B} XOR {B} = 0

ZookeeperQuorum

WorkersWorkers

(Master node)

(Slave node)

Architecture master/slave NSPOF

(Slave node)

ZookeeperQuorum

WorkersWorkers

(Master node)

(Slave node) (Slave node)

Un service centralisé pour maintenir des informations de configuration, fournir une synchronisation distribuée, etc.

Coordonne le cluster Storm

Permet à nimbus de découvrir les Supervisors

ZookeeperQuorum

WorkersWorkers

(Master node)

Distribue le code à travers le cluster

Assigne les tâches

Traite les erreurs et réassigne les tâches en conséquence

ZookeeperQuorum

(Master node)

$ /bin/storm jar

Nimbus calcule les assignements des tâches et les envoie à Zookeeper.

Les supervisors sont notifiés via Zookeeper.

Chaque supervisor récupère le code depuis nimbus (Thrift)

ZookeeperQuorum

WorkersWorkers

(Master node)

Les supervisors démarrent le nombre de workers nécessaires à l’exécution de la topologie

ZookeeperQuorum

WorkersWorkers

(Master node)

WorkerLe supervisor redémarre le worker.Nimbus peut réassigner les tâches.

SupervisorNimbus réassigne les tâches.

NimbusLes topologies continuent de fonctionner.Les ré-assignements sont impossibles.

Heartbeat

Stockage

HDFS Framework au dessus de Storm

Orienté micro-batch

Sémantique « exactement une fois »

(Distributed Remote Procedure Call)

Paralléliser des calculs intenses

Topologie coordonnée via une serveur DRPC

Documentation officielle: http://storm.apache.org

Mailing liste

Storm Blueprints: Patterns for Distributed Real-time Computation

P. Taylor Goetz, Brian O’Neil

Big Data - Principles and best practices of scalable realtime data systems,

Nathan Marz and James Warren

http://www.meetup.com/Paris-Storm-User-Group/

Apache Storm - Introduction au traitement temps-réel avec Storm

Technology

Amazon Kinesis et Apache Storm · 2017. 12. 19. · Rahul Bhartia Octobre 2014 . Amazon Web Services – Amazon Kinesis et Apache Storm Octobre 2014 Page 2 sur 18 Table des matières

Storm®4 Family - Invacare · le Storm®⁴ et 15 véhicules différents. Également disponible sur Storm®⁴ X-plore. Faible hauteur d’assise sol/siège : à partir de 400 mm

Apache giraph

Installation apache mandriva

Basic Training: Apache Storm 0dbdmg.polito.it/wordpress/wp-content/uploads/2017/05/02_Storm... · Apache Storm . Storm architecture . ZooKeeper cluster Storm cluster nimbusl zkserverl

Amazon Kinesis et Apache Storm...Amazon Web Services – Amazon Kinesis et Apache Storm Octobre 2014 Page 3 sur 18 Résumé Les développeurs d'Apache Storm peuvent utiliser Amazon

Apache Maven {9782744040986}

SILENCE STORM - territorystories.nt.gov.au · SILENCE STORM Page46 CATSTURN POWEROFF PortAdelaidepushesalltheway,butGeelongprovestoostrong AFL A BRAVE Port Adelaide side gave it everything,

Serveur web Apache - docs.formatux.fr

Apache Tutoriel

Galactic Storm Power Shake - CMCAS

Config LANInet Apache

· Web viewIntroduction à Apache STORM Premier programme … Version 1.0 Rédacteurs V1 : Philippe Lacomme (placomme@isima.fr), Raksmey Phan (phan@isima.fr) Date : 22 août 2015

Introduction to Apache Spark

Apache ServiceMix en Action

HUGFR : Une infrastructure Kafka & Storm pour lutter contre les attaques DDoS en temps-réel par Steven Le Roux de la société OVH

EN SAVOIR PLUS SUR NOS PRODUITSimg.pelican.com/docs/catalogs/peli-storm-cases-catalog...PELI STORM PELI STORM VALISES MOYENNES PETITES VALISES CONTENU DE VALISE NON INCLUS iM2370 STORM

Apache Hadoop

Taller Apache Cassandra - eventos.citius.usc.eseventos.citius.usc.es/bigdata/workshops/Cassandra.pdf · Introducción Que es Apache Cassandra 3 Apache Cassandra es un motor de bases

Performance serveur et apache