Elasticsearch meetup#2 @Viadeo - Viadeo

Preview:

DESCRIPTION

 

Citation preview

Centralisation des logsflume-ng HBase Elasticsearch Kibana 3

Problématique

● Problème de disponibilité et capacité limitée

● Dispersion des données : SaaS, BI

● Stockage inadapté : MySQL

● Accès contraignant, problèmes de sécurité

● Collecter les logs de manière centralisée● Stockage durable et évolutif● Les rendre accessibles

● Initialiser la plate-forme Big data viadeo

Objectifs

Application servers

DataWarehouse

HDFS

HBASE

Analytics Kibana

flume-ng

Solr

ES

sqoop

Plan d'ensemble

flux continus

import récurrents

plate-forme de stockage

applications tierces

Mise en œuvre : Indexation

● Rejouer n jours ou n minutes

● Proche du temps réel

● Idempotent

● Sources et formats hétérogènes

Mise en œuvre : Indexation

● Job MapReduce Hadoop natif

● TransportClient embarqué

● Indexation par lots

● Une configuration logstash "classique"

https://gist.github.com/deverton/2970285

Mise en œuvre : Métriques

● 17 nœuds Hadoop mutualisés

● 2 serveurs ES dédiés

● 30 mappers

● 260M / 3h de traitement pour 7 jours de logs

● 340K / 30s de traitement pour 8 minutes de logs

Mise en œuvre : Kibana

Kibana 3 tombe à pic !

● Maintenu au sein d'ElasticSearch

● Très rapidement fonctionnel

● Adaptable à des formats hétérogènes

● Fabriqué avec AngularJS

Mise en œuvre : Kibana

Mise en œuvre : Kibana

Message subliminal : votez pour https://github.com/elasticsearch/elasticsearch/pull/2538 :)