BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un des plus grands...

Preview:

DESCRIPTION

Comment analyser chaque jour des téra de logs générés par plus de 600 JVMs en production, sans impacter leur fonctionnement ? Nous vous présenterons durant cette session la solution Big Data 100% Open Source mise en place chez un des plus grands sites du web européen. Une architecture basée sur syslog-ng, Flume, Hadoop, MongoDb et Play!, qui n'a rien à envier aux géants d'outre-atlantique ! Venez découvrir comment nous avons divisé par 20 le temps de détection et de traitement des incidents. Mais aussi comment BigData a permis de nouvelles utilisations des logs à la fois techniques et surtout métier, comme la détection des fraudes, l’analyse de traffic web, BI en temps réel, ... À travers ce retour d'expérience, nous vous proposons de vivre, au coeur d'une des plus exigeantes productions de France, la mise en place de ce projet digne des très grands du web.

Citation preview

BigData et Hadoop

by Pablo Lopez@pLopezFr

1

au secours de téraoctets de logs inexploitables chez l’un des plus grands sites marchands européens.

Abstract

• Une plateforme de production hors normes, exigeante

• Une solution BigData innovante

• De nombreux usages

• Voir toujours plus grand

2

3

Speaker

Pablo Lopez

@pLopezFr

blog.xebia.fr

Big Data

Architect

DevOpsFort Traffic

Performance

C’est l’histoire d’une startup...

4

La course à l’armement

5

• ~500 serveurs de production

• 80 applications

• 5 JVMs / serveur

• 13 niveaux de load balancing.!"

#!"

$!!"

$#!"

%!!"

%#!"

&!!"

&#!"

'!!"

'#!"

!"#$%&''(&')&%*&+%)'(&',%"(+-."/'&/0%&'1223'&0'1241'

Une mine d’informations...

6

• Logs techniques / fonctionnelles / analytiques

• 5 à 10 fichiers de logs par JVMs

• 7 Go de logs / serveur / jour

... et un calvaire pour les équipes

7

• Rotation trop rapide

• Collecte semi automatisée

• Transferts laborieux

• Volume à traiter colossal

Les fonctionnalités recherchées

9

•Centraliser

• Sécuriser

•Analyser

• Informer

•Archiver

• En temps réel

De grandes responsabilités

10

• Disponibilité 99,995 %

• Temps de réponse sous la seconde

• Base de données = Single Point of Failure

• Coûts maitrisés

Big Data et open source

11

Centraliser

12

Centraliser (v2)

13

Sécuriser

14

Analyser

15

Informer / Archiver

16

Vue end-to-end

17

12:49:22.203 DEBUG introduction.HelloWorld

12:49:22.203 DEBUG introduction.HelloWorld

{service:HelloWorld, count:2}

Le défi du temps réel

18

!"

#"

$!"

$#"

%!"

%#"

&!"

&#"

'!"

'#"

Temps d’exécution du job

en minutes

Version initiale Tuning infrastructure Tuning code

Utilisation quotidienne

19

L’avenir... des use cases

20

L’avenir... de la plate-forme

21

L’avenir... des produits

22

Réservé aux grands ?

23

Des questions ?

25

Recommended