25
BigData et Hadoop by Pablo Lopez @pLopezFr 1 au secours de téraoctets de logs inexploitables chez l’un des plus grands sites marchands européens.

BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un des plus grands sites marchands du web européen (DevoxxFr)

Embed Size (px)

DESCRIPTION

Comment analyser chaque jour des téra de logs générés par plus de 600 JVMs en production, sans impacter leur fonctionnement ? Nous vous présenterons durant cette session la solution Big Data 100% Open Source mise en place chez un des plus grands sites du web européen. Une architecture basée sur syslog-ng, Flume, Hadoop, MongoDb et Play!, qui n'a rien à envier aux géants d'outre-atlantique ! Venez découvrir comment nous avons divisé par 20 le temps de détection et de traitement des incidents. Mais aussi comment BigData a permis de nouvelles utilisations des logs à la fois techniques et surtout métier, comme la détection des fraudes, l’analyse de traffic web, BI en temps réel, ... À travers ce retour d'expérience, nous vous proposons de vivre, au coeur d'une des plus exigeantes productions de France, la mise en place de ce projet digne des très grands du web.

Citation preview

Page 1: BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un des plus grands sites marchands du web européen (DevoxxFr)

BigData et Hadoop

by Pablo Lopez@pLopezFr

1

au secours de téraoctets de logs inexploitables chez l’un des plus grands sites marchands européens.

Page 2: BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un des plus grands sites marchands du web européen (DevoxxFr)

Abstract

• Une plateforme de production hors normes, exigeante

• Une solution BigData innovante

• De nombreux usages

• Voir toujours plus grand

2

Page 3: BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un des plus grands sites marchands du web européen (DevoxxFr)

3

Speaker

Pablo Lopez

@pLopezFr

blog.xebia.fr

Big Data

Architect

DevOpsFort Traffic

Performance

Page 4: BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un des plus grands sites marchands du web européen (DevoxxFr)

C’est l’histoire d’une startup...

4

Page 5: BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un des plus grands sites marchands du web européen (DevoxxFr)

La course à l’armement

5

• ~500 serveurs de production

• 80 applications

• 5 JVMs / serveur

• 13 niveaux de load balancing.!"

#!"

$!!"

$#!"

%!!"

%#!"

&!!"

&#!"

'!!"

'#!"

!"#$%&''(&')&%*&+%)'(&',%"(+-."/'&/0%&'1223'&0'1241'

Page 6: BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un des plus grands sites marchands du web européen (DevoxxFr)

Une mine d’informations...

6

• Logs techniques / fonctionnelles / analytiques

• 5 à 10 fichiers de logs par JVMs

• 7 Go de logs / serveur / jour

Page 7: BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un des plus grands sites marchands du web européen (DevoxxFr)

... et un calvaire pour les équipes

7

• Rotation trop rapide

• Collecte semi automatisée

• Transferts laborieux

• Volume à traiter colossal

Page 8: BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un des plus grands sites marchands du web européen (DevoxxFr)
Page 9: BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un des plus grands sites marchands du web européen (DevoxxFr)

Les fonctionnalités recherchées

9

•Centraliser

• Sécuriser

•Analyser

• Informer

•Archiver

• En temps réel

Page 10: BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un des plus grands sites marchands du web européen (DevoxxFr)

De grandes responsabilités

10

• Disponibilité 99,995 %

• Temps de réponse sous la seconde

• Base de données = Single Point of Failure

• Coûts maitrisés

Page 11: BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un des plus grands sites marchands du web européen (DevoxxFr)

Big Data et open source

11

Page 12: BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un des plus grands sites marchands du web européen (DevoxxFr)

Centraliser

12

Page 13: BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un des plus grands sites marchands du web européen (DevoxxFr)

Centraliser (v2)

13

Page 14: BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un des plus grands sites marchands du web européen (DevoxxFr)

Sécuriser

14

Page 15: BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un des plus grands sites marchands du web européen (DevoxxFr)

Analyser

15

Page 16: BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un des plus grands sites marchands du web européen (DevoxxFr)

Informer / Archiver

16

Page 17: BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un des plus grands sites marchands du web européen (DevoxxFr)

Vue end-to-end

17

12:49:22.203 DEBUG introduction.HelloWorld

12:49:22.203 DEBUG introduction.HelloWorld

{service:HelloWorld, count:2}

Page 18: BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un des plus grands sites marchands du web européen (DevoxxFr)

Le défi du temps réel

18

!"

#"

$!"

$#"

%!"

%#"

&!"

&#"

'!"

'#"

Temps d’exécution du job

en minutes

Version initiale Tuning infrastructure Tuning code

Page 19: BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un des plus grands sites marchands du web européen (DevoxxFr)

Utilisation quotidienne

19

Page 20: BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un des plus grands sites marchands du web européen (DevoxxFr)

L’avenir... des use cases

20

Page 21: BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un des plus grands sites marchands du web européen (DevoxxFr)

L’avenir... de la plate-forme

21

Page 22: BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un des plus grands sites marchands du web européen (DevoxxFr)

L’avenir... des produits

22

Page 23: BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un des plus grands sites marchands du web européen (DevoxxFr)

Réservé aux grands ?

23

Page 25: BigData et Hadoop au secours de téraoctets de logs inexploitables chez l'un des plus grands sites marchands du web européen (DevoxxFr)

Des questions ?

25