Upload
xebia-france
View
6.108
Download
0
Embed Size (px)
DESCRIPTION
Comment analyser chaque jour des téra de logs générés par plus de 600 JVMs en production, sans impacter leur fonctionnement ? Nous vous présenterons durant cette session la solution Big Data 100% Open Source mise en place chez un des plus grands sites du web européen. Une architecture basée sur syslog-ng, Flume, Hadoop, MongoDb et Play!, qui n'a rien à envier aux géants d'outre-atlantique ! Venez découvrir comment nous avons divisé par 20 le temps de détection et de traitement des incidents. Mais aussi comment BigData a permis de nouvelles utilisations des logs à la fois techniques et surtout métier, comme la détection des fraudes, l’analyse de traffic web, BI en temps réel, ... À travers ce retour d'expérience, nous vous proposons de vivre, au coeur d'une des plus exigeantes productions de France, la mise en place de ce projet digne des très grands du web.
BigData et Hadoop
by Pablo Lopez@pLopezFr
1
au secours de téraoctets de logs inexploitables chez l’un des plus grands sites marchands européens.
Abstract
• Une plateforme de production hors normes, exigeante
• Une solution BigData innovante
• De nombreux usages
• Voir toujours plus grand
2
3
Speaker
Pablo Lopez
@pLopezFr
blog.xebia.fr
Big Data
Architect
DevOpsFort Traffic
Performance
C’est l’histoire d’une startup...
4
La course à l’armement
5
• ~500 serveurs de production
• 80 applications
• 5 JVMs / serveur
• 13 niveaux de load balancing.!"
#!"
$!!"
$#!"
%!!"
%#!"
&!!"
&#!"
'!!"
'#!"
!"#$%&''(&')&%*&+%)'(&',%"(+-."/'&/0%&'1223'&0'1241'
Une mine d’informations...
6
• Logs techniques / fonctionnelles / analytiques
• 5 à 10 fichiers de logs par JVMs
• 7 Go de logs / serveur / jour
... et un calvaire pour les équipes
7
• Rotation trop rapide
• Collecte semi automatisée
• Transferts laborieux
• Volume à traiter colossal
Les fonctionnalités recherchées
9
•Centraliser
• Sécuriser
•Analyser
• Informer
•Archiver
• En temps réel
De grandes responsabilités
10
• Disponibilité 99,995 %
• Temps de réponse sous la seconde
• Base de données = Single Point of Failure
• Coûts maitrisés
Big Data et open source
11
Centraliser
12
Centraliser (v2)
13
Sécuriser
14
Analyser
15
Informer / Archiver
16
Vue end-to-end
17
12:49:22.203 DEBUG introduction.HelloWorld
12:49:22.203 DEBUG introduction.HelloWorld
{service:HelloWorld, count:2}
Le défi du temps réel
18
!"
#"
$!"
$#"
%!"
%#"
&!"
&#"
'!"
'#"
Temps d’exécution du job
en minutes
Version initiale Tuning infrastructure Tuning code
Utilisation quotidienne
19
L’avenir... des use cases
20
L’avenir... de la plate-forme
21
L’avenir... des produits
22
Réservé aux grands ?
23
L’équipe
24
• Philippe Martin [email protected]
• Arnault Jeanson @ArnaultJeanson
• Jean-Philippe Hautin @JpHautin
• Jawed Khelil• François Ostyn
• Pierre Revellin• Olivier Del Favero
Des questions ?
25