BigData et Hadoop
by Pablo Lopez@pLopezFr
1
au secours de téraoctets de logs inexploitables chez l’un des plus grands sites marchands européens.
Abstract
• Une plateforme de production hors normes, exigeante
• Une solution BigData innovante
• De nombreux usages
• Voir toujours plus grand
2
3
Speaker
Pablo Lopez
@pLopezFr
blog.xebia.fr
Big Data
Architect
DevOpsFort Traffic
Performance
C’est l’histoire d’une startup...
4
La course à l’armement
5
• ~500 serveurs de production
• 80 applications
• 5 JVMs / serveur
• 13 niveaux de load balancing.!"
#!"
$!!"
$#!"
%!!"
%#!"
&!!"
&#!"
'!!"
'#!"
!"#$%&''(&')&%*&+%)'(&',%"(+-."/'&/0%&'1223'&0'1241'
Une mine d’informations...
6
• Logs techniques / fonctionnelles / analytiques
• 5 à 10 fichiers de logs par JVMs
• 7 Go de logs / serveur / jour
... et un calvaire pour les équipes
7
• Rotation trop rapide
• Collecte semi automatisée
• Transferts laborieux
• Volume à traiter colossal
Les fonctionnalités recherchées
9
•Centraliser
• Sécuriser
•Analyser
• Informer
•Archiver
• En temps réel
De grandes responsabilités
10
• Disponibilité 99,995 %
• Temps de réponse sous la seconde
• Base de données = Single Point of Failure
• Coûts maitrisés
Big Data et open source
11
Centraliser
12
Centraliser (v2)
13
Sécuriser
14
Analyser
15
Informer / Archiver
16
Vue end-to-end
17
12:49:22.203 DEBUG introduction.HelloWorld
12:49:22.203 DEBUG introduction.HelloWorld
{service:HelloWorld, count:2}
Le défi du temps réel
18
!"
#"
$!"
$#"
%!"
%#"
&!"
&#"
'!"
'#"
Temps d’exécution du job
en minutes
Version initiale Tuning infrastructure Tuning code
Utilisation quotidienne
19
L’avenir... des use cases
20
L’avenir... de la plate-forme
21
L’avenir... des produits
22
Réservé aux grands ?
23
L’équipe
24
• Philippe Martin [email protected]
• Arnault Jeanson @ArnaultJeanson
• Jean-Philippe Hautin @JpHautin
• Jawed Khelil• François Ostyn
• Pierre Revellin• Olivier Del Favero
Des questions ?
25