Upload
vincent-heuschling
View
535
Download
1
Embed Size (px)
DESCRIPTION
Restrospective du Hadoop Summit 2013 qui s'est tenu à Amsterdam. Slides présentés dans le cadre du HUG France.
Citation preview
AMSTERDAM 20 et 21 Mars 2013
Vincent Heuschling@vhe74
dimanche 28 avril 13
dimanche 28 avril 13
dimanche 28 avril 13
- Summit
dimanche 28 avril 13
- Summit
SQL - Summit ?
dimanche 28 avril 13
Communauté
dimanche 28 avril 13
500 visiteurs
~ 100 interrogés par
75 % sont engagés dans des projets
41 % ont une stratégie sur les données
34 % ont une plateforme Hadoop en production
43 % expérimentent
Usages : applications marketing, reco, comportemental, optimisation des contenus...
dimanche 28 avril 13
4 Tracks
Applied Hadoop
Operating Hadoop
Hadoop Futures
Integrating Hadoop
dimanche 28 avril 13
Past Present and Future of Data Processing in Apache Hadoop
Innovations in Apache Hadoop MapReduce Pig Hive for Improving Query Performance
Enterprise integration of Disruptive Technologies (HSBC)
Hadoop Operations at LinkedIn
Analyzing 1.4 Trillion events with Hadoop
Scaling Big Data Mining Infrastructure Twitter Experience
Crowd-Sourced Intelligence Built into Search over Hadoop
dimanche 28 avril 13
FUTURE of Hadoop
dimanche 28 avril 13
Map/Reduce vs YARN
dimanche 28 avril 13
Map/Reduce vs YARN
dimanche 28 avril 13
Apache TEZ
dimanche 28 avril 13
Pig/Hive : MR vs TEZ
dimanche 28 avril 13
Innovations in Apache Hadoop MapReduce Pig Hive
for Improving Query
dimanche 28 avril 13
Enterprise Integration of Disruptive Technologies
dimanche 28 avril 13
dimanche 28 avril 13
Nouvelle approche1 plateforme
Données non structurées
Vues multiples
Générateur de changement
Scalabilité
Economie
Outil pour le business et les Techs
dimanche 28 avril 13
dimanche 28 avril 13
dimanche 28 avril 13
dimanche 28 avril 13
dimanche 28 avril 13
Economie : coûts / 10
Hadoop devient un outil stratégique
Pb d’organisation : 1 stack pour le stockage et les applications Requiert des profils généralistes
dimanche 28 avril 13
Hadoop Operations@Linkedin
dimanche 28 avril 13
“Hadoop is not a developer problem; it’s an operations problem.”
Hadoop vendor ex-employee
dimanche 28 avril 13
2009 : 20 nodes 20 users pas de monitoring
dimanche 28 avril 13
2009 : 20 nodes 20 users pas de monitoring
2013 : 5000 Nodes in ~10 grids Full configuration management Full monitoring – Security Capacity scheduler with SLA ~700 users 5 dedicated operations staff members
dimanche 28 avril 13
Scheduling
dimanche 28 avril 13
Hadoop != Grid
dimanche 28 avril 13
Autres :
1 seul benchmark : « Production code »
Outils de distribution
Gestion des utilisateurs
Tout sera rapidement open-sourcé !
dimanche 28 avril 13
Analyzing 1.4 Trillion events with Hadoop(comscore)
dimanche 28 avril 13
500 Milliards d’enregistrements par mois
dimanche 28 avril 13
Java Map-Reduce quotidien sur 92 jours de données
au début 170 Milliards d’enregistrements à trier et ventiler
dimanche 28 avril 13
Java Map-Reduce quotidien sur 92 jours de données
au début 170 Milliards d’enregistrements à trier et ventiler
.... très rapidement 30h / jour
dimanche 28 avril 13
Java Map-Reduce quotidien sur 92 jours de données
au début 170 Milliards d’enregistrements à trier et ventiler
.... très rapidement 30h / jour
Solutions : - Partitionner - Trier les données en amont
dimanche 28 avril 13
Java Map-Reduce quotidien sur 92 jours de données
au début 170 Milliards d’enregistrements à trier et ventiler
.... très rapidement 30h / jour
Solutions : - Partitionner - Trier les données en amont
... Job exécutés en 3 h !!!
dimanche 28 avril 13
120 Nodes (3000 cores / 6TB memory / 2 PB de disques)
MAPR M5 2.1.0
SYNCSORT pour le tri et le loading
dimanche 28 avril 13
Scaling Big Data Mining Infrastructure
Twitter Experience
dimanche 28 avril 13
Passés de 60 nodes / 6 analystes
à
~10000 nodes et ~100 analystes
dimanche 28 avril 13
Beaucoup de temps passé à - Collecter - Déplacer - Organiser
Pour logger les données : Flume, Scribe, etc...
aujourd’hui : Thrift, AVRO, PROTOBUF
Construction d’un DAL au dessus de HCatalog
dimanche 28 avril 13
Crowd-Sourced Intelligence Built into Search over
Hadoop
dimanche 28 avril 13
Interractions with Big-DataHDFS Command Line System Administrator
Key-Value store Query
Engineer
IndexKeyword search
End User
dimanche 28 avril 13
Interractions with Big-DataHDFS Command Line System Administrator
Key-Value store Query
Engineer
IndexKeyword search
End User
Reflected Intelligence
dimanche 28 avril 13
Pour aller plus loin !
http://hadoopsummit.org/amsterdam/schedule/
http://fr.slideshare.net/Hadoop_Summit/
http://www.youtube.com/user/HadoopSummit
dimanche 28 avril 13
Merci !
Vincent HeuschlingGsm : 06 61 88 76 71
Email : [email protected] : http://www.affini-tech.com
Twitter : @affinitech & @vhe74
dimanche 28 avril 13