View
185
Download
7
Category
Preview:
Citation preview
ESSALIFI Mohamed Faiçal
mf.essalifi@gmail.com1
by Alexey Evmenkov
2
I. Introduction• Pourquoi Big Data?• Historique• Les fournisseurs du Big Data (Hortonworks,
Cloudera, Microsoft HDInsight, MapR,…)
II. Les composantes principales de Hadoop• L'architecture Hadoop• HDFS• MapReduce• YARN• MySQL vs MongoDB• Hive• Autres……
III. Planifier son cluster Hadoop• Choisir le bon matériel• Réseau• Atelier 1 : Mise en place d'une architecture
Hadoop• Atelier 2 : Manipuler les fichiers de
configuration
IV. Gestion de Clusters• Stocker les données dans HDFS • Le Namenode et le Datanode• Commandes HDFS• Atelier 3 : Rajouter et retirer des « Cluster Nodes »• Atelier 4 : Optimiser un Cluster
V. Manipuler les données• Manipuler les données avec différents formats de
fichiers• Créer des bases de données et des tables Hive• Analyser les données avec Pig (script)• Transformer les ensembles de données avec Pig et
Hive• Traitement parallèle avec Impala • Réduire le temps d'accès aux données avec Shark• Atelier 5 : Import d’un CSV et manipulation via Hive• Atelier 6 : Analyser les données avec Pig• Atelier 7 : Activer Impala et Shark pour des
requêtes plus rapides
Table de matière
3
1.1. Pourquoi Big Data?
1 : Introduction2 : Les composantes principales de Hadoop3 : Les fournisseurs du Big Data4 : Planifier son cluster Hadoop5 : Gestion de Clusters6 : Manipuler les données
4
Introduction
5
C’est quoi une transformation digitale
Votre Site Web E-Commerce Réseaux sociauxInteraction
INTRODUCTIONDATABIG DATA
6
C’est quoi une transformation digitale
Votre Site Web E-Commerce Réseaux sociauxInteraction
INTRODUCTIONDATABIG DATA
7
C’est quoi une transformation digitaleINTRODUCTIONDATABIG DATA
Transformation digitale
8
Donnée
C’est quoi une transformation digitaleINTRODUCTIONDATABIG DATA
9
Donnée
C’est quoi une transformation digitaleINTRODUCTIONDATABIG DATA
10
C’est quoi une transformation digitaleINTRODUCTIONDATABIG DATA
Prediction
11
Les données le nouveau pétroleINTRODUCTIONDATABIG DATA
12
Big Data analysis of the 2012 US presidential elections
13
Big Data analysis of the 2012 US presidential elections
14
Les données le nouveau pétroleINTRODUCTIONDATABIG DATA
15
Les données le nouveau pétroleINTRODUCTIONDATABIG DATA
Où se trouve les sources de ce nouveau pétrole?
16
Big Data Source : InternetINTRODUCTIONDATABIG DATA
17
Big Data Source : Open DataINTRODUCTIONDATABIG DATA
https://fr.wikipedia.org/wiki/Open_data
L'ouverture des données (open data) représente à la fois un mouvement, une
philosophie d'accès à l'information et une pratique de publication de données
librement accessibles et exploitables.
18
Big Data Source : Open Data
https://fr.wikipedia.org/wiki/Open_data
INTRODUCTIONDATABIG DATA
19
Big Data Source : Open DataINTRODUCTIONDATABIG DATA
20
Big Data Source : Open DataINTRODUCTIONDATABIG DATA
21
Pourquoi le Big Data?INTRODUCTIONDATABIG DATA
22
Pourquoi le Big Data?INTRODUCTIONDATABIG DATA
23
Big DataINTRODUCTIONDATABIG DATA
Concept
Donnée
Analyse et Innovation
?
ValeurEt prediction
24
Big Data (éthique, déontologique et sociétal)INTRODUCTIONDATABIG DATA
Concept
Donnée
Analyse et Innovation
éthique, déontologique et sociétal
ValeurEt prediction
25
Big Data (Pour quel domaine)INTRODUCTIONDATABIG DATA
Partout
FinanceGestion de stock
SanteEnergie
26
Big Data (Pour quel domaine)INTRODUCTIONDATABIG DATA
5 exemples concrets d’application du Big Data
http://www.data-business.fr/5-exemples-concrets-dapplication-du-big-data/
1. Le Big Data prédit les conflits mondiaux
L’outil GDELT (Global Database of Events, Languages and Tones), développé par l’université de Georgetown et accessible de manière open source, compile toutes les actualités (communiqués de presse, articles, discours…) parues depuis 1979.
Il applique ensuite des techniques d’analyse sémantique et des algorithmes auto-apprenants pour faciliter la compréhension
des événements récents et des principes de cause à effet pour arriver à prédire les conflits mondiaux.
2. Le Big Data aide la recherche contre le cancerProject Data Sphere met à disposition de tous des données de tests cliniques passés pour permettre à chacun de conduire ses
propres analyses, et, dans l’esprit du Crowd-Innovation, d’améliorer les méthodes ou de découvrir des corrélations encore
inconnues.
3. Le Big Data nous aide à comprendre le monde
L’entreprise Kaggle, qui met à disposition sa communauté de 150 000 data-scientists pour aider les entreprises à résoudre
des défis liés à l’analyse de données, vient de lancer un concours visant à définir un algorithme capable de comprendre les
facteurs qui influencent la création d’un boson de Higgs lors de la collision de deux atomes. Le projet est mandaté par le
CERN et a été élaboré par deux chercheurs du CNRS.
4. Le Big Data permet de gérer les catastrophes naturelles
En utilisant des outils de tracking, d’analyse sémantique et de visualisation en temps réel, l’Organisation Mondiale de la
Migration a pu assister les forces locales en dégageant les urgences sanitaires, la localisation des ressources clés et en
optimisant l’allocation des ressources sur le terrain lors du typhon qui a frappé les Philippines en 2013
5. Le Big Data aide à éradiquer les épidémies
Des scientifiques de l’université de Bringhma Youns essaient de simuler la localisation des mouches tsé-tsé dans le but
d’aider à contrôler la propagation d’épidémises. De la même manière, la police de Chicago utilise le Big Data et la
visualisation de données pour contrôler les populations de rats dans la ville.
27
Big Data (Pour quel domaine)INTRODUCTIONDATABIG DATA
BIG DATA. Neuf jours avant que la
propagation d'Ebola soit officiellement
déclarée par l'OMS le 23 mars comme
étant une épidémie, un groupe de
chercheurs et de spécialistes informatiques
à Boston avait déjà remarqué la diffusion
du virus de la fièvre hémorragique en
Guinée.http://www.sciencesetavenir.fr/sante/les-big-data-nouvel-outil-contre-les-epidemies-comme-ebola_28006
Le Big Data réconcilie « l’assuré et
son assureur »
« pay how you drive », c'est-à-dire
l'utilisation de la télématique pour
moduler la prime en fonction du
comportement au volant, débarque à
peine en France et n'a pas vraiment
décollé aux Etat-Unis.
http://www.lebigdata.fr/business/sante
28
1.2. Historique?
1 : Introduction2 : Les composantes principales de Hadoop3 : Les fournisseurs du Big Data4 : Planifier son cluster Hadoop5 : Gestion de Clusters6 : Manipuler les données
29
Historique des Technologies Big DataINTRODUCTIONDATABIG DATA
30
Historique des Technologies Big DataINTRODUCTIONDATABIG DATA
Cluster partagé
31
Historique des Technologies Big DataINTRODUCTIONDATABIG DATA
Google Nutch Project
Haut Disponibilité ??????Réplication ????
Nutch est une initiative visant à construire un moteur de recherche open source. Il
utilise Lucene comme bibliothèque de moteur de recherche et d'indexation. En revanche,
le robot de collecte a été créé spécifiquement pour ce projet.
L'architecture de Nutch est hautement modulaire et permet à des développeurs de créer
des plugins pour différentes phases du processus : récupération des données, analyse des
documents, recherche, etc.
Doug Cutting est l'initiateur et le coordinateur de ce projet.
Il est entièrement développé en langage Java, mais les données qu'il manipule sont dans
un format de données indépendant de tout langage de programmation. En juin 2003 a été
présenté une version opérationnelle d'une démonstration de Nutch sur une base regroupant
100 millions de documents.
32
Historique des Technologies Big DataINTRODUCTIONDATABIG DATA
Google GFS
Base sur la réplication
33
Historique des Technologies Big DataINTRODUCTIONDATABIG DATA
Google Map Reduce
Dispatching de charge
34
Historique des Technologies Big DataINTRODUCTIONDATABIG DATA
Yahoo! Hadoop
35
Historique des Technologies Big DataINTRODUCTIONDATABIG DATA
36
1.3. Les fournisseurs du Big Data
1 : Introduction2 : Les composantes principales de Hadoop3 : Les fournisseurs du Big Data4 : Planifier son cluster Hadoop5 : Gestion de Clusters6 : Manipuler les données
37
Solution Big DataINTRODUCTIONDATABIG DATA
38
Hortonworks
Cloudera
Microsoft HDInsight
Les fournisseurs du Big Data
39
HortonWorks vs Cloudera
40
Q and A
ESSALIFI Mohamed Faiçal
Mf.essalifi@gmail.com 40
Recommended