Big Data : SQL, NoSQL ? Pourquoi faire un choix ?

Donnez votre avis !Depuis votre smartphone, sur : http://notes.mstechdays.fr

De nombreux lots à gagner toutes les heures !!!

Claviers, souris et jeux Microsoft…

Merci de nous aider à améliorer les TechDays

http://notes.mstechdays.fr

Big Data : SQL ? NoSQL ?

Pourquoi faire un choix ?Gilbert Breton – Bruno Lucas – Olivier

TolonArchitectes Avant-Ventes

Dell / Microsoft

Serveurs / Entreprise / Réseaux / IT

UN NOUVEAU MONDE DES DONNÉES



LE MONDE DES DONNÉES À CHANGÉ

D’ici 2015, les organisations intégrant des sources et types de données à haute-valeur, diverses, au sein d’une infrastrcture cohérente surpasseront financièrement leurs concurrents de plus de 20%..

– Gartner, Regina Casonato et al., “Information Management in the 21st Century

Consumerization of IT

10x tous les 5 ans

85% nouveaux types de données

Explosion des données

4.3 devices connectés par adulte

27%Utilisent des source media sociaux


Social & web analytics

Flux de donées temps réel

Advanced analytics

Quel est la réputation de ma marque et de mes produits sur les réseaux sociaux ?

Comment optimiser ma flotte en fonction des profils de temps et de traffic ?

Comment mieux prédire ma future activité client ?

AUJOURD’HUI, LES QUESTIONS BUSINESS POSÉES ONT CHANGÉ


Utilisation de l’existant

Achat appliance

complexe et spécifique

Achat solution dédiée “Big

Data”

Achat suite dédiée

Business Intelligence

LES LIMITATIONS DES OPTIONS “BIG DATA” ACTUELLES …

Scalabilité Limitée

Coûts élevés

Montée en compétence longue

Complexité de la solution


Conçu pour Big Data

Performance et évolutivité nouvelle

génération

Générer de la valeur depuis TOUTES vos données, QUELLE que soit leur taille

Conçu pour une Valeur

Optimale

INTRODUCTION DE SQL SERVER 2012 PARALLEL DATA WAREHOUSE

CONCU POUR BIG DATA



DES CARACTERISTIQUES DIFFERENTES


LIMITATIONS DE L’ANALYSE BIG DATA AUJOURD’HUI

Warehouse

Apprentissage MapReduce

Avant analyse, extraction technique de HDFS vers l’entrepôt de données

HDFS (Hadoop)HDFS

(Hadoop)

Prise en main complexe : Lent & Peu éfficace

ET/OU


QU'EST-CE QUE HADOOP ?Hadoop est un projet Open Source géré par Apache Software Fundation basé sur le principe Map Reduce et de Google File System, deux produits Google Corp.

Hadoop est un système de traitement de données évolutif pour le stockage et le traitement par lot de très grande quantité de données. Il est adapté aux stockages de grande taille et aux analyses de type "ad hoc" sur de très grandes quantité de données.

Hadoop est une plateforme de stockage de données consolidée (HDFS) et le traitement (MapReduce) qui est hautement évolutive, à tolérance de pannes, et Open Source.

Hadoop ne couvre pas tous les aspects de Big Data, mais adresse particulièrement les grandes volumétries et variés (processus par lots Hadoop et n’est pas adapté pour l’analyse en temps réel)

Confidential11

04/13/2023

Ce qui rend Hadoop unique?Consolide Tout - Toutes vos données en un seul endroit stockées dans HDFSExcelle dans l'analyse complexe – Analyse massivement parallèle sur plusieurs nœudsEconomique - Peut être installé sur des serveurs x86 standard

MapReduce

Traitement distribué sur plusieurs serveurs

Composants HADOOP

Hadoop Distributed File System (HDFS)

Le partage de fichiers et la protection des données sur

des serveurs physiques

Serveurs / Entreprise / Réseaux / IT Confidential12

04/13/2023

UN CAS D’UTILISATION

Serveurs / Entreprise / Réseaux / IT Confidential13

04/13/2023

QUELQUES DOMAINES D'UTILISATION POUR HADOOP…

Analyse de risquesBâle III Tests de liquiditésDétection de fraudes

Banque

• Données des mobiles• ETL complexe

Web

Vente de détail • Inventaire prédictif

Général

• Traitement des Log• Traitement des menaces

Sécurité

• Plate-forme commune de données

• BdD évolutivité• Stockage traditionnel• Maîtrise des coûts

Télécommunications

• Profil publicité• Réseaux sociaux

Valorisez vos données …

Serveurs / Entreprise / Réseaux / IT 14

04/13/2023

Distributed Storage(HDFS)

Query(Hive)

Hadoop Ecosystem.

Distributed Processing(Map Reduce)

Scripting

(Pig)

NoSQ

L Data

base

(HB

ase

)

Metadata(HCatalog)

Data

Inte

gra

tion

( OD

BC

/ SQ

OO

P/ R

EST)

Busin

ess In

tellig

ence

(E

xcel, Po

werV

iew

…)

Machine Learning(Mahout)

Graph(Pegasus)

Stats processin

g(RHadoop)

Pipelin

e /

workfl

ow

(Oozie

)

Log fi

le

aggre

gatio

n(Flu

me)

PDW

Matériels standards – Serveurs & Réseau


04/13/2023

EXEMPLE D’UN CAS CLIENT

Besoins clientDéfinir une solution innovante pour stocker et analyser de grandes quantités d'images satellites

Solution Dell– Logiciel Apache Hadoop – Cloudera partnership

• 188 x Worker Node PE-C 6105 servers with 2 nodes including each

• 2 x AMD processors 8c 2.5Ghz / 24GB RAM• 4 x HDD 2TB SAS NL 7.2K RPM• 2 x Dual Port GbE

– 4 x Master Node PE-R715 servers including each• 2 x AMD processors 8c 2.6Ghz / 128GB RAM• 5 x HDD 1TB SAS NL 7.2K RPM• 2 x Dual Port 10GbE

– 2 x Dell Force 10 switch 44-port GbE on top of rack

– 2 Dell Force10 Z9000 32-port 40GbE pour la couche d’aggrégation

– Dell on-site Installation, + Dell ProSupport

Une architecture évolutive efficace pour l'analyse d'image

satellite

PE-C6105 Server PE-R715 Server

http://www1.us.dell.com/content/products/superview.aspx?c=us&l=en&pageoverride=gallery_view1&s=corp&xdb=Z2xvYmFsOnByb2R1Y3RzOnBlZGdlOmZsYXNoOnBvd2VyZWRnZS1jNjEwNSNyZWdpb24=&modaltype=box&position=center&ovrcolor=gray&modalwidth=850&modalheight=550

http://www.dell.com/content/products/superview.aspx?c=us&l=en&pageoverride=gallery_view1&s=corp&xdb=Z2xvYmFsOnByb2R1Y3RzOnBlZGdlOmZsYXNoOnBvd2VyZWRnZS1yNzE1I3JlZ2lvbg==&modaltype=box&position=center&ovrcolor=gray&modalwidth=850&modalheight=550


04/13/2023

ARCHITECTURE DE RÉFÉRENCE

2 x EdgeNode• 2 CPU 6 core• 48GB RAM• 6 x HDD 600GB 15K (Raid1)• 2 x 10GbE Ports

3 to n DataNode• 2 CPU 6 core• 32GB RAM Mini• 12 x HDD 3TB 7.5K• 2 x 10GbE Ports

Network Switches

2 x NameNode/BackupNode• 2 CPU 6 core• 96GB RAM• 6 x HDD 600GB 15K (Raid1)• 2 x 10GbE Ports

1 x AdminNode• 2 CPU 6 core• 48GB RAM• 6 x HDD 600GB 15K (Raid1)• 2 x 10GbE Ports

Edge Nodes Control Nodes Worker Nodes


Database

HDFS (Hadoop)

Avancée fondamentale dans le traitement des données

SQL Server 2012 PDW Powered by PolyBase

INTRODUCTION À POLYBASE

SQL Requête unique; Structuré & non-structuré

• Requêter et joindre des tables Hadoop avec des tables relationnelles

• Utilisation de language SQL Standard• Select, From Where

Compétences SQL

Existantes

Pas d’intervention

IT

Gain de coûts et de

temps

Analyze de tous types de

données


External Tables and full SQL query access to data stored in HDFS

HDFS bridge for direct & fully parallelized access of data in HDFS

Joining ‘on-the-fly’ PDW data with data from HDFS Parallel import of data from HDFS in PDW tables for persistent storage

Parallel export of PDW data into HDFS including ‘round-tripping’ of data

Unstructured dataHDFS Data Nodes

Structured data

EnhancedPDW Query

Engine

Regular T-SQL

Results

PDW V2

External Table

HDFS bridge

INTEGRATION AVEC HADOOP


PROJECT POLYBASE• Accès aux données en parallèles entre les PDW Compute Nodes et Hadoop

Data Nodes• Support de tous type de fichiers HDFS• “Structure” des données “non-structures”

PDWHadoop

Query

1

2

HDFS blocks

Results

3

HDFS DB

SQL in, results out

PDWHadoop

Query

1

2

HDFS blocksResults

HDFS DB

SQL in, results stored in HDFS


PROJECT POLYBASETransfert des données en parallèles

Control Node Compute Node

Name NodeData Nod

e

PDW Appliance

Compute Node

Data Nod

e

Data Nod

e

Data Nod

e

Data Nod

e

Data Nod

e

Data Nod

e

Data Nod

e

Hadoop Cluster


TABLE EXTERNE• Representation interne des données résidant dans Hadoop/HDFS• Nouvelle syntaxe T-SQL

CREATE EXTERNAL TABLE table_name ({<column_definition>} [,...n ]) {WITH (LOCATION =‘<URI>’,[FORMAT_OPTIONS = (<VALUES>)])}[;]

Indicates ‘External’ Table

1.Required location of

Hadoop cluster and file(support of delimited text

file only in PDW V2)

Optional Format Options associated with data import from HDFS

(e.g. arbitrary field delimiters & reject-related thresholds)

2. 3.


PROJET POLYBASE – EVOLUTION• Cost-based decision on how much data needs to be pushed to PDW• SQL operations on HDFS data pushed into Hadoop as MapReduce jobs

HDFS

PDWHadoop

Results

7

2Map job

5

HDFS

blocks DB

3 4 6

SQL

1

MapReduce

PERFORMANCE ET ÉVOLUTIVITÉ NOUVELLE GÉNÉRATION



LIMITATIONS: PERFORMANCE ET ÉVOLUTIVITÉ

Scale UP

Tables actuelles (Partitions)

Stockage ligne

Evolutivité limitée pour architecture monolithique (SMP)

Performances non-optimales de certaines requêtes DW


Scale OUT

…

MPP permet une évolutivité quasi linéaire

• Architecture MPP - Massively Parallel Processing

• Scale Out: Ajout incrémental de matériel pour une évolutivité quasi linéaire

• Shared Nothing Architecture

Jusque 100X + rapide que SMP DW

Tâches complexes

Evolutivité quasi linéaire

Easy to Scale (Pas d’upgrade

coûteux)

MOTEUR MPP - MASSIVELY PARALLEL PROCESSING


Traitement de requêtes ultra rapide

Customer

Sales

Country

Supplier

XVELOCITY - PERFORMANCES NOUVELLE GÉNÉRATION

Products Columnstore fournit des performance hors-norme

• xVelocity columnstore stocke les données compressées et modifiables

• Stocke les données en format colonne

• Performances nouvelle génération optimisées in-Memory

• Updateable pour supporter l’import massif comme le chargement au fil de l’eau

Jusqu’à 50X + rapide

Compression jusqu’à

15x

Gain de coûts et de

temps

DW Temps réel


OrderDateKey ProductKey StoreKey RegionKey Quantity SalesAmount

20101107 106 01 1 6 30.00

20101107 103 04 2 1 17.00

20101107 109 04 2 2 20.00

20101107 103 03 2 1 17.00

20101107 106 05 3 4 20.00

20101108 106 02 1 5 25.00

20101108 102 02 1 1 14.00

20101108 106 03 2 5 25.00

20101108 109 01 1 1 10.00

20101109 106 04 2 4 20.00

20101109 106 04 2 5 25.00

20101109 103 01 1 1 17.00

ColumnStore Index Exemple



20101107 106 01 1 6 30.00

20101107 103 04 2 1 17.00

20101107 109 04 2 2 20.00

20101107 103 03 2 1 17.00

20101107 106 05 3 4 20.00

20101108 106 02 1 5 25.00


20101108 102 02 1 1 14.00

20101108 106 03 2 5 25.00

20101108 109 01 1 1 10.00

20101109 106 04 2 4 20.00

20101109 106 04 2 5 25.00

20101109 103 01 1 1 17.00

1. Horizontally Partition (create Row Groups)

~1M rows


OrderDateKey

20101107

20101107

20101107

20101107

20101107

20101108

ProductKey

106

103

109

103

106

106

StoreKey

01

04

04

03

05

02

RegionKey

1

2

2

2

3

1

Quantity

6

1

2

1

4

5

SalesAmount

30.00

17.00

20.00

17.00

20.00

25.00

OrderDateKey

20101108

20101108

20101108

20101109

20101109

20101109

ProductKey

102

106

109

106

106

103

StoreKey

02

03

01

04

04

01

RegionKey

1

2

1

2

2

1

Quantity

1

5

1

4

5

1

SalesAmount

14.00

25.00

10.00

20.00

25.00

17.00

2. Vertically Partition (create Segments)


OrderDateKey

20101107

20101107

20101107

20101107

20101107

20101108

ProductKey

106

103

109

103

106

106

StoreKey

01

04

04

03

05

02

RegionKey

1

2

2

2

3

1

Quantity

6

1

2

1

4

5

SalesAmount

30.00

17.00

20.00

17.00

20.00

25.00

Some segments will compress more than others

OrderDateKey

20101108

20101108

20101108

20101109

20101109

20101109

ProductKey

102

106

109

106

106

103

StoreKey

02

03

01

04

04

01

RegionKey

1

2

1

2

2

1

Quantity

1

5

1

4

5

1

SalesAmount

14.00

25.00

10.00

20.00

25.00

17.00

*Encoding and reordering not shown

3. Compress Each Segment


OrderDateKey

20101107

20101107

20101107

20101107

20101107

20101108

ProductKey

106

103

109

103

106

106

StoreKey

01

04

04

03

05

02

RegionKey

1

2

2

2

3

1

Quantity

6

1

2

1

4

5

SalesAmount

30.00

17.00

20.00

17.00

20.00

25.00OrderDateKey

20101108

20101108

20101108

20101109

20101109

20101109

ProductKey

102

106

109

106

106

103

StoreKey

02

03

01

04

04

01

RegionKey

1

2

1

2

2

1

Quantity

1

5

1

4

5

1

SalesAmount

14.00

25.00

10.00

20.00

25.00

17.00

4. Read The Data

SELECT ProductKey, SUM (SalesAmount) FROM SalesTable WHERE OrderDateKey < 20101108

Column Elimination

Segm

ent

Elim

inati

on


Pourquoi est-ce important?Reduction de l’espace de stockageAdministration simplifié – pas d’index secondaires à positionnerTous les types de données supportés par PDW peuvent être utilisés

Clustered Columnstore est le stockage à priviliégié avec PDW 2012

CLUSTERED COLUMNSTORE INDEX

** Space Used = Table space + Index space

0.0

5.0

10.0

15.0

20.0

Space Used in GB (101 million row table)

91% savings


Qu

ery

1

Qu

ery

2

Qu

ery

3

Qu

ery

3.5

Qu

ery

4

Qu

ery

4.5

Qu

ery

5

Qu

ery

8

Qu

ery

9

Qu

ery

10

Qu

ery

12

Qu

ery

13

Qu

ery

14

Qu

ery

15

Qu

ery

16

Qu

ery

17

1.00

10.00

100.00

1000.00

10000.00

-5.0

45.0

95.0

145.0

195.0

245.0

295.0

345.0

22.7 31.01.7 1.7 3.2 10.3 -1.0

302.4

223.9

1.3 7.5 1.5 1.6

92.1

3.9

Row Store Column Store Improvement

AMELIORATION DES PERFORMANCES AVEC CCI

CONÇU POUR UNE VALEUR OPTIMALE



Données Hadoop

Données Structurée

s

UTILISATION D’EXCEL POUR LE BIG DATA

Outils familiers pour l’analyse Big Data

• Intégration native Microsoft BI et PDW

• Données structurées et non structurée dans une même feuillle Excel

• Outils largement déployés et facilement utilisables

Pas d’intervention

IT

Analyze de tous types de

données

Excel largement

déployé


Du + petit (0TB) au + grand (5PB)

• Démarrer petit avec un entrepôt de quelques Terabyte

• Ajout de capacité jusque 5 Petabytes

0TB 5 PB

Ajout decapacité

AddCapacity

Démarrer petit et croitre

VL DWPB

Pas d’indisponibilit

é

Démarrer petit et croitre avec les besoins

Ajout de Capacité de traitement


POWER OF COMBINING THE WORLDS DATA

Personal Data

OrganizationalData

CommunityData

WorldData

Value


MICROSOFT BIG DATA SOLUTION

Report(PowerView) Excel 2013 (PowerPivot) Custom ApplicationPredictive Analytics

OLAP(Data Mining algorithm)Reporting & Analysis

ERPDevices CrawlersSensors Bots MES LOB APPs

Hadoop on Windows (Unstructured Data)

Microsoft Parallel Data Warehouse (Structured Data)

Polybase

Custom Development Data Mining algorithm (R/C++)

SQLMap Reduce

Column Store Row base


SQL SERVER PDW 2012 REPOUSSE LES LIMITES

Performance et scalabilité nouvelle génération

Conception Matérielle et Logicielle pour une apport

optimal au meilleur prix

Conçu pour le Big Data avec requêtage intégré basé sur

du SQL Standard

Integration native avec les outils BI familiés et largement adoptés

Parallel Data WarehouseHauteme

nt Evolutif

Coûts Reduits SQL Simplicité

de la solution

Formez-vous en ligne

Retrouvez nos évènements

Faites-vous accompagner gratuitement

Essayer gratuitement nos solutions IT

Retrouver nos experts Microsoft

Pros de l’ITDéveloppeurs

www.microsoftvirtualacademy.com

http://aka.ms/generation-app

http://aka.ms/evenements-developpeurs

http://aka.ms/itcamps-france

Les accélérateursWindows Azure, Windows Phone,

Windows 8

http://aka.ms/telechargements

La Dev’Team sur MSDNhttp://aka.ms/devteam

L’IT Team sur TechNethttp://aka.ms/itteam

http://www.microsoftvirtualacademy.com/

http://www.microsoftvirtualacademy.com/








http://aka.ms/Cloud

http://www.microsoft.com/france/msdn/generation-app/accompagnement.aspx?v=WindowsPhone

http://www.microsoft.com/france/msdn/generation-app/accompagnement.aspx?v=Windows8



http://aka.ms/devteam

http://aka.ms/devteam

http://aka.ms/itteam

Microsoft met à l’honneur vos plus belles réalisations avec SQL Server sur son site ! Pour candidater, rendez-vous sur le stand Server & Cloud

Un lien pour tout savoir sur SQL Server 2012 : www.microsoft.fr/SQL

Technology

Big Data : SQL, NoSQL ? Pourquoi faire un choix ?