44
palais des congrès Paris 7, 8 et 9 février 2012

Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

Embed Size (px)

Citation preview

Page 1: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

palais des

congrès

Paris

7, 8 et 9

février 2012

Page 2: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

7 Février 2012Olivier Tolon - Spécialiste Solution SQL Server PDWGilbert Breton – Architecte SQL Server PDWMicrosoft

Accélérez vos entrepôts de données avec

les Appliances Microsoft

SQL Server Fast Track

Parallel Data Warehouse

Page 3: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

• Data Warehousing aujourd’hui & Challenges Associés

• Vision Microsoft

• Appliance ?

• Rappel SMP / MPP

• Solutions

– SQL Server Fast Track Data Warehouse

• Concept

• Apports Architectures de référence

– SQL Server Parallel Data Warehouse

• Architecture Hardware

• Architecture Logicielle

• Apports MPP

• Distributed Data Warehouse Architecture

• Résumé

Agenda

Page 4: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

> 10TB 17% 34%

57%Appliances

78%

92%

82 %

Croissance Marché

Massive Parallel Processing

Source – TDWI, “Next Generation Data Warehouse Platforms”

1

2

3

4

5

12

3

4

5

Page 5: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

Solution Data

Warehouse Complete

Choix et flexibilitéEvolutivité Massive à prix

réduit

Vision Microsoft Data WarehouseFaire de SQL Server la plus rapide et la plus abordable des bases

pour tous les clients quelle que soit la taille de base

Adminsitration Simplifiée du Data Warehouse

Page 6: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

Appliance ????

Définition générale• Dispositif, outil ou système conçu pour un

usage particulier

Transposition aux Entrepôts de Données :• Infrastructure matérielle dédiée• Logiciel SGBD dédié / Configuration optimisée• Service dédié

(Assemblage/Installation/Maintenance…)

Page 7: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse
Page 8: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

FCHBA

A

B

A

B

FCHBA

A

B

A

B FC S

WIT

CH

STORAGECONTROLLER

A

B

A

BCA

CH

E

SER

VER

CA

CH

ESQ

L SE

RV

ERW

IND

OW

SC

PU

CO

RES

CPU Feed Rate HBA Port Rate Switch Port Rate SP Port Rate

A

B

DISK DISK

LUN

DISK DISK

LUN

SQL Server Read Ahead Rate

LUN Read Rate Disk Feed Rate

Goulots d’étranglement matériels potentiels

?

? ?

?

?

? ?

? ?

??

?

?

Page 9: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

Microsoft Data Warehousing Offerings

Scalable and reliable SMP platform for data warehousing on any

hardware

Scalable and reliable platform for data

warehousing on any hardware

Reference architectures offering

best price performance for data

warehousing

Appliance for high end MPP Data Warehousing

delivering highest scalability and performance

Ideal for data marts or small to mid-sized

enterprise data warehouses (EDWs)

Ideal for large data marts or mid-sized

EDWs

Ideal for data marts or small to mid-sized

data warehouses with scan-centric workloads

Ideal for high scale or high performance data

marts and EDWs

Software onlyIntegrated Appliance

(Software and Hardware)

Reference Architectures(Software and

Hardware)

DW Appliance(Fully integrated

Software and Hardware)

Scale-Up DW Scale-Up DW Scale-Up DW Scale-Out DW with MPP

10s of terabytes <5 terabytes 5–120 terabytes 5s - 100s of TB

EnterpriseFast Track Data

Warehouse RABDW Appliance

Parallel Data Warehouse

Page 10: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

CPU CPU CPU CPU

Rappel SMP vs MPP

CPU CPU CPU CPU CPU CPU CPU CPUCPU CPU CPU CPU

CPU CPU

Stockage

Stockage

Stockage

CPU

CPU

Stockage

CPU

CPU

Stockage

CPU

CPU

Stockage

CPU

CPU

Stockage

CPU

CPU

Stockage

CPU

CPU

Stockage

CPU

CPU

Stockage

CPU

CPU

Stockage

MPP

SMP

0

1

2

3

4

5

6

7

1TB 5TB 10TB 15TB 20TB

Pro

cess

Tim

e

Page 11: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

Avantages MPP

• Evolutivité (Scalabilité)

• Puissance CPU virtuellement illimité

• Stockage virtuellement illimité

• Architecture shared nothing limitation des contentions possible, notamment– Bus

– Stockage

– Memory

• Pas de goulet d’étranglement au chargement, autant de bases de données que de noeuds

Contrainte MPP

• Choix de la clé de distribution déterminant pour les performances du système

Page 12: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

SQL Server Fast Track

Data Warehouse

Architecture de

référence

Page 13: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

Une méthode de conception de systèmes équilibrés

et performance à un ratio prix/performances réduit

pour les workloads Data Warehouse

Des configurations de référence hardware

développées en collaboration avec des partenaires

constructeur et basées sur cette méthode

Des Best practices de répartition, chargement et

administration de données

SQL Server Fast Track Data Warehouse

Page 14: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

Composants Fast Track Data Warehouse

Software:

• SQL Server 2008 Enterprise

• Windows Server 2008

Hardware:

• Tight specifications for servers, storage and networking

• ‘Per core’ building block

Configuration guidelines:

• Physical table structures

• Indexes

• Compression

• SQL Server settings

• Windows Server settings

• Loading

Page 15: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

Matériels & Intégration

Page 16: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

VIDEO

Fast Track en action

Page 17: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

Fast Track SMP / PDW MPP

2 Proc FT 3,5GB/sec

SAN0,3GB/sec

Higly TunedSAN

1,5GB/sec

4 Proc FT 7GB/sec

8 Proc FT 14GB/sec

MPPN * Débit Nominal

d’1 noeud

PDW 1 Rack

16GB/sec

PDW 2 Racks

32GB/sec

PDW 3 Racks

48GB/sec

PDW 4 Racks

64GB/sec

Max physical throughput

Page 18: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

SQL Server Parallel Data

Warehouse

Appliance

Page 19: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

• Offre appliance Enterprise Data Warehouse High End

– Haute évolutivité - Dizaine à centaines de terabytes

– Haute performance grâce à un système MPP

• Flexibilité et choix

– Plusieurs Fournisseurs matériel possibles

– Possibilité de déploiement au travers d’architecture distribuées

• Solution la plus complète

– Solution data warehouse complète couvrant le poste de travail, data warehouse d’ enterprise (EDW), et les data marts

– Intégration forte avec l’offre de business intelligence Microsoft

– Outillage complet: BI, ETL, MDM, et streaming data

Introduction à Parallel Data Warehouse

Page 20: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

Control Rack Data Rack

Compute Nodes Storage Nodes

Spare Compute NodeD

ual Fib

er

Ch

an

nel

SQL

SQL

SQL

SQL

SQL

SQL

SQL

SQL

Du

al In

fin

iban

d

Control Nodes

Active / Passive

Landing Zone

Backup Node

SQL

Management Servers

Private Network

SQL

SQL

Control Nodes

Landing Zone

Built-inBackup

Page 21: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

SQL

SQL

SQL

SQL

SQL

SQL

SQL

SQL

SQL

SQL

Appliance Parallel Data WarehouseArchitecture matérielle

Compute Nodes

Du

al In

fin

iban

d

Control Nodes

Active/Passive

Landing Zone

Backup Node

Storage Nodes

Spare Database Server

Du

al Fib

er

Ch

an

nel

SQL

Management Servers

Client Drivers

ETL Load Interface

Corporate Backup Solution

Data CenterMonitoring

Corporate Network Private Network

Star Schema

Or

Normalized Data

Data stored on servers

Backup Data

Page 22: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

Control Rack Data Rack

Compute Nodes Storage Nodes

Spare Compute Node

Du

al Fib

er

Ch

an

nel

SQL

SQL

SQL

SQL

SQL

SQL

SQL

SQL

Du

al In

fin

iban

d

Control Nodes

Active / Passive

Landing Zone

Backup

Node

SQL

Management Servers

Private Network

SQL

SQL

Apports PDW– Traitement parallèle massif

Requête 1

La requête 1 est soumise à SQL Server sur le Control Node

??????

???

?

La requête est exécutée sur les 10 noeuds

Le résultat est envoyé au client

Page 23: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

Control Rack Data Rack

Compute Nodes Storage Nodes

Spare Compute Node

Du

al Fib

er

Ch

an

nel

SQL

SQL

SQL

SQL

SQL

SQL

SQL

SQL

Du

al In

fin

iban

d

Control Nodes

Active / Passive

Landing Zone

Backup

Node

SQL

Management Servers

Private Network

SQL

SQL

Apports PDW– Traitement parallèle massif

Performance hors normes grâce à la parallélisation massive des requêtes sur des nœuds ultra shared nothing hautement performants.

Requêtes multiples exécutées simultanémentsur tous les noeuds

PDW supporte le requêtage pendant le chargement de données.

?

?

?

?

?

?

?

?? ?

??

? ???

??? ? ??????? ? ??????? ? ????

??? ? ??????? ? ????

??? ? ??????? ? ??????? ? ????

??? ? ??????? ? ????

Page 24: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

Possibilités de positionnement de données

• RépliquéeUne structure de table est copiée dans son intégralité sur chaque nœud PDW.

• DistribuéeUne structure de table qui est répartie uniformément sur tous les nœuds sur la base

d’une colonne de distribution uniforme. (Chaque distribution est une table physique

séparée au niveau moteur de chaque nœud)

• Ultra Shared NothingCapacité à mixé à la fois des tables distribuée et répliquées pour minimiser les

mouvements entre les nœuds.

• Les petites tables sont stockées plus efficacement en les répliquant sur

chaque nœud.

• Certaines opération seront alors plus efficaces (opérations mono nœuds, ex:

jointure compatibles avec la clé de distribution)

Page 25: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

Tables répliquées

Exemple de schéma en étoile: Les petites tables de dimensions sont répliquées

Time Dim

Date Dim ID

Calendar Year

Calendar Qtr

Calendar Mo

Calendar Day

Store Dim

Store Dim ID

Store Name

Store Mgr

Store Size

Product Dim

Prod Dim ID

Prod Category

Prod Sub Cat

Prod Desc

Sales Facts

Date Dim ID

Store Dim ID

Prod Dim ID

Mktg Camp Id

Qty Sold

Dollars Sold

Mktg

Campaign

Dim

Mktg Camp ID

Camp Name

Camp Mgr

Camp Start

Camp End

TD

SD

PD

MD

SF

1

TD

SD

PD

MD

SF

09-

16

TD

SD

PD

MD

SF

17-

24

TD

SD

PD

MD

SF

25-

32

TD

SD

PD

MD

SF

33-

40

TD

SD

PD

MD

SF

01 -

08

Page 26: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

Tables distribuées

Exemple de schéma en étoile;Les grandes tables de faits sont distribuées (hash) sur tous les « databaseserveurs » de la configuration

Time Dim

Date Dim ID

Calendar Year

Calendar Qtr

Calendar Mo

Calendar Day

Store Dim

Store Dim ID

Store Name

Store Mgr

Store Size

Product Dim

Prod Dim ID

Prod Category

Prod Sub Cat

Prod Desc

Sales Facts

Date Dim ID

Store Dim ID

Prod Dim ID

Mktg Camp Id

Qty Sold

Dollars Sold

Mktg

Campaign

Dim

Mktg Camp ID

Camp Name

Camp Mgr

Camp Start

Camp End

TD

SD

PD

MD

SF

1

TD

SD

PD

MD

SF

09-

16

TD

SD

PD

MD

SF

17-

24

TD

SD

PD

MD

SF

25-

32

TD

SD

PD

MD

SF

33-

40

TD

SD

PD

MD

SF

01-

08

Page 27: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

SQL Server PDW : Create table…Create Table store_sales (column defs)

with

distribute_on (ss_item_sk),

cluster_on (ss_date_sk),

partition_on (ss_date_sk) range for values (0,1,2,3,4,5)

8 Cluster Index Tables per node

1 per File Group- Dist a to h

6 Partition functions

(ss_date_sk) per table

per filegroup

8K8K

8K8K

8K

N-number of

Pages

Tuple

Create Table h_store_sales_aCreate Table h_store_sales b

Create Table h_store_sales_h

Create Table h_store_sales_ …

Page 28: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

PDW : Puissance de traitement

Select *from store_sales ;

Q1

Q2

Q3

Q4

Q5

Q6

Database Server

Q7

Q8

Q1

Q2

Q3

Q4

Q5

Q6

Database Server

Q7

Q8

Q1

Q2

Q3

Q4

Q5

Q6

Database Server

Q7

Q8

Q1

Q2

Q3

Q4

Q5

Q6

Database Server

Q7

Q8

SQL Server

mad_store_sales_amad_store_sales_bmad_store_sales_cmad_store_sales_dmad_store_sales_emad_store_sales_fmad_store_sales_gmad_store_sales_h

Les 8 requêtes sont exécutées en parallèle sur chacun des “Database Servers” au niveau de chacune des distributions

Control Node Madison

Plan

Plan ID

Etapes élémentairesd’exécution

Temp Table

DSQL

L’ensemble des requêtes est envoyé à chacun des “Database server” via Infiniband

Translation to SQL Server 2008Select * from mad_store_sales_aSelect * from mad_store_sales_bSelect * from mad_store_sales_cSelect * from mad_store_sales_dSelect * from mad_store_sales_eSelect * from mad_store_sales_fSelect * from mad_store_sales_gSelect * from mad_store_sales_h

Page 29: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

VIDEO

Parallel Data Warehouse en action

Page 30: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

• Matériel fournis par un seul fournisseur

• Choix parmi plusieurs fournisseurs

• Commandable par rack

• Le fournisseur:

– Assemble l’appliance

– Installe l’appliance avec OS, SQL Server, et logiciel PDW

• Appliance installée en 1 – 2 jours

• Support

– Microsoft reçoit le 1er appel

– Le partenaire matériel fourni le support site

Parallel Data WarehouseExpérience en mode appliance

Page 31: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

Focus sur quelques avantages majeurs

SQL Server Parallel Data Warehouse

Page 32: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

Prêt à l‘emploi

• PDW livré prêt à l‘usageComplètement pré-installé & pré-configuré

• Plug & Play

• Industry Standard– Software

– Servers

– Storage components

– Network Switches

– Cabling

– Licences

– Power consumption

– 19“Racks

Page 33: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

Nativement optimisé – Création de base

Spécification des tailles répliquée et distributée

Création et dimensonnement automatiques des bases sur les

noeuds

CREATE DATABASE PDW

WITH

(AUTOGROW = ON,

REPLICATED_SIZE = 1000 GB,

DISTRIBUTED_SIZE = 100 GB,

LOG_SIZE = 10 GB);

Simplicité d’utilisation

Page 34: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

Console d’administration

Simplicité d’utilisation

Page 35: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

Backup

Commande simple Command :

BACKUP DATABASE PDW TO “PDW_FULL“

BACKUP database: 3.75 TBin 48 min. (avg. 1300 MB/sec)RESTORE database: in 1H 44min. (avg. 595 MB/sec)

Effective 1.29 TB stored on disk

Page 36: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

Migration de données

Page 37: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

Fichier plat 75 GB / 600 millions de lignes

Chargements ultra rapides

Command syntax: dwloader.exe

-i D:\TPCH\lineItem.tbl

-M Fastappend -E -m

-d tpch_100gb

-E -c -b 10000 -rt value -rv 100

-R LineItem.tbl.rejects

-e ascii -t "|" -r \r\n

-U sa -P {password}

-T tpch_100gb.dbo.lineitem_Load

Option Loadtime MB/sec

Reload 09 min 35 sec 133

Append 09 min 42 sec 131

FastAppend 02 min 23sec 534.7

Sans optimisation :

45 fois plus rapide...

Page 38: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

Performance de copie

Table LineItem précédemment chargée : 75 GB / 600 million

de lignes

select * into lineitem_compressed FROM

tpch_100gb.dbo.lineitem

36 min 07 sec (SMP) contre 2 min 12 sec ... sur PDW

14 fois plus

rapide

Page 39: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

Une architecture distributée permet la flexibilité d’ajouter ou changer des workloads ou groupes

d’utilisateurs variés, tout en maintenant la consistance des données au travers de l’entreprise.

La technologie de copie

rapide de données

permet des mouvements

de données rapide et la

consistance entre l’ EDW

et les Data Marts

Création de Data Marts SQL Server 2008, Fast Track Data Warehouse, et SQL Server

Analysis Services

Permet le support de

groupe utilisateurs ayant

des SLA différents:

• Performance

• Capacité

• Chargement

• Concurrence

• Sécurité

Architecture Data Warehouse distribuéeFlexibilité et alignement Business

Page 40: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

Hub & SpokeUrbanisation maîtrisée

Data Warehouse

Application E

Application DApplication A

Application B Application C

TOP

DOWN

Fast Track

Fast Track

Fast Track

Fast Track

Fast Track

App E

App D

App C

Fast Track

App A

Fast Track

App B

Infiniband

Master Data Mgmt

BOTTOM

UP

Page 41: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

Remote table copy

Création d’une tabler Heap sur un serveur destination SMP

NYCPDW-LZ01 :

CREATE REMOTE TABLE destdb.dbo.LineItem_test AT

( 'Data Source = NYCPDW-LZ01,1433; User ID = sa; Password = x;' )AS SELECT * FROM tpch_100gb.dbo.lineitem_load

Vériciation statut:

SELECT * FROM sys.dm_pdw_dms_workersWHERE type = 'PARALLEL_COPY_READER'and destination_info = '[destdb].[dbo].[LineItem_test]'

Résultat: 21 min 25 sec !!!600 millions de lignes

Page 42: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

Performance

1,800

1,200

11 4-

200

400

600

800

1,000

1,200

1,400

1,600

1,800

2,000

Test Query Performance

Query Time (sec)

Page 43: Accélérez vos entrepôts de données avec les Appliances Microsoft : SQL Server Fast Track et Parallel Data Warehouse

• Fast Track Data Warehouse offre

• Haute performance SMP

• 5 à 120 terabytes en v3.0

• Déploiement rapide

• Parallel Data Warehouse offre

– Evolutivité Massive jusqu’à plusieurs 10 à plusieurs centaines de terabytes

– Appliances massivement parallèles (Massively Parallel Processing: Query, Load)

– Déploiement immédiat / Administration réduite

– Chargement ultra rapide

– Support de requêtes complexes et non prédictibles

– Enterprise Data Warehouse Distribué (Hub & Spoke)

• Commun

– Choix de matériels standard et de type commodité

– Intégration à la plateforme Microsoft BI et solutions tierces

Conclusion - Points forts