50
de:code 2019 DP04 Azure Data Services で実現する エンタープライズ データ分析基盤解説 インテリジェントクラウド統括本部 テクノロジーソリューションプロフェッショナル 大蔵 一功

DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

de:code 2019 DP04

Azure Data Servicesで実現する

エンタープライズデータ分析基盤解説

インテリジェントクラウド統括本部

テクノロジーソリューションプロフェッショナル

大蔵 一功

Page 2: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

自己紹介

Page 3: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

セッションの目的

Page 4: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

アジェンダ

Page 5: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

データ分析基盤の変遷

Page 6: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

データを使う目的は様々

意思決定者 ビジネスユーザー データエンジニア データサイエンティスト

リレーショナルデータース ファイル メッセージ

発生したデータをそのまま利用することはほとんどない

Page 7: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

データを利用できる状態にしておく必要がある

意思決定 ビジネス理解 データエンジニア データサイエンティスト

リレーショナルデータース ファイル メッセージ

収集・加工・蓄積

Page 8: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

従来の情報基盤におけるデータ処理の課題

データ収集 データ加工 データ蓄積 データ分析データソース

ETL DWHダッシュボード

レポート

リレーショナルデータ

ベース

ファイル

半構造化・非構造化

データ

メッセージ

ストリームデータ

ニーズ:

業務システムがサイロ化しているため、

分析のために業務データを集約した DWH が

必要であった

現状認識や課題:

• リレーショナル データベース (DWH/DM) を中核とした情報基盤

• 増大するデータや新たなデータ形式の扱いに、処理能力が対応できない

• 新たなデータ分析のニーズに適応できない

Page 9: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

新たな情報基盤の考え方- Big Data Reference Architecture

データ収集 データ蓄積データ加工 データ活用データソース

ダッシュボード

レポート

リレーショナルデータ

ベース

ファイル

半構造化・非構造化

データ

メッセージ

ストリームデータ

Batch Layer(Cold Path)

ServiceLayer

リアルタイムアプリケーション

Speed Layer(Hot Path)

ニーズ:

業務データのみでなく、センサーデータや画像など

様々な形式のデータを扱え、かつリアルタイムな

データ処理も可能な基盤が必要となる

方針:ラムダ アーキテクチャ等の ビッグデータアーキテクチャ ※• データの処理頻度やデータサイズに応じた処理形式にデータフローを分ける

• データ形式に応じたデータストアを活用する (構造化データ:リレーショナル、

半構造化、非構造化データ:NoSQL、 Document Db 等)

• データソースのデータはそのままの蓄積し、必要な時に加工して利用する

参考URL: http://lambda-architecture.net/ https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/

Page 10: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

Big Data Reference Architecture

バッチデータ転送

リアルタイムインジェスト

データウェアハウス / マート

分析

レポート

機械学習

深層学習

リアルタイムダッシュボード

データソース

リレーショナルデータ

ベース

ファイル

メッセージ

オーケストレーション

データ活用

分散データ処理

データカタログ

ストレージ /

データレイク

リアルタイム処理

Page 11: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

Azure Big Data Analytics Platformデータソース

リレーショナルデータ

ベース

ファイル

メッセージ

データ活用

Page 12: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

Azure Data LakeStorage Gen2

Page 13: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

Azure Big Data Analytics Platformデータソース

リレーショナルデータ

ベース

ファイル

メッセージ

データ活用

Page 14: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

Azure Data Lake Storage Gen2の位置づけ

Disk Storage

Premium

仮想マシン用の信頼性の高い、永続化高性能ストレージ

Standard

Blob Storage

大規模非構造データ用のスケーラブル、かつ、高セキュリティなストレージ

Azure Blob

Azure Data Lake Storage Gen2

File Storage

Azure Files

主に Lift & Shift 対象のアプリケーションで使用されるクラウドファイル共有用のストレージ

Azure NetApp Files

Page 15: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

ストレージアカウント作成時に設定

Page 16: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

Azure Data Lake Storage Gen2概要

Blob Storage

階層型名前空間(Hierarchical Name Space)

2019/5/29 現在ライフサイクル管理ポリシーは利用できません

ライフサイクルポリシー管理にるデータガバナンス

https://docs.microsoft.com/ja-jp/azure/storage/blobs/data-lake-storage-known-issues

Page 17: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

Azure Data Lake Storage Gen2の特徴

Page 18: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

Azure Data Lake Storage Gen2の特徴

Page 19: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

階層型名前空間

ファイルシステムとして、ディレクトリ操作を行うことが可能

ファイルシステムコンテナー

Page 20: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

操作

すべてのファイルを操作する必要あり、ファイル数だけオーバーヘッドが発生する

decode2019/dp04/1.txt

decode2019/dp04/2.txt

decode2019/dp04/3.txt

decode2019/dp04/4.txt

decode2019/dp04/5.txt

decode2019/dp04/6.txt

decode2019/dp04/n.txt

コンテナー

Page 21: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

ADLS Gen2のディレクトリ操作

dp04

ファイル数に依存することなく、最低限の操作でディレクトリ操作が可能

ファイルシステム

Page 22: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

Azure Data Lake Storage Gen2の特徴

Page 23: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

アクセス制御リスト一覧

ファイル ディレクトリ

読み取り (R) ファイルの内容を読み取ることができる 内容を一覧表示するには、読み取りと実行が必要

書き込み (W) ファイルへの書き込みまたは追加を実行できる 子項目を作成するには、書き込みと実行が必要

実行 (X) ADLS Gen2 コンテキストでは、何も意味しない 子項目をスキャンするために必要

Page 24: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

アクセス制御リスト

Execute

Read

ユーザーに対して ACL を設定した場合、ユーザの増加に合わせて権限管理負荷が増加

Execute

Read

ファイルシステム

Page 25: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

アクセス制御リスト

Read / Execute

Default

グループの変更によって、ユーザの ACL を変更することが可能

Execute

ファイルシステム

Page 26: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

Azureのロールベースアクセス制御 (RBAC)

共同作成者

Execute

Read

Execute

RBAC はファイルシステム配下のすべての項目に適応される

ファイルシステム

Page 27: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

Azure Data Lake Storage Gen2 アーキテクチャー

Azure Storage

Data

階層型名前空間

BLOB ADLS

BLOB API ADLS Gen2 API

2019/5/29 現在 BLOB API は、無効化されていますhttps://docs.microsoft.com/ja-jp/azure/storage/blobs/data-lake-storage-known-issues

Page 28: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

ADLS Gen2 URI構文

abfs[s]://<file_system>@<account_name>.dfs.core.windows.net/<path>/<file_name>

1 2 3 4 5

Page 29: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

ADLS Gen2へのデータロード

https://docs.microsoft.com/ja-jp/azure/storage/blobs/data-lake-storage-data-scenarios#ingest-the-data

Page 30: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

Blob Storage との比較Azure Data Lake Storage Gen2 Azure Blob Storage

URIスキーム abfs[s] wasb[s]

URI (スキーム以降)<file_system>@<account_name>.dfs.core

.windows.net/<path>/<file_name>

<container>@<account_name>.blob.core

.windows.net/<path>/<file_name>

最上位レベルの管理単位 ファイルシステム コンテナー

下位レベルの管理単位 ディレクトリ 仮想ディレクトリ

認証

• 共有キー

• Shared Access Signature(SAS) 認証

• Azure Active Directory

• 共有キー

• Shared Access Signature(SAS) 認証

• Azure Active Directory(プレビュー)

アクセス制御 POSIX準拠 SASによる簡易制御

Page 31: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

Azure Data Servicesとの連携

Page 32: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

データ活用

Azure Big Data Analytics Platformデータソース

リレーショナルデータ

ベース

ファイル

メッセージ

Data Catalog

Azure Data Factory

Logic Apps

Azure Data Factory

IoT Hub

Blob Storage

SQL Data Warehouse

Azure Databricks

Stream Analytics

Page 33: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

Azure Databricks

Azure Databricks

マネージドサービスエンタープライズセキュリティ

データサービスとの連携

Spark SQLSpark

StreamingMLlib GraphX

Collaborative Notebooks

Page 34: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

Azure Databricks との連携

用途

デモ構成

ETL 処理 / 機械学習

Page 35: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

設定手順

az ad sp show -id <Service Principal のオブジェクト ID> --query objectId

Page 36: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

データ活用

Azure Big Data Analytics Platformデータソース

リレーショナルデータ

ベース

ファイル

メッセージ

Data Catalog

Azure Data Factory

Logic Apps

Azure Data Factory

IoT Hub

Blob Storage

SQL Data Warehouse

Azure Databricks

Azure Databricks

Stream Analytics

Page 37: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

✓処理に必要なスケール変更が数分で可能

✓一時停止機能が実装されており、コン

ピュート部分に関しての課金を止めてコスト

を削減することも可能

✓ Azure の各種サービス群との I/F が用意さ

れているので、可視化・分析作業が容易

SQL Data WarehouseC

om

pu

teR

em

ote

Sto

rag

eC

on

tro

l

Page 38: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

SQL Data Warehouse との連携

用途

デモ構成

オンデマンドの集計 / BIツールなどの基盤

Page 39: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

Polybase

RESULT

LOAD

Page 40: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

データ活用

Azure Big Data Analytics Platformデータソース

リレーショナルデータ

ベース

ファイル

メッセージ

Data Catalog

Azure Data Factory

Logic Apps

Azure Data Factory

IoT Hub

Blob Storage

SQL Data Warehouse

Azure Databricks

Azure Databricks

Stream Analytics

Page 41: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

Azure Data Factory

Page 42: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

Azure Data Factoryの概念

Page 43: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

Azure Data Factory を使用したデータ連携

用途

デモ構成

データソース間のデータ連携

Page 44: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

Mapping Data Flow

GUI を利用して、ETL処理 (結合・集計等) を作成

処理自体は Spark (Databricks) の並列分散処理基盤で実行

Page 45: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

まとめ

Page 46: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

Azure Big Data Analytics Platformデータソース

リレーショナルデータ

ベース

ファイル

メッセージ

データ活用

すべて Managed Service で構築可能

基盤運用構築負荷を最小化

目的に応じて、スモールスタートが可能

Page 47: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

関連セッション

Page 48: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

Big Data関連セッション

Page 49: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

© 2018 Microsoft Corporation. All rights reserved.

本情報の内容(添付文書、リンク先などを含む)は、作成日時点でのものであり、予告なく変更される場合があります。

© 2019 Microsoft Corporation. All rights reserved.

本情報の内容 (添付文書、リンク先などを含む) は、de:code 2019 開催日 (2019年5月29~30日) 時点のものであり、予告なく変更される場合があります。

本コンテンツの著作権、および本コンテンツ中に出てくる商標権、団体名、ロゴ、製品、サービスなどはそれぞれ、各権利保有者に帰属します。

Page 50: DP04 Azure Data Services で実現する エンタープライズデー …...エンタープライズデータ分析基盤解説 ... • データ形式に応じたデータストアを活用する(構造化データ:リレーショナル、

Polybase / mount(Azure Databricks) サンプル