Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
de:code 2019 DP04
Azure Data Servicesで実現する
エンタープライズデータ分析基盤解説
インテリジェントクラウド統括本部
テクノロジーソリューションプロフェッショナル
大蔵 一功
自己紹介
セッションの目的
アジェンダ
データ分析基盤の変遷
データを使う目的は様々
意思決定者 ビジネスユーザー データエンジニア データサイエンティスト
リレーショナルデータース ファイル メッセージ
発生したデータをそのまま利用することはほとんどない
データを利用できる状態にしておく必要がある
意思決定 ビジネス理解 データエンジニア データサイエンティスト
リレーショナルデータース ファイル メッセージ
収集・加工・蓄積
従来の情報基盤におけるデータ処理の課題
データ収集 データ加工 データ蓄積 データ分析データソース
ETL DWHダッシュボード
レポート
リレーショナルデータ
ベース
ファイル
半構造化・非構造化
データ
メッセージ
ストリームデータ
ニーズ:
業務システムがサイロ化しているため、
分析のために業務データを集約した DWH が
必要であった
現状認識や課題:
• リレーショナル データベース (DWH/DM) を中核とした情報基盤
• 増大するデータや新たなデータ形式の扱いに、処理能力が対応できない
• 新たなデータ分析のニーズに適応できない
新たな情報基盤の考え方- Big Data Reference Architecture
データ収集 データ蓄積データ加工 データ活用データソース
ダッシュボード
レポート
リレーショナルデータ
ベース
ファイル
半構造化・非構造化
データ
メッセージ
ストリームデータ
Batch Layer(Cold Path)
ServiceLayer
リアルタイムアプリケーション
Speed Layer(Hot Path)
ニーズ:
業務データのみでなく、センサーデータや画像など
様々な形式のデータを扱え、かつリアルタイムな
データ処理も可能な基盤が必要となる
方針:ラムダ アーキテクチャ等の ビッグデータアーキテクチャ ※• データの処理頻度やデータサイズに応じた処理形式にデータフローを分ける
• データ形式に応じたデータストアを活用する (構造化データ:リレーショナル、
半構造化、非構造化データ:NoSQL、 Document Db 等)
• データソースのデータはそのままの蓄積し、必要な時に加工して利用する
参考URL: http://lambda-architecture.net/ https://docs.microsoft.com/en-us/azure/architecture/data-guide/big-data/
Big Data Reference Architecture
バッチデータ転送
リアルタイムインジェスト
データウェアハウス / マート
分析
レポート
機械学習
深層学習
リアルタイムダッシュボード
データソース
リレーショナルデータ
ベース
ファイル
メッセージ
オーケストレーション
データ活用
分散データ処理
データカタログ
ストレージ /
データレイク
リアルタイム処理
Azure Big Data Analytics Platformデータソース
リレーショナルデータ
ベース
ファイル
メッセージ
データ活用
Azure Data LakeStorage Gen2
Azure Big Data Analytics Platformデータソース
リレーショナルデータ
ベース
ファイル
メッセージ
データ活用
Azure Data Lake Storage Gen2の位置づけ
Disk Storage
Premium
仮想マシン用の信頼性の高い、永続化高性能ストレージ
Standard
Blob Storage
大規模非構造データ用のスケーラブル、かつ、高セキュリティなストレージ
Azure Blob
Azure Data Lake Storage Gen2
File Storage
Azure Files
主に Lift & Shift 対象のアプリケーションで使用されるクラウドファイル共有用のストレージ
Azure NetApp Files
ストレージアカウント作成時に設定
Azure Data Lake Storage Gen2概要
Blob Storage
階層型名前空間(Hierarchical Name Space)
2019/5/29 現在ライフサイクル管理ポリシーは利用できません
ライフサイクルポリシー管理にるデータガバナンス
https://docs.microsoft.com/ja-jp/azure/storage/blobs/data-lake-storage-known-issues
Azure Data Lake Storage Gen2の特徴
Azure Data Lake Storage Gen2の特徴
階層型名前空間
ファイルシステムとして、ディレクトリ操作を行うことが可能
ファイルシステムコンテナー
操作
すべてのファイルを操作する必要あり、ファイル数だけオーバーヘッドが発生する
decode2019/dp04/1.txt
decode2019/dp04/2.txt
decode2019/dp04/3.txt
decode2019/dp04/4.txt
decode2019/dp04/5.txt
decode2019/dp04/6.txt
…
decode2019/dp04/n.txt
コンテナー
ADLS Gen2のディレクトリ操作
dp04
ファイル数に依存することなく、最低限の操作でディレクトリ操作が可能
ファイルシステム
Azure Data Lake Storage Gen2の特徴
アクセス制御リスト一覧
ファイル ディレクトリ
読み取り (R) ファイルの内容を読み取ることができる 内容を一覧表示するには、読み取りと実行が必要
書き込み (W) ファイルへの書き込みまたは追加を実行できる 子項目を作成するには、書き込みと実行が必要
実行 (X) ADLS Gen2 コンテキストでは、何も意味しない 子項目をスキャンするために必要
アクセス制御リスト
Execute
Read
ユーザーに対して ACL を設定した場合、ユーザの増加に合わせて権限管理負荷が増加
Execute
Read
ファイルシステム
アクセス制御リスト
Read / Execute
Default
グループの変更によって、ユーザの ACL を変更することが可能
Execute
ファイルシステム
Azureのロールベースアクセス制御 (RBAC)
共同作成者
Execute
Read
Execute
RBAC はファイルシステム配下のすべての項目に適応される
ファイルシステム
Azure Data Lake Storage Gen2 アーキテクチャー
Azure Storage
Data
階層型名前空間
BLOB ADLS
BLOB API ADLS Gen2 API
2019/5/29 現在 BLOB API は、無効化されていますhttps://docs.microsoft.com/ja-jp/azure/storage/blobs/data-lake-storage-known-issues
ADLS Gen2 URI構文
abfs[s]://<file_system>@<account_name>.dfs.core.windows.net/<path>/<file_name>
1 2 3 4 5
ADLS Gen2へのデータロード
https://docs.microsoft.com/ja-jp/azure/storage/blobs/data-lake-storage-data-scenarios#ingest-the-data
Blob Storage との比較Azure Data Lake Storage Gen2 Azure Blob Storage
URIスキーム abfs[s] wasb[s]
URI (スキーム以降)<file_system>@<account_name>.dfs.core
.windows.net/<path>/<file_name>
<container>@<account_name>.blob.core
.windows.net/<path>/<file_name>
最上位レベルの管理単位 ファイルシステム コンテナー
下位レベルの管理単位 ディレクトリ 仮想ディレクトリ
認証
• 共有キー
• Shared Access Signature(SAS) 認証
• Azure Active Directory
• 共有キー
• Shared Access Signature(SAS) 認証
• Azure Active Directory(プレビュー)
アクセス制御 POSIX準拠 SASによる簡易制御
Azure Data Servicesとの連携
データ活用
Azure Big Data Analytics Platformデータソース
リレーショナルデータ
ベース
ファイル
メッセージ
Data Catalog
Azure Data Factory
Logic Apps
Azure Data Factory
IoT Hub
Blob Storage
SQL Data Warehouse
Azure Databricks
Stream Analytics
Azure Databricks
Azure Databricks
マネージドサービスエンタープライズセキュリティ
データサービスとの連携
Spark SQLSpark
StreamingMLlib GraphX
Collaborative Notebooks
Azure Databricks との連携
用途
デモ構成
ETL 処理 / 機械学習
設定手順
az ad sp show -id <Service Principal のオブジェクト ID> --query objectId
データ活用
Azure Big Data Analytics Platformデータソース
リレーショナルデータ
ベース
ファイル
メッセージ
Data Catalog
Azure Data Factory
Logic Apps
Azure Data Factory
IoT Hub
Blob Storage
SQL Data Warehouse
Azure Databricks
Azure Databricks
Stream Analytics
✓処理に必要なスケール変更が数分で可能
✓一時停止機能が実装されており、コン
ピュート部分に関しての課金を止めてコスト
を削減することも可能
✓ Azure の各種サービス群との I/F が用意さ
れているので、可視化・分析作業が容易
SQL Data WarehouseC
om
pu
teR
em
ote
Sto
rag
eC
on
tro
l
SQL Data Warehouse との連携
用途
デモ構成
オンデマンドの集計 / BIツールなどの基盤
Polybase
RESULT
LOAD
データ活用
Azure Big Data Analytics Platformデータソース
リレーショナルデータ
ベース
ファイル
メッセージ
Data Catalog
Azure Data Factory
Logic Apps
Azure Data Factory
IoT Hub
Blob Storage
SQL Data Warehouse
Azure Databricks
Azure Databricks
Stream Analytics
Azure Data Factory
Azure Data Factoryの概念
Azure Data Factory を使用したデータ連携
用途
デモ構成
データソース間のデータ連携
Mapping Data Flow
GUI を利用して、ETL処理 (結合・集計等) を作成
処理自体は Spark (Databricks) の並列分散処理基盤で実行
まとめ
Azure Big Data Analytics Platformデータソース
リレーショナルデータ
ベース
ファイル
メッセージ
データ活用
すべて Managed Service で構築可能
基盤運用構築負荷を最小化
目的に応じて、スモールスタートが可能
関連セッション
Big Data関連セッション
© 2018 Microsoft Corporation. All rights reserved.
本情報の内容(添付文書、リンク先などを含む)は、作成日時点でのものであり、予告なく変更される場合があります。
© 2019 Microsoft Corporation. All rights reserved.
本情報の内容 (添付文書、リンク先などを含む) は、de:code 2019 開催日 (2019年5月29~30日) 時点のものであり、予告なく変更される場合があります。
本コンテンツの著作権、および本コンテンツ中に出てくる商標権、団体名、ロゴ、製品、サービスなどはそれぞれ、各権利保有者に帰属します。
Polybase / mount(Azure Databricks) サンプル