Azure Synapse Analytics
Hack!
畠山 大有 | Daiyu Hatakeyama
| @dahatake
Architect && Software Engineer && Applied Data Scientist
Microsoft Japan
Japan SQL Server Users Group: 第31回 SQL Server 2019勉強会
位置づけ
皆さんも Hack に参加ください!
否定
• 失敗
Hack のガイドライン
Azure Synapse Analytics
= new
+
+ new
+
+
+
by
Store
Transform QueryIngest
Azure
Data Factory
Azure Databricks Azure SQL Data
Warehouse
クラウド デー
タ
SaaS データ
オンプレミス
データ
デバイス デー
タ
Power BI
Azure
Machine Learning
Azure Data Lake Storage Gen2
Azure Analytics
2
データ ウェアハウスとビッグデータ分析システム全体のあら
ゆるデータから、驚異的なスピードでインサイトを提供する無
制限の分析サービス
Store Azure Data Lake Storage Gen2
Azure Synapse Analytics
Azure Synapse Analytics
クラウド デー
タ
SaaS データ
オンプレミス
データ
デバイス デー
タ
Power BI
Azure
Machine Learning
2
Data Unified Platform
Analytics runtimes
SQL
Common data estate
Shared meta data
Unified experience
Synapse Studio
Store Azure Data Lake Storage Gen2
クラウド デー
タ
SaaS データ
オンプレミス
データ
デバイス デー
タ
Power BI
Azure
Machine Learning
Azure Synapse Analytics の重要な開発領域
サーバーレス型 + プロビジョニング型
構造/非構造データに対する
統合されたセキュリティ
ワークロード別のスケジューリン
オンライン スケーリング
共有データに対する
マルチ コンピュート クラスター
統合された SQL + Spark
Azure Synapse Analytics
Open Source Analytics Azure Analytics
ベストな OSS と Azure サー
ビスを組み合わせ、エンド
ツー エンドのシングルサー
ビスとして提供
HDInsight
Enterprise-grade service for open source analytics
Hadoop Spark Kafka
Ingest
Azure Data
Factory
Prep
Azure
Databricks
Explore
Azure Data
Explorer
Streaming
Azure
Stream
Analytics
IoT
Azure Event
Hubs
Share
Azure Data
Share
Store
Azure Data
Lake Storage
Analytics Runtimes
全体アーキテクチャ
SQL on-demand
SQL Runtime
共有クラスター
自動スケール
共有ストレージ
SQL pool
SQL Runtime
プロビジョン クラ
スター
現在、手動スケールの
み
共有
ストレー
ジ
専用
ストレージクラスター × N
個を作成可能
クラスター × N
個を作成可能
Spark pool
Spark Runtime
プロビジョン クラ
スター
自動/手動スケール
共有ストレージ
データ統合機能
パイプライン/データ
フロー
Azure Data Lake Storage Gen2
※現在、Spark pool から SQL Analytics にメタデータ共有可能なのは、Parquet ファイル形式のマネージドテーブル/外部テーブルで、SQL pool への共有は
Synapse Studio
開発/監視/管理
SQL pool と SQL on-demand との比較
類似点
 分散型 Analytics Engine
 T-SQL のサポート
 データ ウェアハウス機能
 Spark pool とのメタデータ共有
相違点
 サーバーレス クエリ
 管理オーバーヘッドが無い
 データは Data Lake に存在し、データロー
ド不要
適用領域
 Data Lake に対するダイレクト クエリ
類似点
 分散型 Analytics Engine
 T-SQL のサポート
 データ ウェアハウス機能
 Spark pool とのメタデータ共有
相違点
 プロビジョニングされている
 ワークロードに特化した最適化
 先進的なワークロード マネジメント
 ロードデータに対するガバナンスが有効
適用領域
 ロードデータに対する最適化されたワーク
ロード
SQL pool アーキテクチャ
Azure
Data Lake Storage Gen2
Azure Storage 上ではあるが、SQL pool の占有ストレージとして
内部的に 60 個のデータベースを保持し、Compute Node が均等に分担する
Adaptive
Cache
TempDB
ノードは、NVMe SSD を搭載し、
SQL Engine は、Adaptive Cache
に
カラムストア セグメントを
キャッシュ
最大 60 ノード=30,000 cDWU までスケー
ル
カラムストアのデータサイズは無制限
Parquet
ファイル
従来の Polybase のように一度 TempDB に読み込む方式とは異
なり、
SQL pool 新機能 - Microsoft Ignite での発表 (2019/11)
GA 済みの機能 :
 性能 : Resultset Caching
 性能 : Materialized View
 性能 : Ordered ColumnStore
 データタイプ : JSON サポート
 セキュリティ : Dynamic Data Masking
 セキュリティ : Private Link のサポート
 CI & CD : SSDT (SQL Server Data Tools) サポート
 SQL : Read committed snapshot isolation
プレビュー機能 :
 ワークロード管理 : Workload Isolation
 データ取込み : COPY ステートメント
 データ共有 : Azure Data Share によるデータ共有
 データ取込み : Streaming Ingestion & Analytics
 ビルトイン ML : ネイティブな予測/スコアリング
 Data Lake 統合 : Parquet ファイルへのダイレク
トクエリ
 SQL : 更新可能分散カラム
 SQL : JOIN を伴う FROM 句
 SQL : 複数カラムによる分散
SQL on-demand アーキテクチャ
Azure Data Lake Storage Gen2 上にあるファイル (現在、CSV, JSON, Parquet をサ
ポート)
を対象としており、SQL pool のような占有ストレージではない
MPP エンジンではなく、DQP エンジンが稼働
クエリのフォールト トレランス機能を提供
Compute Node は、負荷状況に応じて自動スケー
ル
コンピュート ノードは、SQL pool 同様のスペッ
ク
Adaptive
Cache
TempDB
 準リアルタイムのデータ
分析
 トランザクション ワーク
ロード
へのパフォーマンスの影
Azure Synapse Link for Azure Cosmos DB
 Transactional ストア (OLTP DB) の機能として、カラムストア型の Analytical ストアに自動同期
 ETL 無し (データの 2 重持ちが不要) で Synapse に統合
 Azure Cosmos DB (プレビュー開始), Azure SQL Database (予定), Azure Database for PostgreSQL / MySQL (予定)
Azure Synapse Link - Microsoft Build での発表 (2020/05/19)
分析ストア
分析クエリに最適化された「列ストア」
トランザクション ストア
トランザクション操作に最適化された「行ストア」
Azure Cosmos DB Azure Synapse Analytics
コンテ
ナー クラウド ネイ
ティブHTAP
Azure
Synapse
Link
SQL
自動同期
機械学習
ビッグ データ
分析
BI ダッシュ
ボード
オペレー
ショナル
データ
オペレーショナル データに対する準リアルタイムの洞察を生成
Azure Synapse Link の動作
2
Store
Query StructuredIngest
Orchestrate
Synapse Link
Spark
SQL On-Demand
SQL Pool
クラウド デー
タ
SaaS データ
オンプレミス
データ
デバイス デー
タ
Power BI
Azure
Machine Learning
Azure Data Lake Storage Gen2
Synapse Studio
一緒に Hack しましょー
2020/6/20 時点で、残念な事 – 鋭意確認中
まとめ
参加
https://aka.ms/SynapseQnA
https://aka.ms/SynapseFeatureRequests
Public Preview - ユーザーと一緒に開発して
いく
Azure Synapse Analytics 技術編
~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)
宮原 誠治 (ドク) さん
Azure Synapse Analytics 技術編
~ 最新の統合分析プラットフォームによる新しい価値の創出(後編)
宮原 誠治 (ドク) さん
https://www.microsoft.com/ja-jp/events/decode/2020/default.aspx
• クラウドDWHにおける観点とAzure Synapse Analyticsの対応 -永田 亮磨 さん
https://www.slideshare.net/ssuser61ea57/dwhazure-synapse-
analytics?fbclid=IwAR2yBT1BfkjenstIa8DQSbuVzUGfK6YTprwDa7Cjhf0TwAQI9HCT_0jAKAk
https://github.com/dahatake/Azure-Workshops#Azure-Synapse-Anaytics
Resource
Step-by-Step Achievements スムーズな学習環境
 無料
 日本語対応
 ブラウザーのみでOK
ハンズオン環境も含めて
 ダウンロード可能なサンプ
ルコード
 Product/Service, 技術レベル,
job role, などに応じたガイダ
ンス
 Video, チュートリアル, ハンズ
オン
 スキルアップを促す
 ユーザー プロファイ
ル毎に
カスタマイズ
www.microsoft.com/learn
Microsoft Event & Seminarwww.microsoft.com/ja-jp/events
Invent with purpose.

Japan SQL Server Users Group - 第31回 SQL Server 2019勉強会 - Azure Synapse Analytics Hack

  • 1.
    Azure Synapse Analytics Hack! 畠山大有 | Daiyu Hatakeyama | @dahatake Architect && Software Engineer && Applied Data Scientist Microsoft Japan Japan SQL Server Users Group: 第31回 SQL Server 2019勉強会
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
    Store Transform QueryIngest Azure Data Factory AzureDatabricks Azure SQL Data Warehouse クラウド デー タ SaaS データ オンプレミス データ デバイス デー タ Power BI Azure Machine Learning Azure Data Lake Storage Gen2 Azure Analytics
  • 8.
    2 データ ウェアハウスとビッグデータ分析システム全体のあら ゆるデータから、驚異的なスピードでインサイトを提供する無 制限の分析サービス Store AzureData Lake Storage Gen2 Azure Synapse Analytics Azure Synapse Analytics クラウド デー タ SaaS データ オンプレミス データ デバイス デー タ Power BI Azure Machine Learning
  • 9.
    2 Data Unified Platform Analyticsruntimes SQL Common data estate Shared meta data Unified experience Synapse Studio Store Azure Data Lake Storage Gen2 クラウド デー タ SaaS データ オンプレミス データ デバイス デー タ Power BI Azure Machine Learning
  • 10.
    Azure Synapse Analyticsの重要な開発領域 サーバーレス型 + プロビジョニング型 構造/非構造データに対する 統合されたセキュリティ ワークロード別のスケジューリン オンライン スケーリング 共有データに対する マルチ コンピュート クラスター 統合された SQL + Spark
  • 11.
    Azure Synapse Analytics OpenSource Analytics Azure Analytics ベストな OSS と Azure サー ビスを組み合わせ、エンド ツー エンドのシングルサー ビスとして提供 HDInsight Enterprise-grade service for open source analytics Hadoop Spark Kafka Ingest Azure Data Factory Prep Azure Databricks Explore Azure Data Explorer Streaming Azure Stream Analytics IoT Azure Event Hubs Share Azure Data Share Store Azure Data Lake Storage
  • 12.
    Analytics Runtimes 全体アーキテクチャ SQL on-demand SQLRuntime 共有クラスター 自動スケール 共有ストレージ SQL pool SQL Runtime プロビジョン クラ スター 現在、手動スケールの み 共有 ストレー ジ 専用 ストレージクラスター × N 個を作成可能 クラスター × N 個を作成可能 Spark pool Spark Runtime プロビジョン クラ スター 自動/手動スケール 共有ストレージ データ統合機能 パイプライン/データ フロー Azure Data Lake Storage Gen2 ※現在、Spark pool から SQL Analytics にメタデータ共有可能なのは、Parquet ファイル形式のマネージドテーブル/外部テーブルで、SQL pool への共有は Synapse Studio 開発/監視/管理
  • 13.
    SQL pool とSQL on-demand との比較 類似点  分散型 Analytics Engine  T-SQL のサポート  データ ウェアハウス機能  Spark pool とのメタデータ共有 相違点  サーバーレス クエリ  管理オーバーヘッドが無い  データは Data Lake に存在し、データロー ド不要 適用領域  Data Lake に対するダイレクト クエリ 類似点  分散型 Analytics Engine  T-SQL のサポート  データ ウェアハウス機能  Spark pool とのメタデータ共有 相違点  プロビジョニングされている  ワークロードに特化した最適化  先進的なワークロード マネジメント  ロードデータに対するガバナンスが有効 適用領域  ロードデータに対する最適化されたワーク ロード
  • 14.
    SQL pool アーキテクチャ Azure DataLake Storage Gen2 Azure Storage 上ではあるが、SQL pool の占有ストレージとして 内部的に 60 個のデータベースを保持し、Compute Node が均等に分担する Adaptive Cache TempDB ノードは、NVMe SSD を搭載し、 SQL Engine は、Adaptive Cache に カラムストア セグメントを キャッシュ 最大 60 ノード=30,000 cDWU までスケー ル カラムストアのデータサイズは無制限 Parquet ファイル 従来の Polybase のように一度 TempDB に読み込む方式とは異 なり、
  • 15.
    SQL pool 新機能- Microsoft Ignite での発表 (2019/11) GA 済みの機能 :  性能 : Resultset Caching  性能 : Materialized View  性能 : Ordered ColumnStore  データタイプ : JSON サポート  セキュリティ : Dynamic Data Masking  セキュリティ : Private Link のサポート  CI & CD : SSDT (SQL Server Data Tools) サポート  SQL : Read committed snapshot isolation プレビュー機能 :  ワークロード管理 : Workload Isolation  データ取込み : COPY ステートメント  データ共有 : Azure Data Share によるデータ共有  データ取込み : Streaming Ingestion & Analytics  ビルトイン ML : ネイティブな予測/スコアリング  Data Lake 統合 : Parquet ファイルへのダイレク トクエリ  SQL : 更新可能分散カラム  SQL : JOIN を伴う FROM 句  SQL : 複数カラムによる分散
  • 16.
    SQL on-demand アーキテクチャ AzureData Lake Storage Gen2 上にあるファイル (現在、CSV, JSON, Parquet をサ ポート) を対象としており、SQL pool のような占有ストレージではない MPP エンジンではなく、DQP エンジンが稼働 クエリのフォールト トレランス機能を提供 Compute Node は、負荷状況に応じて自動スケー ル コンピュート ノードは、SQL pool 同様のスペッ ク Adaptive Cache TempDB
  • 17.
     準リアルタイムのデータ 分析  トランザクションワーク ロード へのパフォーマンスの影 Azure Synapse Link for Azure Cosmos DB
  • 18.
     Transactional ストア(OLTP DB) の機能として、カラムストア型の Analytical ストアに自動同期  ETL 無し (データの 2 重持ちが不要) で Synapse に統合  Azure Cosmos DB (プレビュー開始), Azure SQL Database (予定), Azure Database for PostgreSQL / MySQL (予定) Azure Synapse Link - Microsoft Build での発表 (2020/05/19)
  • 19.
    分析ストア 分析クエリに最適化された「列ストア」 トランザクション ストア トランザクション操作に最適化された「行ストア」 Azure CosmosDB Azure Synapse Analytics コンテ ナー クラウド ネイ ティブHTAP Azure Synapse Link SQL 自動同期 機械学習 ビッグ データ 分析 BI ダッシュ ボード オペレー ショナル データ オペレーショナル データに対する準リアルタイムの洞察を生成 Azure Synapse Link の動作
  • 20.
    2 Store Query StructuredIngest Orchestrate Synapse Link Spark SQLOn-Demand SQL Pool クラウド デー タ SaaS データ オンプレミス データ デバイス デー タ Power BI Azure Machine Learning Azure Data Lake Storage Gen2 Synapse Studio 一緒に Hack しましょー
  • 21.
  • 22.
  • 23.
  • 24.
    Azure Synapse Analytics技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編) 宮原 誠治 (ドク) さん Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(後編) 宮原 誠治 (ドク) さん https://www.microsoft.com/ja-jp/events/decode/2020/default.aspx • クラウドDWHにおける観点とAzure Synapse Analyticsの対応 -永田 亮磨 さん https://www.slideshare.net/ssuser61ea57/dwhazure-synapse- analytics?fbclid=IwAR2yBT1BfkjenstIa8DQSbuVzUGfK6YTprwDa7Cjhf0TwAQI9HCT_0jAKAk https://github.com/dahatake/Azure-Workshops#Azure-Synapse-Anaytics Resource
  • 25.
    Step-by-Step Achievements スムーズな学習環境 無料  日本語対応  ブラウザーのみでOK ハンズオン環境も含めて  ダウンロード可能なサンプ ルコード  Product/Service, 技術レベル, job role, などに応じたガイダ ンス  Video, チュートリアル, ハンズ オン  スキルアップを促す  ユーザー プロファイ ル毎に カスタマイズ www.microsoft.com/learn
  • 26.
    Microsoft Event &Seminarwww.microsoft.com/ja-jp/events
  • 27.