Mapping Dataflow with
Synapse Analytics Lake Database
具体的ユースケースデモ付き
Microsoft MVP for Data Platform 2021
永田 亮磨
Twitter:@ryomaru0825
Linkedin:ryoma-nagata-0825
Qiita:qiita.com/ryoma-nagata
1. Lake Databaseとは
2. 各種機能紹介
1. データベースデザイナー
2. Map Dataツール
3. 使いどころなどの整理
4. デモ - 映画評価データ分析
AGENDA
• データレイク内にERモデルを適用し、効率的に分析を進める機能
Synapse Analytics Lake Databaseとは
https://docs.microsoft.com/ja-jp/azure/synapse-analytics/database-designer/concepts-lake-database
②レイクデータベースでモデル
を定義(Out)
④AI/BIに連携
①データソース
システムから抽出/読込
(In)
③連携データとモデルをマッピング
変換(ETL)
• GUIでデータレイク上にラップされるERモデルをデザイン
• 業界用モデルテンプレートを利用するなどして効率的にモデリング
• ERモデル設定:主キー、外部キー、説明などのメタデータ
• データレイク設定:パーティション、ファイル形式(csv/parquet)
データベースデザイナー
業界用モデルテンプレート選択
• GUIでデータレイク上にラップされるERモデルをデザイン
• 業界用モデルテンプレートを利用するなどして効率的にモデリング
• ERモデル設定:主キー、外部キー、説明などのメタデータ
• データレイク設定:パーティション、ファイル形式(csv/parquet)
データベースデザイナー
カスタムテーブルの作成
• Map Dataツール(Public Preview)
• レイクデータベースと連携対象ファイルのマッピングを指定し、マッピングデータフロー開発を支援する
機能
• 簡単な処理であれば、複数のデータフローを一括で作成できる
レイクデータベースへのデータ投入方法
• https://docs.microsoft.com/ja-jp/azure/synapse-analytics/database-designer/overview-map-data
レイクデータベース定義 データソースとレイクデータベーステーブルのマッピング設定
• できること:
• レイクデータベース上のテーブルは、SQL/Sparkアクセス可能となる(データレイク上にあるにもかかわらず
• 定義したリレーションシップはPower BI に反映される
• マッピングデータフローとの親和性が高く、データベース上のテーブル全体の処理を迅速に作成できる
• 注意点:
• 現状はレイクデータベースでのCRUD操作は不可(Delta Lake未対応)
したがって、ETLは全件orパーティション単位のバッチ処理が必要。レコード単位の更新はできない(データレイクらしい世界観)
• 専用SQL Poolのテーブルは作成できない(あくまでデータレイク上のDBです
• 日本語のテンプレートはなし
同じく日本語テーブル名、列名は定義不可
• 定義をエクスポートできない
• 使いどころ:
• データソースシステムの定義に近いものをテンプレートから選択
• →テーブルの関連や、型をテンプレから流用して、迅速にデータレイク上のデータを活用可能な状態に
• 新規のデータモデルを設計する
• →いわゆるデータマート的なテーブルに。Power BI にデータ型とリレーションシップが反映されるので、プロトタイプが即作れる
レイクデータベース使いどころの整理
デモ - 映画評価データの分析
実装イメージ
元のデータ レポートイメージ
分析用
データモデル
変換処理

Synapse lakedatabase