【初級、中級者向け】
Azure Purview Linage
for Synapse Dataflow/Spark
Microsoft MVP for Data Platform 2021
永田 亮磨
Twitter:@ryomaru0825
Linkedin:ryoma-nagata-0825
Qiita:qiita.com/ryoma-nagata
1. Azure Purviewリネージ概要
2. デモ①
3. Purview Machine Learning Solution Accelerator
4. デモ②
AGENDA
• データ資産(Asset)の生成から利用に至る経路を示すメタデータ
• データ品質分析や影響分析、パイプラインのトレースに利用
概念の確認:リネージ(Lineage)とは
生データ 変換されたデータ 利用先
データソース
分析基盤での例
BIレポート
MLモデル
追加の変換
• Azure内外のデータ処理システム、ストレージシステム、分析システムと接続し、リネージ情報を抽出
• Synapse / Data Factory:コピー、データフロー、SSIS(Data Factroy のみ)
• Azure Data Share:スナップショットの共有
• Power BI Service:データセット、データフロー、レポートとダッシュボード
Azure Purviewのリネージ(系列)概要
• データ カタログ系列のユーザー ガイド
• Copy Activity
• SQL DB->Data lake Storage Gen2 (n : n)
• Dataflow
• Data lake Storage Gen2->Synapse 専用 SQL Pool (n:1)
デモ
データ処理ツールはいろいろ
• GUIデータ処理の対応はOK
• →SparkやML処理は系列に記録できない?
Power BI Service
Data Factory/
Synapse Pipelines
Databricks
Synapse Spark /
OSS Spark
Azure ML
※Python
Purview
?
?
?
• ML処理など、現在統合されていない処理を
Purviewに登録する体験が可能なリポジトリ
• Pyapacheatlas(wjohnson/pyapacheatlas)を利
用してカスタムエンティティ、プロセスを登録
※Azure PurviewはOSS であるApache Atlasをベー
スとしており、AtlasAPIを利用可能
• 英語版本家を日本語化しました。
• 【10分で環境構築】Purview Machine Learning
Lineage Solution AcceleratorによるMLリネージ –
Qiita
• 非常におすすめ:
• Azure Purview を遊びながら開発しよう(基本編) - Qiita
• Azure Purview を遊びながら開発しよう(応用編) - Qiita
Purview Machine Learning
Solution Accelerator
• Synapse Sparkによる簡単な変換
• 備考:
• Entityは完全名(Qualified Name)が完全一致することで系列がつながるため、つながらないと
きは検索して完全名を確認しましょう
• 補足:
• 01_Authenticate_to_Purview_AML・・・認証用ノートブック
• 02_Create_ML_Lineage_Types・・・ユーザー定義のPurviewのアセット(Entity)の種類
を登録
• 03_Create_ML_Lineage_Functions・・・Purview用の関数を定義
• 04_Create_CreditRisk_Experiment・・・ML処理~推論ノートブック
デモ
• [Part 1] Azure Purview と Microsoft Solution によるデータ活用&ガバ
ナンス | 日本マイクロソフト – YouTube
• [Part 2] Azure Purview と Microsoft Solution によるデータ活用&ガバ
ナンス | 日本マイクロソフト – YouTube
• [Part 3] Azure Purview と Microsoft Solution によるデータ活用&ガバ
ナンス | 日本マイクロソフト – YouTube
• [Part 4] Azure Purview と Microsoft Solution によるデータ活用&ガバ
ナンス | 日本マイクロソフト - YouTube
参考リンク

Azure Purview Linage for Dataflow/Spark