Cloud Onr
Cloud OnAir
Cloud OnAir
Cloud Data Fusion で
GCP にデータを集約して
素早く分析を開始しよう
2019 年 10 月 31 日 放送
Agenda
Cloud OnAir
1
3
2
データ分析にクラウドが適している理由
GCP のデータ処理 (ETL) サービスおさらい
Cloud Data Fusion について
Cloud OnAir
Cloud OnAir
データ分析にクラウドが
適している理由
Cloud OnAir
増え続けるデータ
それらのデータを取得、解析し
ビジネスの意思決定ができるか?
2025 年までに 163 ゼタバイト
ものデータが生成*
* IDC
Cloud OnAir
複数のシステムで同様のデータを
扱っていたり、各部署が限られた
範囲のデータにしかアクセスできていない
データのフォーマット差異や
外れ値などにより、すぐには使えない
データがどんどん溜まっていく
=> 価値を生まないデータはコストに
データのサイロ化
CRM / ERP / ビリング / 在庫管理 / POS
Cloud OnAir
データ プラットフォーム - クラウドはデータを集約
オンプレ
基幹系システム A
データベース
基幹系システム B
データベース
グループ会社
顧客データベース
顧客
データベース
グループ会社イントラ
可視化
ツール
分析
ツール
レポート
監査
ツール
分析官
ビジネス企画
大量データでもスケール
運用不要でサイロ化しない
Cloud OnAir
データ プラットフォーム - クラウドはデータを集約
オンプレ
基幹系システム A
データベース
基幹系システム B
データベース
グループ会社
顧客データベース
顧客
データベース
グループ会社イントラ
可視化
ツール
分析
ツール
レポート
監査
ツール
分析官
ビジネス企画
大量データでもスケール
運用不要でサイロ化しない
ここはどうすれば良いの?
● 各データソースで
フォーマットが異なる
● バッチデータもあれば
リアルタイムデータも
● 異なるプラットフォーム
(オンプレ、他社クラウド)
Cloud OnAir
Cloud OnAir
GCP のデータ処理 (ETL) サービス
おさらい
Cloud OnAir
GCP のデータ関連サービス
Cloud
Pub/Sub
Cloud
Dataflow
Cloud
Dataproc
Cloud
Storage
Data Transfer
Service
Cloud
Composer
Cloud IoT
Core
Cloud AI
Services
データ
ポータル
Storage
Transfer
Service
Data
Catalog
加工収集 蓄積 分析
BigQuery
Storage
BigQuery
Compute
活用
Data Loss
Prevention
Cloud
Dataprep
Google
スプレッド
シート
Cloud OnAir
GCP のデータ関連サービス
Cloud
Pub/Sub
Cloud
Dataflow
Cloud
Dataproc
Cloud
Storage
Data Transfer
Service
Cloud
Composer
Cloud IoT
Core
Storage
Transfer
Service
Data
Catalog
加工収集 蓄積 分析
BigQuery
Storage
BigQuery
Compute
活用
Data Loss
Prevention
Cloud
Dataprep
データ
ポータル
Google
スプレッド
シート
Cloud AI
Services
Cloud OnAir
Cloud Dataflow
オープンソースの Apache Beam SDK による
ポータビリティ
Bigtable, BigQuery, Cloud Storage などの
多様なストレージへのコネクタ
オートスケーリングと動的なタスクの分割
バッチとストリーミング モデルの統合
Cloud OnAir
Cloud Dataprep
Dataflow を利用したサーバーレスな実行
最適なデータ変換を予測 / 提案
スキーマやデータ型、異常を自動的に検出
視覚的にデータを探索して変換を作成
Cloud OnAir
Cloud Dataproc
費用対効果の高いプリエンプティブル ノード
REST API によるクラスタ作成とジョブ実行
90 秒以下での高速なクラスタ作成
フルマネージドの Hadoop, Spark クラスタ
Cloud OnAir
Cloud OnAir
Cloud Data Fusion
Cloud OnAir
● No-ops なデータ パイプラインの構築と
管理のための統合サービス
○ CDAP という OSS ベースの
マネージド サービス
● 統一されたバッチとストリーミング処理
● GUI で簡単にフロー (DAG) を作成
● 様々なデータソースに対応
Cloud Data FusionBeta
とは?
Cloud OnAir
Cloud Data Fusion のアーキテクチャ
Kubernetes
Engine Cloud
Dataproc
Cloud SQL Cloud
Storage
Persistent
Disk
Elasticsearch
Hadoop
Identity-Aware
Proxy
ユーザ
Cloud Data Fusion
UI / 認証
パイプライン実行
メタデータ保存
システム サービス
Cloud OnAir
Cloud Data Fusion の機能 - パイプライン作成
分かりやすい GUI を使い、ノードと呼ばれるコンポーネントを
繋いでデータ パイプライン (DAG: Directed Acyclic Graph) を
作成できます。
ノード種類
● Sources
● Transforms
● Analytics
● Actions
● Sinks
● Error Handlings
Cloud OnAir
Cloud Data Fusion の機能 - データ加工 / クレンジング
Built-in の Transform や Analytics を
組み合わせて、ワークロードに合った
データ加工を設計
Cloud OnAir
Cloud Data Fusion の機能 - データ加工 / クレンジング
Wrangler UI
実際のデータ (1000 個の
データからなるサブセット)
を確認しながら
インタラクティブに変換を
作成可能
作成した一連の変換は
Transform として
パイプラインで利用できる
Cloud OnAir
Cloud Data Fusion の機能 - メタデータとリネージュ
検索例: <has_pii: true> 条件に合致する
メタデータを持つ
データセット
メタデータ管理
データセットにデータを説明する
メタデータを付与できる
データ リネージュ
データセットがどのパイプラインで
どのように利用されているかを
可視化して追跡可能
Cloud OnAir
Cloud Data Fusion の機能 - オーケストレーション
プレビュー
各ノードのインプット データと
アウトプット データを
プレビューできる
スケジュール
パイプラインの実行を柔軟に
スケジュール設定可能
Cloud OnAir
Cloud Data Fusion の機能 - Hub
Hub には様々な再利用可能な
コンポーネントが用意されている
● サンプル パイプライン
● プラグイン
● ドライバー
Cloud OnAir
Cloud Data Fusion の機能 - エンティティを追加
CDAP のカスタム プラグインを
自分で開発し追加することや、
サードパーティのドライバ等を
追加することができる
Cloud OnAir
GCP の他のサービスとの比較
Cloud Data Fusion
Google Cloud Platform
データ
パイプライン
作成
データ加工
データ
クレンジング
メタデータ管理
リネージュ
データ
パイプライン
実行
Cloud
Dataflow
Cloud
Dataproc
Cloud
Dataproc
Cloud
Dataprep
Cloud
Composer
Cloud Catalog
オーケスト
レーション
Cloud
Dataflow
Cloud
Dataflow
Cloud
Composer
Cloud OnAir
2 つのエディション
Basic - 開発 / テスト / PoC Enterprise - 本番環境
ユーザ 制限なし 制限なし
制限 ● 実行は Dataproc 限定
● 同時実行は 2 パイプライン
まで
制限なし
機能 ● GUI
● Control Center
● Wrangler UI
● SDK
● Private IP サポート
● デバッグとテスト
● Basic のすべての機能に加え ……
● ストリーミング パイプライン
● 統合メタデータ リポジトリ
● 統合リネージュ
● HA
● REST API
● トリガー / スケジュール
Cloud OnAir
Cloud OnAir
デモ

[Cloud OnAir] Cloud Data Fusion で GCP にデータを集約して素早く分析を開始しよう 2019年10月31日 放送