Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[Cloud OnAir] Cloud Data Fusion で GCP にデータを集約して素早く分析を開始しよう 2019年10月31日 放送

2,504 views

Published on

企業の保有するデータは年々増加しており、それに従ってデータの保存にかかるコストも増大します。データ分析によってコストに見合うリターンを得るためには、大規模データに対応するデータ プラットフォームが必要です。
今回の放送では、Cloud Data Fusion を中心に GCP への素早く簡単なデータ集約を実現する様々なサービスとツールをご紹介します。

Published in: Technology
  • Be the first to comment

[Cloud OnAir] Cloud Data Fusion で GCP にデータを集約して素早く分析を開始しよう 2019年10月31日 放送

  1. 1. Cloud Onr Cloud OnAir Cloud OnAir Cloud Data Fusion で GCP にデータを集約して 素早く分析を開始しよう 2019 年 10 月 31 日 放送
  2. 2. Agenda Cloud OnAir 1 3 2 データ分析にクラウドが適している理由 GCP のデータ処理 (ETL) サービスおさらい Cloud Data Fusion について
  3. 3. Cloud OnAir Cloud OnAir データ分析にクラウドが 適している理由
  4. 4. Cloud OnAir 増え続けるデータ それらのデータを取得、解析し ビジネスの意思決定ができるか? 2025 年までに 163 ゼタバイト ものデータが生成* * IDC
  5. 5. Cloud OnAir 複数のシステムで同様のデータを 扱っていたり、各部署が限られた 範囲のデータにしかアクセスできていない データのフォーマット差異や 外れ値などにより、すぐには使えない データがどんどん溜まっていく => 価値を生まないデータはコストに データのサイロ化 CRM / ERP / ビリング / 在庫管理 / POS
  6. 6. Cloud OnAir データ プラットフォーム - クラウドはデータを集約 オンプレ 基幹系システム A データベース 基幹系システム B データベース グループ会社 顧客データベース 顧客 データベース グループ会社イントラ 可視化 ツール 分析 ツール レポート 監査 ツール 分析官 ビジネス企画 大量データでもスケール 運用不要でサイロ化しない
  7. 7. Cloud OnAir データ プラットフォーム - クラウドはデータを集約 オンプレ 基幹系システム A データベース 基幹系システム B データベース グループ会社 顧客データベース 顧客 データベース グループ会社イントラ 可視化 ツール 分析 ツール レポート 監査 ツール 分析官 ビジネス企画 大量データでもスケール 運用不要でサイロ化しない ここはどうすれば良いの? ● 各データソースで フォーマットが異なる ● バッチデータもあれば リアルタイムデータも ● 異なるプラットフォーム (オンプレ、他社クラウド)
  8. 8. Cloud OnAir Cloud OnAir GCP のデータ処理 (ETL) サービス おさらい
  9. 9. Cloud OnAir GCP のデータ関連サービス Cloud Pub/Sub Cloud Dataflow Cloud Dataproc Cloud Storage Data Transfer Service Cloud Composer Cloud IoT Core Cloud AI Services データ ポータル Storage Transfer Service Data Catalog 加工収集 蓄積 分析 BigQuery Storage BigQuery Compute 活用 Data Loss Prevention Cloud Dataprep Google スプレッド シート
  10. 10. Cloud OnAir GCP のデータ関連サービス Cloud Pub/Sub Cloud Dataflow Cloud Dataproc Cloud Storage Data Transfer Service Cloud Composer Cloud IoT Core Storage Transfer Service Data Catalog 加工収集 蓄積 分析 BigQuery Storage BigQuery Compute 活用 Data Loss Prevention Cloud Dataprep データ ポータル Google スプレッド シート Cloud AI Services
  11. 11. Cloud OnAir Cloud Dataflow オープンソースの Apache Beam SDK による ポータビリティ Bigtable, BigQuery, Cloud Storage などの 多様なストレージへのコネクタ オートスケーリングと動的なタスクの分割 バッチとストリーミング モデルの統合
  12. 12. Cloud OnAir Cloud Dataprep Dataflow を利用したサーバーレスな実行 最適なデータ変換を予測 / 提案 スキーマやデータ型、異常を自動的に検出 視覚的にデータを探索して変換を作成
  13. 13. Cloud OnAir Cloud Dataproc 費用対効果の高いプリエンプティブル ノード REST API によるクラスタ作成とジョブ実行 90 秒以下での高速なクラスタ作成 フルマネージドの Hadoop, Spark クラスタ
  14. 14. Cloud OnAir Cloud OnAir Cloud Data Fusion
  15. 15. Cloud OnAir ● No-ops なデータ パイプラインの構築と 管理のための統合サービス ○ CDAP という OSS ベースの マネージド サービス ● 統一されたバッチとストリーミング処理 ● GUI で簡単にフロー (DAG) を作成 ● 様々なデータソースに対応 Cloud Data FusionBeta とは?
  16. 16. Cloud OnAir Cloud Data Fusion のアーキテクチャ Kubernetes Engine Cloud Dataproc Cloud SQL Cloud Storage Persistent Disk Elasticsearch Hadoop Identity-Aware Proxy ユーザ Cloud Data Fusion UI / 認証 パイプライン実行 メタデータ保存 システム サービス
  17. 17. Cloud OnAir Cloud Data Fusion の機能 - パイプライン作成 分かりやすい GUI を使い、ノードと呼ばれるコンポーネントを 繋いでデータ パイプライン (DAG: Directed Acyclic Graph) を 作成できます。 ノード種類 ● Sources ● Transforms ● Analytics ● Actions ● Sinks ● Error Handlings
  18. 18. Cloud OnAir Cloud Data Fusion の機能 - データ加工 / クレンジング Built-in の Transform や Analytics を 組み合わせて、ワークロードに合った データ加工を設計
  19. 19. Cloud OnAir Cloud Data Fusion の機能 - データ加工 / クレンジング Wrangler UI 実際のデータ (1000 個の データからなるサブセット) を確認しながら インタラクティブに変換を 作成可能 作成した一連の変換は Transform として パイプラインで利用できる
  20. 20. Cloud OnAir Cloud Data Fusion の機能 - メタデータとリネージュ 検索例: <has_pii: true> 条件に合致する メタデータを持つ データセット メタデータ管理 データセットにデータを説明する メタデータを付与できる データ リネージュ データセットがどのパイプラインで どのように利用されているかを 可視化して追跡可能
  21. 21. Cloud OnAir Cloud Data Fusion の機能 - オーケストレーション プレビュー 各ノードのインプット データと アウトプット データを プレビューできる スケジュール パイプラインの実行を柔軟に スケジュール設定可能
  22. 22. Cloud OnAir Cloud Data Fusion の機能 - Hub Hub には様々な再利用可能な コンポーネントが用意されている ● サンプル パイプライン ● プラグイン ● ドライバー
  23. 23. Cloud OnAir Cloud Data Fusion の機能 - エンティティを追加 CDAP のカスタム プラグインを 自分で開発し追加することや、 サードパーティのドライバ等を 追加することができる
  24. 24. Cloud OnAir GCP の他のサービスとの比較 Cloud Data Fusion Google Cloud Platform データ パイプライン 作成 データ加工 データ クレンジング メタデータ管理 リネージュ データ パイプライン 実行 Cloud Dataflow Cloud Dataproc Cloud Dataproc Cloud Dataprep Cloud Composer Cloud Catalog オーケスト レーション Cloud Dataflow Cloud Dataflow Cloud Composer
  25. 25. Cloud OnAir 2 つのエディション Basic - 開発 / テスト / PoC Enterprise - 本番環境 ユーザ 制限なし 制限なし 制限 ● 実行は Dataproc 限定 ● 同時実行は 2 パイプライン まで 制限なし 機能 ● GUI ● Control Center ● Wrangler UI ● SDK ● Private IP サポート ● デバッグとテスト ● Basic のすべての機能に加え …… ● ストリーミング パイプライン ● 統合メタデータ リポジトリ ● 統合リネージュ ● HA ● REST API ● トリガー / スケジュール
  26. 26. Cloud OnAir Cloud OnAir デモ

×