Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[Cloud OnAir] GCP で構築するデータ分析基盤の最新情報をご紹介! 2018年11月15日 放送

2,357 views

Published on

GCP を利用して、データ分析基盤を構築していますか?この放送では、Google Cloud Next '18 のアップデート情報を踏まえて、GCP を利用したデータ分析基盤についてご紹介します!BigQuery の新しい機能もご紹介します。

Published in: Technology
  • Be the first to comment

[Cloud OnAir] GCP で構築するデータ分析基盤の最新情報をご紹介! 2018年11月15日 放送

  1. 1. Cloud Onr Cloud OnAir Cloud OnAir GCP で構築するデータ分析基盤の 最新情報をご紹介! 2018 年 11 月 15 日 放送
  2. 2. 写真を配置後 角丸六角形くり抜きの図形を 被せてください https://goo.gl/NcsiAz Speaker Cloud OnAir Google Cloud Japan Customer Engineer for gaming 高田 泰志 Takata Yasushi エンタープライズ向けのシステム開発から、 ETL ベンダーを経て、Google Cloud Japan 。 ゲーム業界のお客様を中心に支援を行なっています!
  3. 3. Cloud OnAir データを分析する前に・・・ はじめに
  4. 4. Cloud OnAir データを分析する前に・・・ Why データを分析する理由を考 える。 データの分析の結果を どう活用するのか。 例えば、毎月の報告に持っ ていく。 How どのようにデータを分析 すべきか考える。 例えば、キャンペーンイベント の度に分析する。 月に2 回、定期的に処理を実 行する。 What 何を構築すべきかを 考える。 例えば、バッチ処理で、 毎日 100 万件を処理できる データ分析基盤を構築する。
  5. 5. Agenda Cloud OnAir 1 3 2 4 データ分析基盤の課題と GCP のソリューション シナリオで見るデータ分析基盤 新機能のご紹介! まとめ
  6. 6. Cloud OnAir Cloud OnAir データ分析基盤の課題と GCP のソリューション
  7. 7. Cloud OnAir データ分析における多様化 データ種類・データ ソースの多様化 ● POS 情報 ● 画像情報 ● デバイスの情報 ● 表計算ソフト ● SaaS アプリケー ションのデータ データ量の増加 ● 数 MB/ 日 - 数 TB/ 日 ● 数秒間のスパイク データの分析手法の多様化 ● リコメンデーション ● Machine Learning を 利用した予測 ● リアルタイムデータ分析 1 2 3
  8. 8. Cloud OnAir データ分析を取り巻く課題 システムを安定的に 動作させる 組織内部、および外部との データを使った コラボレーション 1 2 3 4 5 6 7 8 9 データをセキュアに保管 既存のデータから価値を 探すのが非常に簡単に データ収集からアクションまで の時間短縮 継続的に増え続けるデータ ボリュームへの対応 すべてのビジネスでの データのキャプチャ ビッグデータシステムを作り、 運用するのが大変複雑。 Big Data を扱う技術の イノベーション
  9. 9. Cloud OnAir データ分析を行うために必要な工程 パフォーマンス チューニング モニタリング 信頼性向上のための作業デプロイ & 設定 リソースの最適化 従来のデータ分析プラットフォーム データ分析 & インサイト 必要なリソースの 割り当て データ増加への対応 データ分析 & インサイト サーバレスデータ分析モデル 本来はここに 注力したい
  10. 10. Cloud OnAir SheetsTensorflow Cloud Dataflow Cloud Dataproc BigQuery Cloud StorageCloud Pub/Sub Data Transfer Service Cloud Composer (オーケストレーション) Cloud ML Engine Data Portal Apache Beam データの 取得・ロード データの加工 データの分析データの保管 CL tools(gsutil, bq) Cloud Dataprep データのライフサイクルに合わせて基盤を構築
  11. 11. Cloud OnAir 基本的なアーキテクチャ Cloud Storage バイナリデータやファイルを格納する、 オブジェクトストレージ ログ オン プレミス Cloud Pub/Sub サーバレス、グローバル、フルマネージドの非同期の メッセージングプラットフォームイベント メトリックス
  12. 12. Cloud OnAir 基本的なアーキテクチャ Cloud Dataflow データ処理フレームワーク。バッチ処理、ストリーミング 処理どちらとも可能。 ストリーミング バッチ ログ オン プレミス イベント メトリックス
  13. 13. Cloud OnAir Dataflow とは ● Cloud Dataflow は、さまざまなデータ処理パターンの実 行に対応したマネージド サービス ● 大量データに対する ETL(Extract, Transform, Load) 処理を実行する。 ● バッチ、ストリーミングの両方のモデルに適用可能。 ● Apache Beam のプログラミングモデルを利用し、 開発を行う。
  14. 14. Cloud OnAir Cloud Dataflow データ処理フレームワーク。バッチ処理、ストリーミング 処理どちらとも可能。 Cloud Dataproc マネージドの と 基本的なアーキテクチャ ログ オン プレミス イベント メトリックス ストリーミング バッチ バッチ
  15. 15. Cloud OnAir BigQuery 高速、かつコストを抑えて オンデマンドで実行可能な データ分析エンジン。 Bigtable ハイパフォーマンスな NoSQL データベース。 特に大きなワークロード向け。 基本的なアーキテクチャ ログ オン プレミス イベント メトリックス ストリーミング バッチ バッチ
  16. 16. Cloud OnAir BigQuery とは ● 億件レベルの大規模データセットに対する 高速クエリー ● 分析用のデータウェアハウス ○ UPDATE, DELETE, INSERT は制限あり ● セットアップ、パフォーマンスチューニングや クラスタ拡張といったインフラ作業不要 ● ストレージ容量無制限。自動スケールアウト
  17. 17. Cloud OnAir BigQuery とは ● BI ツールを使って非技術者でも操作可能 ○ Tableau, QlikView, Google Data Portal, Google スプレッドシート / Microsoft Excel ● ETL ○ クエリー結果をテーブルに出力可能 ○ JSON 関数/正規表現関数 ● データ処理エンジンとの連携 ○ Cloud Dataflow, Cloud Dataproc, Hadoop
  18. 18. Cloud OnAir BigQuery - New - Google スプレッドシート連携 Google スプレッドシートで SQLを書くと BigQuery からデータを取り出し、表示が可能に。 クエリ スケジューリング(ベータ) BigQuery Web UI で直接クエリをスケジューリング できるように。 コスト管理システムの正式リリース コスト管理システムが正式リリース。利用可能な上限を カスタム クォータで設定可能。 NUMERIC データ型の正式リリース BigQuery で大きな整数と浮動小数点数の利用が可能に。
  19. 19. Cloud OnAir Cloud ML Engine 機械学習モデルを トレーニングし、 モデルを使用して新しい データに関する予測を行う。 基本的なアーキテクチャ ログ オン プレミス イベント メトリックス ストリーミング バッチ バッチ
  20. 20. Cloud OnAir B C A 基本的なアーキテクチャ ログ オン プレミス イベント メトリックス ストリーミング バッチ バッチ Data Portal (旧 Data Studio)
  21. 21. Cloud OnAir Cloud OnAir シナリオで見るデータ分析基盤
  22. 22. Cloud OnAir イベントで集計したアンケート結果を分析したい! 課題: プログラムを書くのが苦手だが、 なるべく自分自身でデータの加工 を追加したり、メンテナンスを行い たい。 CSV メリット: GUI でのデータの加工、レシピの作成ができるため、 直感的で使いやすい。 ノンコーディング。 アーキテクチャ: GUI で操作のしやすい Dataprep by Trifacta を利用する。データの クレンジング作業を定型化し、 再利用する。
  23. 23. Cloud OnAir Cloud Dataprep by Trifacta
  24. 24. Cloud OnAir Cloud Dataprep by Trifacta のライフサイクル Raw Data Clean Data Cloud Pub/Sub Cloud Dataflow 1. データの登録 2. データの加工 Cloud Dataprep by Trifacta 3. データの分析 Google BigQuery Data Portal Cloud ML
  25. 25. Cloud OnAir Cloud Dataprep by Trifacta サーバーレス、フルマネージド データの準備をすぐにはじめて、 自動スケール ソフトウェア・ライセンスを配布、 インフラを構築する必要なし サーバーレス、フルマネージド
  26. 26. Cloud OnAir Cloud Dataprep by Trifacta 視覚的に、インタラクティブに データ探索が可能 すぐに分散とパターンを理解できる 簡単なデータ探索
  27. 27. Cloud OnAir Cloud Dataprep by Trifacta データの質の問題を即座に発見 正規化、構造化、そしてデータセットの JOIN をガイドとともに簡単に実行 自動的なデータ変換の提案 高度なデータクレンジング
  28. 28. Cloud OnAir Cloud Storage から BigQuery へのデータロードを行いたい! Google App Engine (GAE) で Cron を利用 Google Cloud Functions (GCF) を使う cron: - url: /retry schedule: every 10 mins retry_parameters: min_backoff_seconds: 2.5 max_doublings: 5 Serverless で 定時処理 Function as a Service を使った Event driven 的な処理 Cloud Composerを 使う Serverless、かつDAGを利用した ジョブの管理で 定時処理 & メッセー ジングによるEvent Driven的な処理 task1 = BashOperator( task_id='print_date', bash_command='date',) task2 = DataFlowPythonOperator(task_id py_file=DATAFLOW_FILE,) task1>> task2 GCS → BigQueryのスケ ジュールロードを使う スケジューラによる 定期実行
  29. 29. Cloud OnAir Cloud Composer Managed Airflow の各種コンポーネントをマネージドで提供 Airflow worker, scheduler, webserver , database, etc. 開発者は DAG を書いて GCS にアップロードするだけで OK GCP の連携により使いやすく IAM, IAP, service account, Cloud Function 連携, auto-scaling, labelling, stackdriver GCP との連携 環境管理 API による環境の CRUD GUI による環境の操作 いつでもバージョンアップ、クラスタ再作成が可能
  30. 30. Cloud OnAir Cloud OnAir 新機能のご紹介!
  31. 31. Cloud OnAir Data Portal (旧 Data Studio) による さらなる BI 機能の拡張 ワンクリックでの可視化 のデータをワンクリックで で探索できるように Data Portal データブレンディング 複数のデータソースをシンプルな右クリックだけ で結合することが可能に Data Portalカスタムビジュアライゼーショ ン DEVELOPER PREVIEW 人気の高い フレームワークを用いた カスタムビジュアライゼーションが可能に
  32. 32. Cloud OnAir BigQuery BigQuery ML Beta Python, R などを使わずに SQL だけで機械学習
  33. 33. Cloud OnAir BigQuery BigQuery の 新たな機能 BigQuery GIS (beta) 使い慣れた SQL を利用して 地理情報を BigQuery で分析 可能に
  34. 34. Cloud OnAir BigQuery Data Studio Explorer (beta) BigQuery のデータを ワンクリックで Data Portal で可視化。 データから洞察を導く時間を 更に加速。 BigQuery の 新たな機能
  35. 35. Cloud OnAir Cloud OnAir まとめ
  36. 36. Cloud OnAir まとめ ● データ分析基盤の課題と GCP のソリューション ● ユースケースで見るデータ分析基盤 ● 新機能のご紹介!

×