Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Cloud Onr
Cloud OnAir
Cloud OnAir
そのデータ、今すぐ分析したくありませんか?
クラウドを活用したリアルタイムなデータ分析方法を
お教えします
2018 年 5 月 10 日 放送
Agenda
Cloud OnAir
1
3
2
4
アドホック分析と定型分析
BigQuery を活用したデータ分析
データパイプライン
まとめ
Cloud OnAir
Cloud OnAir
データ分析業務
〜 アドホック分析と定型分析 〜
Cloud OnAir
おさらい:データレイクとデータ ウェアハウス
データレイク データウェアハウス
Cloud OnAir
おさらい:データレイクとデータウェアハウスの姿
データレイク データウェアハウス事業の
データベース
Web サイトのア
クセスログ 分析者
Cloud Storage BigQuery
その他様々なデータ
Cloud OnAir
アドホック分析と定型分析
データレイク
や
データウェアハウス 分析者
データレイク
や
データウェアハウス
プログラムが定期的に行う定型
化された分析
分析プログラム
アドホック分析 定型分析
分析者がデータに対して仮...
Cloud OnAir
データ分析から分析結果の活用までの流れ
アドホック分析 定型分析
統計分析の
アプリケーション
ダッシュボード
データウェアハウス
● アドホック分析によってデータに対して仮説検証を実行
● アドホック分析の結果、有用性...
Cloud OnAir
Cloud OnAir
BigQuery を活用した分析
Cloud OnAir
BigQuery へのデータのロード
CSV
JSON
Avro
Parquet
バルクロード
2018-04-12, A0001, tee_0123
ストリーミング
インサート
● ファイル形式でアップロード
● 時間...
Cloud OnAir
BigQuery によるアドホック分析と定型分析
データ
2018-04-12, A0001, tee_0123
Google Data Studio で可視化BigQuery
プログラム で利用
様々な
システム
UI...
Cloud OnAir
分析の基盤として活躍する BigQuery
● アドホック分析も定型分析も
できるようになった
● 高速かつ低料金なデータ分析の
基盤が手に入った
● フルマネージドなので運用の
コストがかからない
Cloud OnAir
BigQuery が浸透してくると・・・
● もっとデータをかけ合わせて分析したい!
● データを使ってあんなことやこんなことをしたい!
● リアルタイム! ビッグデータ!
Cloud OnAir
BigQuery で実装するとしたら?
1. アクセスログからの MAU (Monthly Access User) 集計
2. リアルタイムなユーザランキングの集計
3. ログイン時の不正利用判定と不正判定時の
アカウ...
Cloud OnAir
得意:アクセスログからの MAU (Monthly Access User) 集計
大規模な集計処理
● 大規模なデータ処理
● BigQuery が最も得意とするタイプの処理
● バッチ処理と呼ばれるタイプの処理
アク...
Cloud OnAir
サービスの組み合わせが必要:リアルタイムなユーザランキングの集計
ストリーム処理
● リアルタイムなランキング集計などは、BigQuery だけではなく
他サービスと組み合わせてストリーム処理で行うべき処理
アクセスログ...
Cloud OnAir
サービスの組み合わせが必要:ログイン時の不正利用判定と不正判定時のア
カウント停止処理
アプリケーションとのリアルタイムな連携
● アプリケーションや DB との連携の必要があるため、
BigQuery のみでなくパイプ...
Cloud OnAir
バッチ処理とストリーム処理
ストリーム処理
● 連続して流れてくるデータに
対して継続的に集計や分析を行う
● IoT 等のリアルタイム性の必要な処
理と相性が良い処理方法
例:フィルタリング処理
バッチ処理
● ひと塊...
Cloud OnAir
データパイプライン
● バッチ処理やストリーム処理を組み合わせて実現されるデータ処理の全体像
バッチ処理
ストリーム処理
DB
DB
ファイル
ログデータ 処理結果
Cloud OnAir
Cloud OnAir
データパイプラインの実現
Cloud OnAir
パイプラインを実現するための主要な要素
データウェアハウスデータレイク
メッセージング基盤バッチ処理・ストリーム処理
Cloud OnAir
GCP でパイプラインを実現するには?
データウェアハウスデータレイク
メッセージング基盤バッチ処理・ストリーム処理
BigQueryCloud Storage
Cloud Pub/SubCloud Dataflow
Cloud OnAir
GCP 上のメッセージング基盤
● メッセージングサービス
○ ストリームデータを扱う
● 高い可用性
● プロビジョニング不要
Cloud Pub/Sub を利用する
Cloud OnAir
GCP 上のストリーム処理とバッチ処理
● バッチ処理とストリーミング処理の統合
● 負荷に応じたオートスケーリング
● 多種多様なデータソースへのコネクタ
● Apache Beam によるプログラミング
Cloud ...
Cloud OnAir
データパイプライン
● バッチ処理やストリーム処理を組み合わせて実現されるデータ処理の全体像
DB
ファイル バッチ処理 DWH
ログデータ ストリーム処理 DWH
Cloud OnAir
GCP で作るデータパイプライン
Cloud Dataflow
データの出力データの入力
Cloud
Storage
BigQuery
Cloud
Pub/Sub
Cloud
Storage
BigQuery
Cloud...
Cloud OnAir
● Apache Beam によるプログラミングが必要
● Java / Python 向けの SDK を利用
● 詳しく知りたい方は公式ドキュメントへ
パイプラインを実現するためのプログラミング
Beam Model:...
Cloud OnAir
ノンプログラミングで Dataflow (1) - Dataprep
● GUI ベースのデータ準備ツール
● GUI の操作結果は Dataflow で実行
● GCS 上のデータと BigQuery を操作可能
● ...
Cloud OnAir
ノンプログラミングで Dataflow (2) - テンプレート
● テンプレートで定義された処理を GUI から簡単に実行可能
● テンプレート例
○ GCS 上のファイルを読み取って BigQuery へ挿入
○ P...
Cloud OnAir
Google Cloud 活用事例
ソニーネットワークコミュニケーションズ様、リクルートライフスタイル様
では、分析基盤として BigQuery, GCS だけではなく Dataflow も
ご活用いただいています。
Cloud OnAir
Cloud OnAir
まとめ
Cloud OnAir
● アドホック分析と定型分析 (BigQuery)
● バッチ処理とストリーム処理
● データパイプライン
● Cloud Dataflow
振り返り
Cloud OnAir
まとめ
● BigQuery は非常に強力なサービスだが他のサービスと組み合わせるとより強力
になる
● ストリーム処理を行ってリアルタイムな分析、データ処理を実行
● ストリーム処理を含む一連の処理はデータパイプライン...
Upcoming SlideShare
Loading in …5
×

[Cloud OnAir] そのデータ、今すぐ分析したくありませんか? クラウドを活用したリアルタイムなデータ分析の方法をお教えします (LIVE) 2018年5月10日 放送

3,111 views

Published on

データ分析の必要性が認識されるにつれ、集めたデータをすぐに処理するリアルタイムなデータ分析へ注目が集まっています。GCP では、リアルタイムなデータ分析を実現するための様々なサービスが提供されています。GCP上でどのようにリアルタイムなデータ分析を行い、その結果、新たにどのようなことが実現可能になるのかをお話します。

Published in: Technology
  • Be the first to comment

[Cloud OnAir] そのデータ、今すぐ分析したくありませんか? クラウドを活用したリアルタイムなデータ分析の方法をお教えします (LIVE) 2018年5月10日 放送

  1. 1. Cloud Onr Cloud OnAir Cloud OnAir そのデータ、今すぐ分析したくありませんか? クラウドを活用したリアルタイムなデータ分析方法を お教えします 2018 年 5 月 10 日 放送
  2. 2. Agenda Cloud OnAir 1 3 2 4 アドホック分析と定型分析 BigQuery を活用したデータ分析 データパイプライン まとめ
  3. 3. Cloud OnAir Cloud OnAir データ分析業務 〜 アドホック分析と定型分析 〜
  4. 4. Cloud OnAir おさらい:データレイクとデータ ウェアハウス データレイク データウェアハウス
  5. 5. Cloud OnAir おさらい:データレイクとデータウェアハウスの姿 データレイク データウェアハウス事業の データベース Web サイトのア クセスログ 分析者 Cloud Storage BigQuery その他様々なデータ
  6. 6. Cloud OnAir アドホック分析と定型分析 データレイク や データウェアハウス 分析者 データレイク や データウェアハウス プログラムが定期的に行う定型 化された分析 分析プログラム アドホック分析 定型分析 分析者がデータに対して仮説を 立て、試行錯誤しながら進める分 析
  7. 7. Cloud OnAir データ分析から分析結果の活用までの流れ アドホック分析 定型分析 統計分析の アプリケーション ダッシュボード データウェアハウス ● アドホック分析によってデータに対して仮説検証を実行 ● アドホック分析の結果、有用性が認められたものが 定型分析として定期的に実行 機械学習の アプリケーション
  8. 8. Cloud OnAir Cloud OnAir BigQuery を活用した分析
  9. 9. Cloud OnAir BigQuery へのデータのロード CSV JSON Avro Parquet バルクロード 2018-04-12, A0001, tee_0123 ストリーミング インサート ● ファイル形式でアップロード ● 時間毎、日毎など一定間隔での データの取り込み ● レコード毎にデータを挿入 ● 即座のデータの取り込み リアルタイムに データを分析できる!
  10. 10. Cloud OnAir BigQuery によるアドホック分析と定型分析 データ 2018-04-12, A0001, tee_0123 Google Data Studio で可視化BigQuery プログラム で利用 様々な システム UI から操作 アドホック分析 定型分析 CSV JSON Avro Parquet e-Learning (次週放送)で説明
  11. 11. Cloud OnAir 分析の基盤として活躍する BigQuery ● アドホック分析も定型分析も できるようになった ● 高速かつ低料金なデータ分析の 基盤が手に入った ● フルマネージドなので運用の コストがかからない
  12. 12. Cloud OnAir BigQuery が浸透してくると・・・ ● もっとデータをかけ合わせて分析したい! ● データを使ってあんなことやこんなことをしたい! ● リアルタイム! ビッグデータ!
  13. 13. Cloud OnAir BigQuery で実装するとしたら? 1. アクセスログからの MAU (Monthly Access User) 集計 2. リアルタイムなユーザランキングの集計 3. ログイン時の不正利用判定と不正判定時の アカウント停止処理
  14. 14. Cloud OnAir 得意:アクセスログからの MAU (Monthly Access User) 集計 大規模な集計処理 ● 大規模なデータ処理 ● BigQuery が最も得意とするタイプの処理 ● バッチ処理と呼ばれるタイプの処理 アクセスログ DAU を含む ダッシュボード (日毎に更新) ?
  15. 15. Cloud OnAir サービスの組み合わせが必要:リアルタイムなユーザランキングの集計 ストリーム処理 ● リアルタイムなランキング集計などは、BigQuery だけではなく 他サービスと組み合わせてストリーム処理で行うべき処理 アクセスログ アクセスログ ?
  16. 16. Cloud OnAir サービスの組み合わせが必要:ログイン時の不正利用判定と不正判定時のア カウント停止処理 アプリケーションとのリアルタイムな連携 ● アプリケーションや DB との連携の必要があるため、 BigQuery のみでなくパイプラインとして扱うべき処理 ユーザーの ログイン 会員DB ?
  17. 17. Cloud OnAir バッチ処理とストリーム処理 ストリーム処理 ● 連続して流れてくるデータに 対して継続的に集計や分析を行う ● IoT 等のリアルタイム性の必要な処 理と相性が良い処理方法 例:フィルタリング処理 バッチ処理 ● ひと塊のデータに対して 集計や分析を行う ● リアルタイム性が必要なときには向か ない処理方法
  18. 18. Cloud OnAir データパイプライン ● バッチ処理やストリーム処理を組み合わせて実現されるデータ処理の全体像 バッチ処理 ストリーム処理 DB DB ファイル ログデータ 処理結果
  19. 19. Cloud OnAir Cloud OnAir データパイプラインの実現
  20. 20. Cloud OnAir パイプラインを実現するための主要な要素 データウェアハウスデータレイク メッセージング基盤バッチ処理・ストリーム処理
  21. 21. Cloud OnAir GCP でパイプラインを実現するには? データウェアハウスデータレイク メッセージング基盤バッチ処理・ストリーム処理 BigQueryCloud Storage Cloud Pub/SubCloud Dataflow
  22. 22. Cloud OnAir GCP 上のメッセージング基盤 ● メッセージングサービス ○ ストリームデータを扱う ● 高い可用性 ● プロビジョニング不要 Cloud Pub/Sub を利用する
  23. 23. Cloud OnAir GCP 上のストリーム処理とバッチ処理 ● バッチ処理とストリーミング処理の統合 ● 負荷に応じたオートスケーリング ● 多種多様なデータソースへのコネクタ ● Apache Beam によるプログラミング Cloud Dataflow を利用する
  24. 24. Cloud OnAir データパイプライン ● バッチ処理やストリーム処理を組み合わせて実現されるデータ処理の全体像 DB ファイル バッチ処理 DWH ログデータ ストリーム処理 DWH
  25. 25. Cloud OnAir GCP で作るデータパイプライン Cloud Dataflow データの出力データの入力 Cloud Storage BigQuery Cloud Pub/Sub Cloud Storage BigQuery Cloud Pub/Sub ● Dataflow を介してデータ処理がつながっていく ● 全てマネージドなサービスとして提供されている ● ここで紹介していないデータソースにも数多く対応している
  26. 26. Cloud OnAir ● Apache Beam によるプログラミングが必要 ● Java / Python 向けの SDK を利用 ● 詳しく知りたい方は公式ドキュメントへ パイプラインを実現するためのプログラミング Beam Model: Fn Runners Runner A Runner B Beam Model: Pipeline Construction Beam Java Beam Python Execution Execution Cloud Dataflow Execution
  27. 27. Cloud OnAir ノンプログラミングで Dataflow (1) - Dataprep ● GUI ベースのデータ準備ツール ● GUI の操作結果は Dataflow で実行 ● GCS 上のデータと BigQuery を操作可能 ● データ型の自動検知や操作のレコメンド Cloud Dataprep の特徴 e-Learning (次週放送)で説明
  28. 28. Cloud OnAir ノンプログラミングで Dataflow (2) - テンプレート ● テンプレートで定義された処理を GUI から簡単に実行可能 ● テンプレート例 ○ GCS 上のファイルを読み取って BigQuery へ挿入 ○ Pub/Sub からのストリームデータを受け取って BigQuery へ挿入 ● Google 提供のテンプレートを利用することも、 テンプレートを自作することも可能 Dataflow テンプレート の特徴
  29. 29. Cloud OnAir Google Cloud 活用事例 ソニーネットワークコミュニケーションズ様、リクルートライフスタイル様 では、分析基盤として BigQuery, GCS だけではなく Dataflow も ご活用いただいています。
  30. 30. Cloud OnAir Cloud OnAir まとめ
  31. 31. Cloud OnAir ● アドホック分析と定型分析 (BigQuery) ● バッチ処理とストリーム処理 ● データパイプライン ● Cloud Dataflow 振り返り
  32. 32. Cloud OnAir まとめ ● BigQuery は非常に強力なサービスだが他のサービスと組み合わせるとより強力 になる ● ストリーム処理を行ってリアルタイムな分析、データ処理を実行 ● ストリーム処理を含む一連の処理はデータパイプラインとして実現 ● Google Cloud ではデータパイプラインを実現するための各種機能が フルマネージドなサービスとして提供 リアルタイムな処理を実現するためには データパイプラインをうまく構築することが必須 機械学習もデータパイプラインに組み込むことが可能

×