Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[Cloud OnAir ] #03 No-ops で大量データ処理基盤を簡単に構築する

3,595 views

Published on

次のビジネス時代を生き抜くために BigData は欠かせないものとなりつつあります。 GCP のビッグデータ製品である、BigQuery や Cloud Dataflow、Pub/Sub を使って No-Ops でデータ処理基盤を構築する方法を紹介します。

Published in: Technology
  • Be the first to comment

[Cloud OnAir ] #03 No-ops で大量データ処理基盤を簡単に構築する

  1. 1. Cloud Onr Cloud OnAir Cloud OnAir No-ops で大量データ処理基盤を簡 単に構築する 第 3 回放送 - 11 月 2 日
  2. 2. Agenda Cloud OnAir 1 3 2 4 大量データ処理とは 簡単に構築するには Google Cloud 事例 Questions 2
  3. 3. Cloud OnAir Cloud OnAir 大量データ処理とは
  4. 4. Cloud OnAir データ処理とは 4
  5. 5. Cloud OnAir データ処理基盤の要素 加工/ 分析 可視化保存収集 5
  6. 6. Cloud OnAir 企業で保有するデータサイズ 563 TB 〜 100,000 TB ※1 ※1 https://www.symantec.com/content/dam/symantec/docs/reports/2012-state-of-information-global-en.pdf ※2 1スプレッドシート = 10MBの場合 約10,000,000 スプレッドシート※2 6
  7. 7. Cloud OnAir 大量のデータをどうやって処理・利用するか 大量・高性能のサーバ アプリケーション (データベース等) 7
  8. 8. Cloud OnAir 大量のデータを扱うときの課題 分析 クラスタを作 成 クラスタを 管理 クラスタを アップグレード インデックスを定 義 ソフトウェアを セットアップ ネットワークを セットアップ スケールを 管理 8
  9. 9. Cloud OnAir 大量データに対す るGoogle のアプローチ 2016 Google Research 20082002 2004 2006 2010 2012 2014 2015 Open Source 2005 Google Cloud Products BigQuery Pub/Sub Dataflow Bigtable ML GFS Map Reduce BigTable Dremel Flume Java Millwheel Tensorflow Apache Beam PubSub 9
  10. 10. Cloud OnAir 分析に費やす時間を増やす 分析 クラスタを作 成 クラスタを 管理 クラスタを アップグレード インデックスを 定義 ソフトウェアを セットアップ ネットワークを セットアップ スケールを 管理 典型的なデータ ウェアハウス インフラではなく、 データから知見を 導くところに フォーカスする 分析 クラウド時代の Big Data アーキテクチャ 10
  11. 11. Cloud OnAir Cloud OnAir 簡単に構築するには
  12. 12. Cloud OnAir 簡単とは すぐ 安価に 12
  13. 13. Cloud OnAir GCPのプロダクトで実現するには 保存収集 BigQuery (SQL) 加工 / 分析 Cloud Dataflow (stream and batch) Cloud Storage (objects) Cloud Datastore (NoSQL) BigQuery Storage (structured) Cloud Dataproc (Hadoop & Ecosystem) Cloud Bigtable (NoSQL HBase) Cassandra hBase MongoDBRabbit MQ Kafka Cloud 2.0 Cloud 3.0 可視化 Cloud Datalab (iPython/Jupyter) Tableau Cloud Pub/Sub Stackdriver Logging BQ Streaming App Engine Cloud SQL (SQL) Cloud Machine Learning Cloud Spanner (NewSQL) 13
  14. 14. Cloud OnAir リファレンスアーキテクチャ Cloud Pub/Sub At Least One の信頼性を持つ、スケーラブルな グローバル分散メッセージ・キュー Cloud Storage オブジェクトストレージ。外部システムが出力する ファイルの GCP へのエントリーポイントとなる イベント、 メトリック等 Stackdriver Logging GCP および AWS(EC2) からログイベントを収集 API を介して任意のアプリケーションログも収集 Transfer Service 生ログ、ファイル、 外部システムからの アウトプット 等 GCP のシステムログ、 アプリケーション ログ 等 14
  15. 15. Cloud OnAir リファレンスアーキテクチャ イベント、 メトリック等 Stream Batch Cloud Dataflow バッチ/ストリーム両方に対応した データ処理エンジン Cloud Dataproc Spark / Hadoop のマネージド・サービス Batch 生ログ、ファイル、 外部システムからの アウトプット 等 GCP のシステムログ、 アプリケーション ログ 等 15
  16. 16. Cloud OnAir リファレンスアーキテクチャ イベント、 メトリック等 Stream Batch Batch BigQuery 大規模データ セットに 対する高性能クエリーエンジン 生ログ、ファイル、 外部システムからの アウトプット 等 GCP のシステムログ、 アプリケーション ログ 等 16
  17. 17. Cloud OnAir リファレンスアーキテクチャ イベント、 メトリック等 Stream Batch Batch 外部 アプリケーション Cloud Datalab 可視化および BI データ共有 B C A BigQuery Dataproc Dataflow Cloud Storage Pub/Sub Stackdriver Logging Data Studio 生ログ、ファイル、 外部システムからの アウトプット 等 GCP のシステムログ、 アプリケーション ログ 等 17
  18. 18. Cloud OnAir 実際にやってみる BigQuery Data Studio 18
  19. 19. Cloud OnAir リファレンスアーキテクチャ 生ログ、ファイル、外 部システムからのア ウトプット 等 イベント、 メトリック等 GCPのシステムロ グ、アプリケーション ログ 等 Stream Batch Batch 外部 アプリケー ション Cloud Datalab 可視化および BI データ共有 B C A BigQuery Dataproc Dataflow Cloud Storage Pub/Sub Stackdriver Logging Data Studio No-ops で自動的にスケールする ビックデータ処理基盤
  20. 20. Cloud OnAir Cloud OnAir Google Cloud の事例
  21. 21. Cloud OnAir Spotify: 音楽ストリーミングの巨大インフラを Google Cloud Platform へ移行 https://cloudplatform-jp.googleblog.com/2016/ 02/spotify-google-cloud-platform.html ● 世界中に 7,500 万以上のユーザー ● 20 億を超えるプレイリスト ● 3,000 万曲以上の楽曲 ● パーソナライズされたプレイリストを提供 技術の重要性を早くから認識して自前で インフラを作り上げてきた ”最も重要なこと” にフォーカスするために 自前主義から脱却 21
  22. 22. Cloud OnAir Spotify: アーキテクチャ 22
  23. 23. Cloud OnAir Spotify: Cloud Pub/Sub スケーラビリティはシステムに組み込まれている 23
  24. 24. Cloud OnAir Spotify: BigQuery により分析処理をスピードアップ Common query types Hive / Hadoop BigQuery KPIs by specified ad hoc parameters ~1,200 secs ~10 - 20 secs FB audience list for social targeting for AU campaign ~4,000 secs ~15 - 30 secs Top tracks by age / gender by market ~17,500 secs ~500 secs 24
  25. 25. Cloud OnAir Spotify: BigQuery により分析処理をスピードアップ “ ” BIGQUERY が、私にとって 人生最高のものだと、 ついに世界に伝えることができる。 25
  26. 26. “クラウドプロバイダは成熟してきた。 コストが下がり、信頼性が増し、様々な サービスを提供するようになってきた” Spotify http://www.slideshare.net/JoshBaer/shortening-the-feedback-loop-big-data-spain-external
  27. 27. “物理マシンを所有して運用することは、我々に とっては競争優位ではない “ Spotify http://www.slideshare.net/JoshBaer/shortening-the-feedback-loop-big-data-spain-external
  28. 28. “我々はビッグデータ技術における Google の先進性が、我々のデータ処理に優 位をもたらしてくれると信じている” Spotify http://www.slideshare.net/JoshBaer/shortening-the-feedback-loop-big-data-spain-external
  29. 29. Cloud OnAir Cloud OnAir まとめ
  30. 30. Cloud OnAir Google Cloud で簡単に始める大量データ処理 調査 分析 PoC 機器購入 メンテナス 機器増強 セットアップ 分析 事前準備 分析作業 今まで Google Cloud だと Google Cloud 申し込み 短縮されるタイムライン 30
  31. 31. Cloud OnAir まずは無料でお試しください https://cloud.google.com 31
  32. 32. Cloud OnAir 第一歩は BigQuery から チュートリアル https://goo.gl/fwSgKj クイックスタート https://goo.gl/VEfFyk BigQuery 32

×