Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群

8,171 views

Published on

2017-11-22 wed.
第 2 回 Google Cloud INSIDE Games & Apps

Google Cloud データアナリティクステクニカルスペシャリスト 下田 倫大 の登壇スライドです。

Published in: Engineering
  • Be the first to comment

基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群

  1. 1. Confidential & Proprietary 基本から学ぶ ビッグデータ / データ分析 / 機械学習 サービス群 第 2 回 Google Cloud INSIDE Games & Apps
  2. 2. Confidential & Proprietary 下田 倫大( Norihiro Shimoda ) データアナリティクステクニカルスペシャリスト Google クラウド
  3. 3. 本日お話すること : GCP 上でのデータ分析の基本的考え方
  4. 4. Confidential & Proprietary 集める 貯める 処理する データ分析のワークフロー 分析する 可視化する + 結果をアプリケーションで使う
  5. 5. Data ScienTISTS & Data EngineerS
  6. 6. ビジネス課題に対してデータを利用して科学 的に課題を解決する 最近では機械学習エンジニアと呼ばれる職種 も出てきた データサイエンティストの道具 - 基礎集計( SQL ) - 統計学 - 機械学習 - etc... データサイエンティスト
  7. 7. データセットを用意するためのインフラを構築 / 運用/保守する データエンジニアの道具 - {クラウド|オンプレ}インフラ - DB - ストレージ - DWH - Hadoop / Spark などの分散処理系 - etc... データエンジニア
  8. 8. Data ScienTISTS & Data EngineerS こんな処理がしたい、でもイ ンフラとか詳しくないのでアル ゴリズムのプロダクション向 けの実装やデプロイはお願 いしたい インフラに余裕がないので、あん まり負荷が高い処理は増やしたく ないのですが、本当にその処理 必要ですか?
  9. 9. データサイエンティスト の 守備範囲 データエンジニア の 守備範囲
  10. 10. Confidential & Proprietary データ分析を 簡単に、効果的に
  11. 11. データの収集 / 保存
  12. 12. Confidential & Proprietary 大量に、高速に、安価に集めて保存 Cloud Pub/Sub イベント・メトリックなどをストリーミングで収集 Cloud Storage オブジェクトストレージのサービス 生ログ、ファイル、外部システムのデータなどあらゆる データの保存場所
  13. 13. Confidential & Proprietary Subscriber Publish / Subscribe のパターン Publisher Subscriber Topic Subscription Message Message Publisher Subscriber Message Subscriber Message Message Message Subscriber Publisher Subscriber Topic Message Message Message Message Message Message Publisher Message Message Topic Subscription Subscription Subscription
  14. 14. Confidential & Proprietary Data Log Event Metrics File
  15. 15. データの処理
  16. 16. Confidential & Proprietary 高速に、サーバレスでデータ処理 Cloud Dataproc マネージドHadoop / Sparkのサービス 安価で簡単にクラスタ構築が可能に Cloud Dataflow パイプラインのストリーミングとバッチ実行をサポートする フルマネージドのデータ処理サービス
  17. 17. Confidential & Proprietary Dataflow のコンセプト ● Pipeline IO : 外部のデータリポジトリに対するデータのリードとライト ● PCollection : 内部的なデータ型 ● PTransformation : 入力を変換する関数 ● Pipeline : PipelineIO と PTransformation から構成されるデータの流れ Pipeline IO (Input) PTransform PTransform PTransform PCollection (Data) Pipeline Data Input
  18. 18. Confidential & Proprietary Dataflow の特徴 ジョブのオートスケーリング フルマネージドで自動構成 最適な実行パスのための自動グラフ最適化 ジョブの動的な負荷のリバランシング 1 2 3 4
  19. 19. Confidential & Proprietary ジョブのオートスケーリング フルマネージドで自動構成 最適な実行パスのための自動グラフ最適化 ジョブの動的な負荷のリバランシング 1 2 3 4 C D C+D C C+D A GBK + A+ GBK + Dataflow の特徴
  20. 20. Confidential & Proprietary 800 RPS 1200 RPS ジョブのオートスケーリング フルマネージドで自動構成 最適な実行パスのための自動グラフ最適化 ジョブの動的な負荷のリバランシング 1 2 3 4 Dataflow の特徴
  21. 21. Confidential & Proprietary ジョブのオートスケーリング フルマネージドで自動構成 最適な実行パスのための自動グラフ最適化 ジョブの動的な負荷のリバランシング 1 2 3 4 Dataflow の特徴
  22. 22. Confidential & Proprietary Data Batch Stream Batch Log Event Metrics File
  23. 23. Confidential & Proprietary 機械学習をベースとしたデータ変換のレコメンデーション データソース ベースのデータ準備ツール 上に構築され、コードは不要
  24. 24. Confidential & Proprietary
  25. 25. データの分析(集計 / 検索)
  26. 26. Confidential & Proprietary 大量のデータに素早くアクセス BigQuery ペタバイト級のデータも低料金で保存でき、 数秒オーダーで処理できるフルマネージドのデータウェアハウス
  27. 27. Confidential & Proprietary Data Batch Stream Batch Log Event Metrics File
  28. 28. Confidential & Proprietary Devices GCP 以外でデータ分析基盤を作ると... Google App Engine 1 分間でどれくらいのアクティブユーザーが得られたか? チューニングも運用もすごく大変
  29. 29. Confidential & Proprietary Devices Cloud Pub/Sub Cloud Dataflow BigQuery 1 分間でどれくらいのアクティブユーザーが得られたか? Google App Engine GCP でデータ分析基盤を作ると...
  30. 30. データの分析(機械学習)
  31. 31. Confidential & Proprietary No Ops でのモデル作成 / 学習済みモデルへの適用 Cloud ML Engine フルマネージドな TensorFlow の実行環境 分散学習やバッチ / オンライン予測も実行可能 ML APIs 学習済みモデルに対してデータを適用することのできるサービス - VisionAPI - SpeechAPI - NL API - Translation API - VideoIngeligence API
  32. 32. Confidential & Proprietary TensorFlow Cloud ML Engine ML APIs - マネージドな TensorFlow の実行環境 - アルゴリズムの実装は自分で行う - 実行環境が用意される - TensorFlow のバージョンや各種ライブ ラリは Cloud ML Engine が提供するもの のみ インフラについてはすべて GCP に任せら れるため、機械学習アルゴリズムの実装 に集中できる - 機械学習のライブラリ - アルゴリズムの実装は自分で行う - 実行環境は自分で用意する - TensorFlow のバージョンや各種ライブ ラリは好きなものを自分で用意すること ができる 自由度は高いが、使いこなすには機械 学習及びインフラに関する知識が必要 - ML の特定のタスクの学習済みモデルを API 経由で利用することができる - 機械学習を適用したいデータを用意した ら後は API をコールするだけ - モデルに変更は加えられない やりたいことと提供されているものがマッチ する場合は非常に良い選択肢 TensorFlow / CloudML / ML APIsの違い
  33. 33. Confidential & Proprietary Data Batch Stream Batch Log Event Metrics File
  34. 34. データの可視化
  35. 35. Confidential & Proprietary データの可視化 Cloud Datalab インタラクティブなデータの探索、分析、可視化、機械学習のための使いや すいインタラクティブなツール( Jupyter ) Cloud Data Studio データ可視化 / レポート作成サービス
  36. 36. Confidential & Proprietary Cloud Datalab - インタラクティブなツール( Jupyter ) - オープンソースとしての開発 - GCP の各サービスとのインテグレーション - GCS - BigQuery - etc...
  37. 37. Confidential & Proprietary Cloud Data Studio - 様々なデータソースからデータを取得して簡単にレ ポートを作成することができるサービス - 定期的なレポート出力に向いている
  38. 38. Confidential & Proprietary Data Batch Stream Batch DataScientist Apps Log Event Metrics File
  39. 39. 事実上無制限にスケールする - 小さく始めて、同じ構成でそのまま使い続けられる - ストレージ容量の上限に悩まされない - リソース枯渇による「詰まり」が起こらない PaaS / SaaS のみで構築できる - 専任のインフラエンジニアが事実上不要 - データサイエンティスト - 分析作業に集中できる - 機械学習エンジニア - アルゴリズム開発に集中できる 分析環境 on GCP のメリット
  40. 40. Confidential & Proprietary No Ops Data Platform
  41. 41. Confidential & Proprietary データの利活用に フォーカスできる
  42. 42. Confidential & Proprietary Thank you

×