Cloud Onr
Cloud OnAir
Cloud OnAir
BigQuery で実現する
Smart Analytics Platform
2019 年 10 月 24 日 放送
Agenda
Cloud OnAir
1
3
2
データ ウェアハウスをモダナイズする BigQuery
BigQuery で実現する Smart Analytics Platform
まとめ
Cloud OnAir
Cloud OnAir
データ ウェアハウスを
モダナイズする BigQuery
Cloud OnAir
BigQuery の特徴
エンタープライズ
データ ウェアハウス
ペタバイト規模のスケール
機密性、可用性、耐久性
フルマネージドでサーバレス
ストリーミング データの
リアルタイム分析
データ取り込みの自動化
ML、BI エンジン、GIS を標準搭載
Cloud OnAir
BigQuery の特徴
エンタープライズ
データ ウェアハウス
ペタバイト規模のスケール
機密性、可用性、耐久性
フルマネージドでサーバレス
ストリーミング データの
リアルタイム分析
データ取り込みの自動化
ML、BI エンジン、GIS を標準搭載
Cloud OnAir
BigQuery のアーキテクチャ
SQL:2011 準拠
ストリーミング
インサート
無料の
バルクロード
REST API
7 言語の
クライアント
ライブラリ
Web UI, CLI
ペタビット ネットワーク
BigQuery 高可用性を備えた
コンピュート クラスタ
複製、分散ストレージ
(99.9999999999% 耐久性)
分散インメモリ
シャッフル
Cloud OnAir
永続的な UDF
永続的なユーザ定義 SQL と
JavaScript 関数を作成可能
ビジネス ロジックを他の
チームに共有可能
https://cloud.google.com/bigquery/docs/reference/standard-sql/user-defined-functions
Cloud OnAir
BigQuery Scripting (beta)
複数のステートメントを 1 つの
リクエストで実行可能
変数の宣言、代入、使用が可能
条件分岐、ループによる処理
フローの制御が可能
https://cloud.google.com/bigquery/docs/reference/standard-sql/scripting
Cloud OnAir
BigQuery の機密性、可用性、耐久性
可用性
99.9% アップタイム SLA
耐久性
複数のデータセンターでのデータの複製、
99.9999999999% 耐久性
第三者の監査と認定に
基づくコンプライアンス
保証
アメリカ
HIPAA
FedRAMP
ドイツ
BSI C5
シンガポール
MTCS Tier 3
グローバル
ISO 27001
ISO 27017
ISO 27018
SOC 3
SOC 2 SOC 1
PCI DSS
CSA STAR
データの保護
デフォルト暗号化、 VPC Service Controls
での IP アドレス制限とデータ持ち出し制限
データガバナンスと機密性
データカタログ、データアクセス制御、
機微情報の自動検知とマスキング
Cloud OnAir
BigQuery の特徴
エンタープライズ
データ ウェアハウス
ペタバイト規模のスケール
機密性、可用性、耐久性
フルマネージドでサーバレス
ストリーミング データの
リアルタイム分析
データ取り込みの自動化
ML、BI エンジン、GIS を標準搭載
Cloud OnAir
BigQuery ストレージ
SQL:2011 準拠
ストリーミングイン
サート
無料の
バルクロード
REST API
7 言語の
クライアント
ライブラリ
Web UI, CLI
ペタビット ネットワーク
BigQuery 高可用性を備えた
コンピュート クラスタ
複製、分散ストレージ
(99.9999999999% 耐久性)
分散インメモリ
シャッフル
Cloud OnAir
BigQuery ストレージ - フルマネージド
3
2
1
3
21 3
2
1
Table 1 Table 2 Table 3
Zone A Zone B Zone C
リージョン
● テーブルは DWH のクエリ
に最適化されたカラムナー
フォーマットで保管される
● それぞれのテーブルは
自動で圧縮、暗号化 される
● ストレージは
フルマネージドで 12 nines
の耐久性があり、それぞれの
テーブルはゾーンを
またいで複製されている
● 自動的にスケール
https://cloud.google.com/blog/ja/products/gcp/cloud-onair-bigquery-20180
Cloud OnAir
BigQuery コンピュート クラスタ
SQL:2011 準拠
ストリーミング
インサート
無料の
バルクロード
REST API
7 言語の
クライアント
ライブラリ
Web UI, CLI
ペタビット ネットワーク
BigQuery 高可用性を備えた
コンピュート クラスタ
複製、分散ストレージ
(99.9999999999% 耐久性)
分散インメモリ
シャッフル
Cloud OnAir
BigQuery コンピュート クラスタ - フルマネージド
インメモリシャッフ
ル
ワーカー
ワーカー
ワーカー
ワーカー
ワーカー
SELECT col, COUNT(1) FROM tbl GROUP BY col
分散
ストレージ
● クエリ実行時のみコンピュー
(コンテナ)が大量に起動される
→ 従量制課金を実現
● 一部のゾーンやワーカーが障害
でも透過的に割当変更するだけ
→ 高可用性
● ワーカーはお客様には透過的に
アップデートされる
→ メンテナンス、バージョン
アップのダウンタイムなし
https://cloud.google.com/blog/ja/products/gcp/cloud-onair-bigquery-20180906
Cloud OnAir
透過的なアップグレード、性能改善
ペタバイト規模のクエリ - 2016 年 → 245 秒
Cloud OnAir
透過的なアップグレード、性能改善
ペタバイト規模のクエリ - 2018 年(クラスタリングの導入) → 113 秒
Cloud OnAir
透過的なアップグレード、性能改善
ペタバイト規模のクエリ - 2019 年(性能改善) → 4 秒
Cloud OnAir
自動再クラスタリング
無料
メンテナンスフリー
自動
クエリリソースを消費しない
セットアップやメンテナンスは不要
バックグラウンドで自動的に実行
https://cloud.google.com/bigquery/docs/clustered-tables#automatic_re-clusterin
Cloud OnAir
フルマネージド サーバレス データ ウェアハウス
従来のデータ ウェアハウス
パフォーマンス
チューニング
モニタリング
可用性の担保デプロイと設定変更
使用率の改善
分析
プロビジョニング
スケール
BigQuery
分析
Cloud OnAir
BigQuery の特徴
エンタープライズ
データ ウェアハウス
ペタバイト規模のスケール
機密性、可用性、耐久性
フルマネージドでサーバレス
ストリーミング データの
リアルタイム分析
データ取り込みの自動化
ML、BI エンジン、GIS を標準搭載
Cloud OnAir
ストリーミング データのリアルタイム分析
デフォルトで、秒間 10 万件のストリーミング
データの取り込みが可能
(プロジェクトまたはテーブル単位)
(BigQuery Streaming V2 beta)
デフォルトで、秒間 100 万件のストリーミング
データの取り込みが可能 (プロジェクト単位)
取り込まれたストリーミング データを
リアルタイムに検索、分析可能
ストリーミング データをリアルタイムに
取り込み可能
https://cloud.google.com/bigquery/quotas#streaming_inserts
Cloud OnAir
BigQuery の特徴
エンタープライズ
データ ウェアハウス
ペタバイト規模のスケール
機密性、可用性、耐久性
フルマネージドでサーバレス
ストリーミング データの
リアルタイム分析
データ取り込みの自動化
ML、BI エンジン、GIS を標準搭載
Cloud OnAir
BigQuery Data Transfer Service
主要なデータソースについては、スケジュールを
設定することで、自動的、定期的に BigQuery へ
データを取り込むことが可能
様々なデータソースをサポート : Google Ads, YouTube
Channel, Cloud Storage, Amazon S3 (beta), Amazon
Redshift (beta), Teradata (beta), etc.
プログラミング無しで、外部のデータソースから
BigQuery へデータを取り込む
https://cloud.google.com/bigquery/transfer/
Cloud OnAir
BigQuery の特徴
エンタープライズ
データ ウェアハウス
ペタバイト規模のスケール
機密性、可用性、耐久性
フルマネージドでサーバレス
ストリーミング データの
リアルタイム分析
データ取り込みの自動化
ML、BI エンジン、GIS を標準搭載
Cloud OnAir
BigQuery ML
1
2
3
モデルの構築と予測を BigQuery 上
で完結して実施
SQL でモデルを構築、管理、運用
機械学習のタスクやハイパー
パラメータ チューニングを自動化
https://cloud.google.com/bigquery-ml/docs/bigqueryml-intro
Cloud OnAir
AutoML Tables (beta)
需要予測
在庫切れ予測
価格最適化
LTV 予測
コンバージョンレート、離
脱率予測
不正予測
その他...
テーブルデータ
チャネル情報
Channe
l ID
Name Catego
ry
Feature
s
Supplie
r
INSTOR
E
“Navy …” XYZ [“A, B,
…”]
Nike
CALL
CE
“Running
…”
XYZ [“A, B,
…”]
Nike
... ... ... ... ...
地理情報
Geo ID Name Catego
ry
Feature
s
Supplie
r
CA “Navy …” XYZ [“A, B,
…”]
Nike
CA “Running
…”
XYZ [“A, B,
…”]
Nike
... ... ... ... ...
販促情報
Month
ID
Name Catego
ry
Feature
s
Supplie
r
2018-1 “Navy …” XYZ [“A, B,
…”]
Nike
2017-1 “Women’
s…”
XYZ [“A, B,
…”]
Adidas
... ... ... ... ...
製品情報
Product
ID
Name Image Feature
s
Supplie
r
102934 “Navy …” gs://XYZ [“A, B,
…”]
Nike
112932 “Women’
s…”
gs://XYZ [“A, B,
…”]
Adidas
... ... ... ... ...
売上情報
Month Channel ID Product ID Geo ID Volume
2018-1 INSTORE 102934 CA102 600
2018-1 INSTORE 112932 CA102 800
2018-1 WEB 901243 AZ203 300
... ... ... ... ...
● 最先端のモデルを
自動的に構築
● 幅広いデータ型に 対
応
● BigQuery でデータセッ
トを適切に処理 (10 TB
まで)
● GUI 操作でコード 記
述不要
https://cloud.google.com/automl-tables/
Cloud OnAir
BigQuery BI Engine (beta)
1 秒未満のクエリ
シンプルなアーキテクチャ
スマート チューニング
https://cloud.google.com/bi-engine/docs/overview
Cloud OnAir
BigQuery GIS
BigQuery Geo Viz で地理データを可視化
地理データの抽出やフィルタリング、面積や
距離の計算など、地理データの分析が SQL
だけで実施可能
地理データを用いた空間分析を BigQuery 上で完
結して実施
https://cloud.google.com/bigquery/docs/gis-intro
Cloud OnAir
BigQuery の特徴
エンタープライズ
データ ウェアハウス
ペタバイト規模のスケール
機密性、可用性、耐久性
フルマネージドでサーバレス
ストリーミング データの
リアルタイム分析
データ取り込みの自動化
ML、BI エンジン、GIS を標準搭載
Cloud OnAir
データ ウェアハウスをモダナイズする BigQuery
データ取り込みの
ための複雑な ETL
利用者数が制限 BI のみに最適化 バッチ処理のみに
最適化
インフラや
ミドルウェアの
継続的な運用や
保守
DBA による
継続的なデータの
管理や運用
従来のデータ
ウェアハウス
BigQuery
データ取り込みの
自動化
データを必要と
する全ての人が
利用可能
ML や AI の土台 リアルタイム分析 フルマネージドで
サーバレス
データの管理や
運用の自動化
Cloud OnAir
Cloud OnAir
BigQuery で実現する
Smart Analytics Platform
Cloud OnAir
Google Cloud の Smart Analytics Platform
Apache
Beam
Cloud Pub/Sub
Cloud
Dataflow
Cloud
Dataproc
Cloud
Storage
BigQuery Data
Transfer Service
Cloud Composer
(ジョブ管理)
Cloud IoT
Core
Cloud Dataprep
Cloud AI
Services
Data Portal
TensorflowStorage Transfer
Service
Data Catalog
(メタデータ管理)
Cloud Data Fusion
(データ インテグレーション)
処理収集 蓄積 分析
BigQuery Storage
BigQuery
利用、可視化
Cloud Data Loss Prevention
(機微情報の検知、マスキング)
Cloud IAM
(データアクセス制御)
Google
スプレッド
シート
Cloud OnAir
Google Cloud の Smart Analytics Platform
BigQuery を中心に
様々なプロダクトを連携
データ分析に関する
作業を一気通貫で実施
Cloud OnAir
データの収集 - BigQuery Data Transfer Service
S3
Teradata / Redshift
BigQuery Data
Transfer Service
(beta)
BigQuery
https://cloud.google.com/bigquery/transfer/
Cloud OnAir
データの収集 - Cloud Storage 経由
S3
BigQuery Data
Transfer Service
BigQuery
RDBMS
Hadoop
Storage
Transfer Service
Cloud Storage Cloud Dataflow
bq load
Cloud Dataproc
アプリケーションサーバ
Teradata / Redshift
Cloud OnAir
データの収集 - ストリーミング データ
BigQueryCloud Dataflow
アプリケーションサーバ Cloud Pub/Sub
Cloud OnAir
データの処理 - DML の実行
BigQuery
(Compute)
BigQuery
(Storage)
バッチサーバ
DML
SELECT
INSERT
UPDATE
DELETE
Cloud OnAir
データの処理 - Cloud Dataprep の使用
BigQuery
(Compute)
BigQuery
(Storage)
SELECT
SELECT LOAD
Cloud DataflowCloud Dataprep
SUBMIT
Cloud OnAir
Cloud Dataprep
Pivot、Join、Union、日付形式の整形など、
幅広い種類のデータの処理、整形、加工を
サポート
GUI 操作で定義された処理フローの
スケジュール実行が可能
GUI 操作でのデータの処理、整形、加工
フルマネージド、サーバレス
https://cloud.google.com/dataprep/
Cloud OnAir
データの処理 - BigQuery Storage API (beta) の使用
BigQuery
(Compute)
BigQuery
(Storage)
BigQuery
Storage API
(beta)
Cloud Dataproc
Cloud Dataflow
LOAD
https://cloud.google.com/bigquery/docs/reference/storage/
Cloud OnAir
Google スプレッドシートでのデータの集計、分析、可視化
BigQuery のデータを使用して
Google スプレッドシート上で
チャートやピボットテーブルを作成
可能
BigQuery
https://gsuite.google.com/campaigns/index__sheets-connectedsheet.html
Cloud OnAir
Data Portal と BigQuery BI Engine による高速レポーティング
BigQuery のデータを使用して
ダッシュボードやレポートを
作成し、チーム内で共有
BigQuery BI Engine を使用する
ことで、ETL でデータマート
を作成することなく、高速な
レポーティングを実現
BigQuery
BigQuery BI Engine
https://support.google.com/datastudio/answer/6283323
https://cloud.google.com/bi-engine/docs/overview
Cloud OnAir
Data Catalog (beta) でのメタデータ管理
フルマネージドでスケーラブル
インフラの構築や管理が不要で、簡単に使用可能
シンプルなデータ ディスカバリ
シンプルで使いやすい検索インターフェース
Gmail や Google ドライブと同じ Google 検索技術を使用
データ ガバナンス
Cloud Data Loss Prevention
(機微情報の検知、マスキング)および
Cloud IAM(データアクセス制御)との
統合によるデータガバナンス
https://cloud.google.com/data-catalog/
Cloud OnAir
Cloud Data Loss Prevention での機微情報の検知、マスキング
ID、名前、住所、電話番号、E メールアドレスなどの機微
情報を検知、マスキング
独自の検知ルールを定義することも可能
https://cloud.google.com/dlp/
Cloud OnAir
Google Cloud の Smart Analytics Platform
Apache
Beam
Cloud Pub/Sub
Cloud
Dataflow
Cloud
Dataproc
Cloud
Storage
BigQuery Data
Transfer Service
Cloud Composer
(ジョブ管理)
Cloud IoT
Core
Cloud Dataprep
Cloud AI
Services
Data Portal
Tensorflow Google
スプレッド
シート
Storage Transfer
Service
Data Catalog
(メタデータ管理)
Cloud Data Fusion
(データ インテグレーション)
処理収集 蓄積 分析
BigQuery Storage
BigQuery
利用、可視化
Cloud Data Loss Prevention
(機微情報の検知、マスキング)
Cloud IAM
(データアクセス制御)
Cloud OnAir
Cloud OnAir
まとめ
Cloud OnAir
BigQuery の特徴
エンタープライズ
データ ウェアハウス
ペタバイト規模のスケール
機密性、可用性、耐久性
フルマネージドでサーバレス
ストリーミング データの
リアルタイム分析
データ取り込みの自動化
ML、BI エンジン、GIS を標準搭載
Cloud OnAir
データ ウェアハウスをモダナイズする BigQuery
データ取り込みの
ための複雑な ETL
利用者数が制限 BI のみに最適化 バッチ処理のみに
最適化
従来のデータ
ウェアハウス
BigQuery
データ取り込みの
自動化
ML や AI の土台 リアルタイム分析 フルマネージドで
サーバレス
データの管理や
運用の自動化
インフラや
ミドルウェアの
継続的な運用や
保守
DBA による
継続的なデータの
管理や運用
データを必要と
する全ての人が
利用可能
Cloud OnAir
Google Cloud の Smart Analytics Platform
Apache
Beam
Cloud Pub/Sub
Cloud
Dataflow
Cloud
Dataproc
Cloud
Storage
BigQuery Data
Transfer Service
Cloud Composer
(ジョブ管理)
Cloud IoT
Core
Cloud Dataprep
Cloud AI
Services
Data Portal
TensorflowStorage Transfer
Service
Data Catalog
(メタデータ管理)
Cloud Data Fusion
(データ インテグレーション)
処理収集 蓄積 分析
BigQuery Storage
BigQuery
利用、可視化
Cloud Data Loss Prevention
(機微情報の検知、マスキング)
Cloud IAM
(データアクセス制御)
Google
スプレッド
シート

[Cloud OnAir] BigQuery で実現する Smart Analytics Platform 2019年10月24日 放送

  • 1.
    Cloud Onr Cloud OnAir CloudOnAir BigQuery で実現する Smart Analytics Platform 2019 年 10 月 24 日 放送
  • 2.
    Agenda Cloud OnAir 1 3 2 データ ウェアハウスをモダナイズするBigQuery BigQuery で実現する Smart Analytics Platform まとめ
  • 3.
    Cloud OnAir Cloud OnAir データウェアハウスを モダナイズする BigQuery
  • 4.
    Cloud OnAir BigQuery の特徴 エンタープライズ データウェアハウス ペタバイト規模のスケール 機密性、可用性、耐久性 フルマネージドでサーバレス ストリーミング データの リアルタイム分析 データ取り込みの自動化 ML、BI エンジン、GIS を標準搭載
  • 5.
    Cloud OnAir BigQuery の特徴 エンタープライズ データウェアハウス ペタバイト規模のスケール 機密性、可用性、耐久性 フルマネージドでサーバレス ストリーミング データの リアルタイム分析 データ取り込みの自動化 ML、BI エンジン、GIS を標準搭載
  • 6.
    Cloud OnAir BigQuery のアーキテクチャ SQL:2011準拠 ストリーミング インサート 無料の バルクロード REST API 7 言語の クライアント ライブラリ Web UI, CLI ペタビット ネットワーク BigQuery 高可用性を備えた コンピュート クラスタ 複製、分散ストレージ (99.9999999999% 耐久性) 分散インメモリ シャッフル
  • 7.
    Cloud OnAir 永続的な UDF 永続的なユーザ定義SQL と JavaScript 関数を作成可能 ビジネス ロジックを他の チームに共有可能 https://cloud.google.com/bigquery/docs/reference/standard-sql/user-defined-functions
  • 8.
    Cloud OnAir BigQuery Scripting(beta) 複数のステートメントを 1 つの リクエストで実行可能 変数の宣言、代入、使用が可能 条件分岐、ループによる処理 フローの制御が可能 https://cloud.google.com/bigquery/docs/reference/standard-sql/scripting
  • 9.
    Cloud OnAir BigQuery の機密性、可用性、耐久性 可用性 99.9%アップタイム SLA 耐久性 複数のデータセンターでのデータの複製、 99.9999999999% 耐久性 第三者の監査と認定に 基づくコンプライアンス 保証 アメリカ HIPAA FedRAMP ドイツ BSI C5 シンガポール MTCS Tier 3 グローバル ISO 27001 ISO 27017 ISO 27018 SOC 3 SOC 2 SOC 1 PCI DSS CSA STAR データの保護 デフォルト暗号化、 VPC Service Controls での IP アドレス制限とデータ持ち出し制限 データガバナンスと機密性 データカタログ、データアクセス制御、 機微情報の自動検知とマスキング
  • 10.
    Cloud OnAir BigQuery の特徴 エンタープライズ データウェアハウス ペタバイト規模のスケール 機密性、可用性、耐久性 フルマネージドでサーバレス ストリーミング データの リアルタイム分析 データ取り込みの自動化 ML、BI エンジン、GIS を標準搭載
  • 11.
    Cloud OnAir BigQuery ストレージ SQL:2011準拠 ストリーミングイン サート 無料の バルクロード REST API 7 言語の クライアント ライブラリ Web UI, CLI ペタビット ネットワーク BigQuery 高可用性を備えた コンピュート クラスタ 複製、分散ストレージ (99.9999999999% 耐久性) 分散インメモリ シャッフル
  • 12.
    Cloud OnAir BigQuery ストレージ- フルマネージド 3 2 1 3 21 3 2 1 Table 1 Table 2 Table 3 Zone A Zone B Zone C リージョン ● テーブルは DWH のクエリ に最適化されたカラムナー フォーマットで保管される ● それぞれのテーブルは 自動で圧縮、暗号化 される ● ストレージは フルマネージドで 12 nines の耐久性があり、それぞれの テーブルはゾーンを またいで複製されている ● 自動的にスケール https://cloud.google.com/blog/ja/products/gcp/cloud-onair-bigquery-20180
  • 13.
    Cloud OnAir BigQuery コンピュートクラスタ SQL:2011 準拠 ストリーミング インサート 無料の バルクロード REST API 7 言語の クライアント ライブラリ Web UI, CLI ペタビット ネットワーク BigQuery 高可用性を備えた コンピュート クラスタ 複製、分散ストレージ (99.9999999999% 耐久性) 分散インメモリ シャッフル
  • 14.
    Cloud OnAir BigQuery コンピュートクラスタ - フルマネージド インメモリシャッフ ル ワーカー ワーカー ワーカー ワーカー ワーカー SELECT col, COUNT(1) FROM tbl GROUP BY col 分散 ストレージ ● クエリ実行時のみコンピュー (コンテナ)が大量に起動される → 従量制課金を実現 ● 一部のゾーンやワーカーが障害 でも透過的に割当変更するだけ → 高可用性 ● ワーカーはお客様には透過的に アップデートされる → メンテナンス、バージョン アップのダウンタイムなし https://cloud.google.com/blog/ja/products/gcp/cloud-onair-bigquery-20180906
  • 15.
  • 16.
  • 17.
  • 18.
  • 19.
    Cloud OnAir フルマネージド サーバレスデータ ウェアハウス 従来のデータ ウェアハウス パフォーマンス チューニング モニタリング 可用性の担保デプロイと設定変更 使用率の改善 分析 プロビジョニング スケール BigQuery 分析
  • 20.
    Cloud OnAir BigQuery の特徴 エンタープライズ データウェアハウス ペタバイト規模のスケール 機密性、可用性、耐久性 フルマネージドでサーバレス ストリーミング データの リアルタイム分析 データ取り込みの自動化 ML、BI エンジン、GIS を標準搭載
  • 21.
    Cloud OnAir ストリーミング データのリアルタイム分析 デフォルトで、秒間10 万件のストリーミング データの取り込みが可能 (プロジェクトまたはテーブル単位) (BigQuery Streaming V2 beta) デフォルトで、秒間 100 万件のストリーミング データの取り込みが可能 (プロジェクト単位) 取り込まれたストリーミング データを リアルタイムに検索、分析可能 ストリーミング データをリアルタイムに 取り込み可能 https://cloud.google.com/bigquery/quotas#streaming_inserts
  • 22.
    Cloud OnAir BigQuery の特徴 エンタープライズ データウェアハウス ペタバイト規模のスケール 機密性、可用性、耐久性 フルマネージドでサーバレス ストリーミング データの リアルタイム分析 データ取り込みの自動化 ML、BI エンジン、GIS を標準搭載
  • 23.
    Cloud OnAir BigQuery DataTransfer Service 主要なデータソースについては、スケジュールを 設定することで、自動的、定期的に BigQuery へ データを取り込むことが可能 様々なデータソースをサポート : Google Ads, YouTube Channel, Cloud Storage, Amazon S3 (beta), Amazon Redshift (beta), Teradata (beta), etc. プログラミング無しで、外部のデータソースから BigQuery へデータを取り込む https://cloud.google.com/bigquery/transfer/
  • 24.
    Cloud OnAir BigQuery の特徴 エンタープライズ データウェアハウス ペタバイト規模のスケール 機密性、可用性、耐久性 フルマネージドでサーバレス ストリーミング データの リアルタイム分析 データ取り込みの自動化 ML、BI エンジン、GIS を標準搭載
  • 25.
    Cloud OnAir BigQuery ML 1 2 3 モデルの構築と予測をBigQuery 上 で完結して実施 SQL でモデルを構築、管理、運用 機械学習のタスクやハイパー パラメータ チューニングを自動化 https://cloud.google.com/bigquery-ml/docs/bigqueryml-intro
  • 26.
    Cloud OnAir AutoML Tables(beta) 需要予測 在庫切れ予測 価格最適化 LTV 予測 コンバージョンレート、離 脱率予測 不正予測 その他... テーブルデータ チャネル情報 Channe l ID Name Catego ry Feature s Supplie r INSTOR E “Navy …” XYZ [“A, B, …”] Nike CALL CE “Running …” XYZ [“A, B, …”] Nike ... ... ... ... ... 地理情報 Geo ID Name Catego ry Feature s Supplie r CA “Navy …” XYZ [“A, B, …”] Nike CA “Running …” XYZ [“A, B, …”] Nike ... ... ... ... ... 販促情報 Month ID Name Catego ry Feature s Supplie r 2018-1 “Navy …” XYZ [“A, B, …”] Nike 2017-1 “Women’ s…” XYZ [“A, B, …”] Adidas ... ... ... ... ... 製品情報 Product ID Name Image Feature s Supplie r 102934 “Navy …” gs://XYZ [“A, B, …”] Nike 112932 “Women’ s…” gs://XYZ [“A, B, …”] Adidas ... ... ... ... ... 売上情報 Month Channel ID Product ID Geo ID Volume 2018-1 INSTORE 102934 CA102 600 2018-1 INSTORE 112932 CA102 800 2018-1 WEB 901243 AZ203 300 ... ... ... ... ... ● 最先端のモデルを 自動的に構築 ● 幅広いデータ型に 対 応 ● BigQuery でデータセッ トを適切に処理 (10 TB まで) ● GUI 操作でコード 記 述不要 https://cloud.google.com/automl-tables/
  • 27.
    Cloud OnAir BigQuery BIEngine (beta) 1 秒未満のクエリ シンプルなアーキテクチャ スマート チューニング https://cloud.google.com/bi-engine/docs/overview
  • 28.
    Cloud OnAir BigQuery GIS BigQueryGeo Viz で地理データを可視化 地理データの抽出やフィルタリング、面積や 距離の計算など、地理データの分析が SQL だけで実施可能 地理データを用いた空間分析を BigQuery 上で完 結して実施 https://cloud.google.com/bigquery/docs/gis-intro
  • 29.
    Cloud OnAir BigQuery の特徴 エンタープライズ データウェアハウス ペタバイト規模のスケール 機密性、可用性、耐久性 フルマネージドでサーバレス ストリーミング データの リアルタイム分析 データ取り込みの自動化 ML、BI エンジン、GIS を標準搭載
  • 30.
    Cloud OnAir データ ウェアハウスをモダナイズするBigQuery データ取り込みの ための複雑な ETL 利用者数が制限 BI のみに最適化 バッチ処理のみに 最適化 インフラや ミドルウェアの 継続的な運用や 保守 DBA による 継続的なデータの 管理や運用 従来のデータ ウェアハウス BigQuery データ取り込みの 自動化 データを必要と する全ての人が 利用可能 ML や AI の土台 リアルタイム分析 フルマネージドで サーバレス データの管理や 運用の自動化
  • 31.
    Cloud OnAir Cloud OnAir BigQueryで実現する Smart Analytics Platform
  • 32.
    Cloud OnAir Google Cloudの Smart Analytics Platform Apache Beam Cloud Pub/Sub Cloud Dataflow Cloud Dataproc Cloud Storage BigQuery Data Transfer Service Cloud Composer (ジョブ管理) Cloud IoT Core Cloud Dataprep Cloud AI Services Data Portal TensorflowStorage Transfer Service Data Catalog (メタデータ管理) Cloud Data Fusion (データ インテグレーション) 処理収集 蓄積 分析 BigQuery Storage BigQuery 利用、可視化 Cloud Data Loss Prevention (機微情報の検知、マスキング) Cloud IAM (データアクセス制御) Google スプレッド シート
  • 33.
    Cloud OnAir Google Cloudの Smart Analytics Platform BigQuery を中心に 様々なプロダクトを連携 データ分析に関する 作業を一気通貫で実施
  • 34.
    Cloud OnAir データの収集 -BigQuery Data Transfer Service S3 Teradata / Redshift BigQuery Data Transfer Service (beta) BigQuery https://cloud.google.com/bigquery/transfer/
  • 35.
    Cloud OnAir データの収集 -Cloud Storage 経由 S3 BigQuery Data Transfer Service BigQuery RDBMS Hadoop Storage Transfer Service Cloud Storage Cloud Dataflow bq load Cloud Dataproc アプリケーションサーバ Teradata / Redshift
  • 36.
    Cloud OnAir データの収集 -ストリーミング データ BigQueryCloud Dataflow アプリケーションサーバ Cloud Pub/Sub
  • 37.
    Cloud OnAir データの処理 -DML の実行 BigQuery (Compute) BigQuery (Storage) バッチサーバ DML SELECT INSERT UPDATE DELETE
  • 38.
    Cloud OnAir データの処理 -Cloud Dataprep の使用 BigQuery (Compute) BigQuery (Storage) SELECT SELECT LOAD Cloud DataflowCloud Dataprep SUBMIT
  • 39.
    Cloud OnAir Cloud Dataprep Pivot、Join、Union、日付形式の整形など、 幅広い種類のデータの処理、整形、加工を サポート GUI操作で定義された処理フローの スケジュール実行が可能 GUI 操作でのデータの処理、整形、加工 フルマネージド、サーバレス https://cloud.google.com/dataprep/
  • 40.
    Cloud OnAir データの処理 -BigQuery Storage API (beta) の使用 BigQuery (Compute) BigQuery (Storage) BigQuery Storage API (beta) Cloud Dataproc Cloud Dataflow LOAD https://cloud.google.com/bigquery/docs/reference/storage/
  • 41.
    Cloud OnAir Google スプレッドシートでのデータの集計、分析、可視化 BigQueryのデータを使用して Google スプレッドシート上で チャートやピボットテーブルを作成 可能 BigQuery https://gsuite.google.com/campaigns/index__sheets-connectedsheet.html
  • 42.
    Cloud OnAir Data Portalと BigQuery BI Engine による高速レポーティング BigQuery のデータを使用して ダッシュボードやレポートを 作成し、チーム内で共有 BigQuery BI Engine を使用する ことで、ETL でデータマート を作成することなく、高速な レポーティングを実現 BigQuery BigQuery BI Engine https://support.google.com/datastudio/answer/6283323 https://cloud.google.com/bi-engine/docs/overview
  • 43.
    Cloud OnAir Data Catalog(beta) でのメタデータ管理 フルマネージドでスケーラブル インフラの構築や管理が不要で、簡単に使用可能 シンプルなデータ ディスカバリ シンプルで使いやすい検索インターフェース Gmail や Google ドライブと同じ Google 検索技術を使用 データ ガバナンス Cloud Data Loss Prevention (機微情報の検知、マスキング)および Cloud IAM(データアクセス制御)との 統合によるデータガバナンス https://cloud.google.com/data-catalog/
  • 44.
    Cloud OnAir Cloud DataLoss Prevention での機微情報の検知、マスキング ID、名前、住所、電話番号、E メールアドレスなどの機微 情報を検知、マスキング 独自の検知ルールを定義することも可能 https://cloud.google.com/dlp/
  • 45.
    Cloud OnAir Google Cloudの Smart Analytics Platform Apache Beam Cloud Pub/Sub Cloud Dataflow Cloud Dataproc Cloud Storage BigQuery Data Transfer Service Cloud Composer (ジョブ管理) Cloud IoT Core Cloud Dataprep Cloud AI Services Data Portal Tensorflow Google スプレッド シート Storage Transfer Service Data Catalog (メタデータ管理) Cloud Data Fusion (データ インテグレーション) 処理収集 蓄積 分析 BigQuery Storage BigQuery 利用、可視化 Cloud Data Loss Prevention (機微情報の検知、マスキング) Cloud IAM (データアクセス制御)
  • 46.
  • 47.
    Cloud OnAir BigQuery の特徴 エンタープライズ データウェアハウス ペタバイト規模のスケール 機密性、可用性、耐久性 フルマネージドでサーバレス ストリーミング データの リアルタイム分析 データ取り込みの自動化 ML、BI エンジン、GIS を標準搭載
  • 48.
    Cloud OnAir データ ウェアハウスをモダナイズするBigQuery データ取り込みの ための複雑な ETL 利用者数が制限 BI のみに最適化 バッチ処理のみに 最適化 従来のデータ ウェアハウス BigQuery データ取り込みの 自動化 ML や AI の土台 リアルタイム分析 フルマネージドで サーバレス データの管理や 運用の自動化 インフラや ミドルウェアの 継続的な運用や 保守 DBA による 継続的なデータの 管理や運用 データを必要と する全ての人が 利用可能
  • 49.
    Cloud OnAir Google Cloudの Smart Analytics Platform Apache Beam Cloud Pub/Sub Cloud Dataflow Cloud Dataproc Cloud Storage BigQuery Data Transfer Service Cloud Composer (ジョブ管理) Cloud IoT Core Cloud Dataprep Cloud AI Services Data Portal TensorflowStorage Transfer Service Data Catalog (メタデータ管理) Cloud Data Fusion (データ インテグレーション) 処理収集 蓄積 分析 BigQuery Storage BigQuery 利用、可視化 Cloud Data Loss Prevention (機微情報の検知、マスキング) Cloud IAM (データアクセス制御) Google スプレッド シート