Google cloudnext recap_DataAnalytics

Google Cloud Next ’18
Recap/報告会
~Data関連~
2018/08/01
山田雄

■山田雄（ヤマダユウ）
株式会社リクルートライフスタイル
ネットビジネス本部
データプラットフォームT
(株式会社リクルート)
Twitter:@nii_yan
GitHub:https://github.com/yu-yamada
・以前はメールマーケティング用基盤の作成からデータ分析まで関わる
現在はリクルートライフスタイルの共通分析基盤の開発、運用全般を担当
ビックデータ、Ruby、お祭り、ビール、カップ焼きそばが好き。
自己紹介

BigQueryへの移行前
4 years ago…
・ほぼ、オンプレとベアメタルを使っていた(Hadoop)
・分析の仕事をするのがとても大変だった
・そこでクラウドへの移行を決断した

BigQueryへ移行してみて
大成功だったよ！！！
Spotifyでは分析にBigQueryを使うのが当たり前になった
・はるかに早く、大きな結果を得ることが出来るようになった
・必要な時に簡単にキャパシティを追加できる(?)
・既存のクラウドとの統合が出来た
・使用するのが簡単なので、サイエンティストからの質問がなくなった
Hiveでは16分かかっていた処理が33秒に！

移行に際して
・Administration
BQの定額料金契約をすることで、定常的にslotを確保
subreservationを切ることで、プロジェクト毎にslotを配布
・Education
batch modeとinteractive modeを使うことで、jobを制御
Dremel architectureを理解してチューニング
BQのbest practiceをみんなに知らせるようにした

移行に際して
・Integration
BQAPIを使用して、独自の開発ツールを作成し、独自のエコシステムと統合
GCPのサービス内では簡単にデータ移動が出来るので、ジョブに最適なツー
ルを柔軟に使える
・Partnership
BQのチームと密接に連携して、機能拡張などを行った
色んなチャンネルでサポートを受けた

scale
・20TB/day of raw log data
・>100k events/sec

Legacy system
Row
logs
Stream
aggregation
Batch
aggregation
Ephemeral
KV store
Persisted
KV store
Serving
fronted
Lambda architecture

Project goals
・運用コストを減らす
・ビジネスロジック、aggregation、ストレージ、クエリ実行を切り離す
・データへのaccessibilityを上げる
・今の10倍までスケール出来るようにする

Next generation system
Row
logs
Stream
aggregation
Internal
fronted
BigTable
BigQuery
Serving
fronted
Kappa architecture

Work in progress
Row
logs
Hadoop
Internal
fronted
BigTable
BigQuery
Serving
fronted
Dataflow

DDL(GA)
Create Table… がGAに
Create Table as Selectも使える
https://cloud.google.com/bigquery/docs/reference/standard-sql/data-definition-language

Clustering(Alpha Beta)
パーティションを切ったテーブルで、パーティションの中をさらにClusterで切
ることが出来る。
secondly indexのようなイメージ
(パーティションテーブル以外には使用不可)
https://cloud.google.com/bigquery/docs/clustered-tables
CREATE TABLE
`mydataset.ClusteredSalesData`
PARTITION BY
DATE(timestamp)
CLUSTER BY
customer_id,
product_id,
order_id AS
SELECT
*
FROM
`mydataset.SalesData`
7/30にBeta

GIS(Alpha)
SQLを利用して、地理情報をBQ上で分析可能に

NewUI(Beta)
bigquery.cloud.google.com -> console.cloud.google.com/bigquery
Standard SQLがデフォルト設定に！！

NewConnectors
BQ新機能紹介

New Connectors
・Google AdWords(GA)
・YouTube(GA)
・Google Play Store(Beta)
https://cloud.google.com/bigquery/docs/transfer-service-overview

Integration with
Google Sheets
BQ新機能紹介

Integration with Google Sheets(Alpha)
Google SheetsでSQLを書き、BQからのデータの取り出し、表示が可能

One Click Visualize
BQ新機能紹介

One Click Visualize(Beta)
BQ上(NewUI)からOneClickでDataStudio上でデータの可視化可能

BigQueryML(Beta)
SQLだけで機械学習が可能
現在はロジスティック回帰と線形回帰のみ

Stream Analytics features
・Python streaming(Beta)
Author streaming jobs in Python through Apache Beam.
・Dataflow Streaming Engine
Enable separation of compute and storage for more responsive autoscaling on fewer resources.
・Dataflow Shuffle(batch)
Improve underlying capabilities of Dataflow. Yielding faster and analytics and transformations.
・Better, Faster Pub/Sub
High perf client libraries in 7 languages, GRPC streaming APIs.
・Confluent Kafka Service
Managed Kafka service on GCP from Confluent.

Dataproc and
Composer
features

Dataproc and Composer features
・Cloud Composer GA
Managed Airflow service Cloud Composer now Available in GA.
・Dataproc enhancements release 1.3
Spark 2.3, Hadoop 2.9, Defaults include Tez, YARN timeline server, HCatalog.
・Customer managed Encryption Keys
CMEK support for BQ(GA). GCE(Beta) and GCS(Beta).
・Autoscaling & custom packages(Alpha)
Autoscaling Hadoop and Spark clusters & selection of Apache projects.
・Hortonworks support for GCP
Run HDP and HDF on GCP with GCS as data lake.

Google cloudnext recap_DataAnalytics

Google cloudnext recap_DataAnalytics

More Related Content

What's hot

Similar to Google cloudnext recap_DataAnalytics

Recently uploaded

Google cloudnext recap_DataAnalytics

Editor's Notes