Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
GCPを利用したデータ分析
プラットフォームについて
サイバーエージェント
CAリワード
阿部陽介
自己紹介
阿部陽介
● 2015年サイバーエージェント入社
● アドテクスタジオCAリワード配属
● サーバーサイド開発・データ分析
● 大学時代はニュートリノの研究をしていました
NYORAI System Description
On-Premises(Ariake)
Tecnology
Ad-Tracking
Google Cloud Platform
- ターゲティング効果分析
- 不正ユーザー傾向分析 - ターゲ...
NYORAI System Description
On-Premises(Ariake)
Tecnology
Ad-Tracking
Google Cloud Platform
- ターゲティング効果分析
- 不正ユーザー傾向分析 - ターゲ...
今回紹介するGCPサービス
GCPサービス 用途
BigQuery データ収集・分析基盤
Datalab アドホックなデータ分析と可視化
Dataproc バッチ処理
Cloud Pub/Sub リアルタイム処理(ターゲティング・デリタゲ配信)
BigQuery
BigQueryとは
● GCPのログ分析基盤
● SQLを使いログを分析できる
● 超速
● 低コスト
● フルマネージド
● ペタスケールのデータ量まで対応できる
導入した背景
● ログをアドテク共通のHDFSに貯めていた...
https://bigquery.cloud.google.com
SELECT
name,
SUM(number) AS cnt
FROM
[bigquery-public-data:usa_names.usa_1910_2013]
GROU...
データ収集基盤システム構成
log server 1
log server 2
log server 3
BigQuery
● fluentを使いオンプレ環境から BigQueryにログをリアルタイム転送。
● fluentのプラグイン(flu...
Google Cloud Datalab
GCPのサービスと連動して、アドホックなデータ分析や可視化をする
Jupyter notebook(のようなもの)のマネージドサービス
- BigQuery、GCS、GCEにアクセス可能
- Noteb...
Dataproc
Hadoop, MapReduce, Spark, Pig, Hive のマネージドサービス
BigQuery や Cloud Storage などにアクセス可能
簡単に分散コンピューティング環境が構築できる
用途: BigQ...
Cloud Pub/Sub
log server Pub/Sub
Compute Engine
td-agentkafka consumer
Database
On-premises
● ログデータを分析し、ターゲティング配信を行う仕組み
● ...
まとめ
CAリワードではデータ分析プラットフォームとして GCPを利用している
● BigQuery
● Datalab
● Dataproc
● Cloud Pub/Sub
を紹介した。
フルマネージドサービスのため、管理に手間がかからずデー...
Upcoming SlideShare
Loading in …5
×

GCPを利用したデータ分析プラットフォームについて

1,150 views

Published on

GCPを利用したデータ分析プラットフォームについて

Published in: Engineering
  • Be the first to comment

GCPを利用したデータ分析プラットフォームについて

  1. 1. GCPを利用したデータ分析 プラットフォームについて サイバーエージェント CAリワード 阿部陽介
  2. 2. 自己紹介 阿部陽介 ● 2015年サイバーエージェント入社 ● アドテクスタジオCAリワード配属 ● サーバーサイド開発・データ分析 ● 大学時代はニュートリノの研究をしていました
  3. 3. NYORAI System Description On-Premises(Ariake) Tecnology Ad-Tracking Google Cloud Platform - ターゲティング効果分析 - 不正ユーザー傾向分析 - ターゲティングユーザー傾向分析 - セグメントデータ生成(user × media × ad) - frequency分析 - クリエイティブ効果分析 - Trackingログ - 広告impログ - 不正判定ログ(user/media) -ユーザー属性 - 広告属性 - ユーザー行動履歴(media/client) - 広告配信データ - オペレーションログ Bussiness/Functions Data
  4. 4. NYORAI System Description On-Premises(Ariake) Tecnology Ad-Tracking Google Cloud Platform - ターゲティング効果分析 - 不正ユーザー傾向分析 - ターゲティングユーザー傾向分析 - セグメントデータ生成(user × media × ad) - frequency分析 - クリエイティブ効果分析 - Trackingログ - 広告impログ - 不正判定ログ(user/media) -ユーザー属性 - 広告属性 - ユーザー行動履歴(media/client) - 広告配信データ - オペレーションログ Bussiness/Functions Data オンプレ環境とGCPを連携させ プラットフォームを構築
  5. 5. 今回紹介するGCPサービス GCPサービス 用途 BigQuery データ収集・分析基盤 Datalab アドホックなデータ分析と可視化 Dataproc バッチ処理 Cloud Pub/Sub リアルタイム処理(ターゲティング・デリタゲ配信)
  6. 6. BigQuery BigQueryとは ● GCPのログ分析基盤 ● SQLを使いログを分析できる ● 超速 ● 低コスト ● フルマネージド ● ペタスケールのデータ量まで対応できる 導入した背景 ● ログをアドテク共通のHDFSに貯めていた ● Sparkを使い分析していたが、遅くて大変だった ● アドホックなクエリの要求
  7. 7. https://bigquery.cloud.google.com SELECT name, SUM(number) AS cnt FROM [bigquery-public-data:usa_names.usa_1910_2013] GROUP BY name ORDER BY cnt DESC デモ
  8. 8. データ収集基盤システム構成 log server 1 log server 2 log server 3 BigQuery ● fluentを使いオンプレ環境から BigQueryにログをリアルタイム転送。 ● fluentのプラグイン(fluent-plugin-bigquery)をインストールして設定するだけ。 td-agentWebサーバなど データベース replicator replicator replicator On-premises データ量 ● 導入メディア数: 1,500 ● メディアユーザーMAU 5,000,000 ● 数億レコード / 月
  9. 9. Google Cloud Datalab GCPのサービスと連動して、アドホックなデータ分析や可視化をする Jupyter notebook(のようなもの)のマネージドサービス - BigQuery、GCS、GCEにアクセス可能 - Notebook上で必要なパッケージをインストールすることも可能
  10. 10. Dataproc Hadoop, MapReduce, Spark, Pig, Hive のマネージドサービス BigQuery や Cloud Storage などにアクセス可能 簡単に分散コンピューティング環境が構築できる 用途: BigQueryのデータを取得しトラッキングデータを分析    => 配信精度の向上や不正検知精度の向上に利用 BigQuery Dataproc Cloud Storage
  11. 11. Cloud Pub/Sub log server Pub/Sub Compute Engine td-agentkafka consumer Database On-premises ● ログデータを分析し、ターゲティング配信を行う仕組み ● Google Pub/Subを使うことでリアルタイムに分析を可能にしている ● 環境構築が簡単 フルマネージドのリアルタイムメッセージングサービス fluent-plugin-gcloud-pubsub fluent-plugin-kafka
  12. 12. まとめ CAリワードではデータ分析プラットフォームとして GCPを利用している ● BigQuery ● Datalab ● Dataproc ● Cloud Pub/Sub を紹介した。 フルマネージドサービスのため、管理に手間がかからずデータ量やアクセス数でスケールするので便利 料金の見積もりはこちら https://cloud.google.com/products/calculator/

×