リクルートにおける
Redshift導入・活用事例
~分析基盤の紹介~
2014/1/17

ITソリューション部

BDG

BI-Unit

山田 悦明
(C) Recruit Technologies Co.,Ltd. All rights reserved.
本日の登壇者紹介

 山田 悦明 ( やまだ えつあき )
株式会社リクルートテクノロジーズ

ITソリューション部

ビッグデータグループ
・2008年リクルート入社。
・広告配信サーバ導入や顧客企業の集客最適化などに従事。

・『じゃらん』『ホットペッパービューティー』の会員分析
・Hadoopを活用した『SUUMO』の集客モニタリング、アトリビューション
分析など
最近ではアクセスログを解析する独自のソリューション開発・展開を推進。

(C) Recruit Technologies Co.,Ltd. All rights reserved.

1
本日のアジェンダ

1. はじめに~リクルートとリクルートテクノロジーズのご紹介~
2. ビッグデータグループの取り組み
3. ビッグデータ解析におけるデータ基盤環境について
4. Redshift利用事例
1. 実装編
2. サービス活用編

5. 今後について
6. おわりに

(C) Recruit Technologies Co.,Ltd. All rights reserved.

2
はじめに
~リクルートとリクルートテクノロジーズのご紹介~

(C) Recruit Technologies Co.,Ltd. All rights reserved.

3
はじめに ~リクルートとは

【企業概要】
創立
グループ
従業員数

1960年3月31日 「大学新聞広告社」としてスタート

約 22,000名

関連企業数

国内:52社、海外:56社

連結売上高

約 1兆500億円

連結経常利益

目指す世界観

※2013年3

月末

約 1,250億円

※2013年3月

末

「あなた」を支える存在でありたい

(C) Recruit Technologies Co.,Ltd. All rights reserved.
はじめに ~リクルートとは

【リクルートのビジネスモデル】
カスタマー
(一般ユーザー)

クライアント
(サービス提供者)

マッチング

世界中の生活者と産業界に
「まだ、ここにない、出会い。」を提供します
(C) Recruit Technologies Co.,Ltd. All rights reserved.
はじめに ~リクルートグループが提供するサービス
Life Event
ライフイベント

Life Style
ライフスタイル
旅行

住宅購入
転職

お稽古

ファッション

出産/育児

結婚
車購入

時事

飲食

就職
ショッピング

進学

「選択・意思決定・行動」を支援する
情報サービスの提供
(C) Recruit Technologies Co.,Ltd. All rights reserved.

6
はじめに ~リクルートテクノロジーズとは
リクルートキャリア
リクルート住まいカンパニー
リクルートライフスタイル
リクルートジョブズ

事業会社

リクルートスタッフィング

2012/10月の分社化から
リクルートマーケティングパートナーズ
1年以上が経ちました

スタッフサービス・ホールディングス

リクルート
ホールディングス
ビッグデータ機能部門

機能会社

事業・社内IT推進部門

UI設計/SEO部門

インフラ部門

テクノロジーR&D部門
リクルートアドミニストレーション
リクルートコミュニケーションズ
(C) Recruit Technologies Co.,Ltd. All rights reserved.

ビッグデータグループ

大規模プロジェクト推進部門
ビッグデータグループの取り組み

(C) Recruit Technologies Co.,Ltd. All rights reserved.

8
ビッグデータの利活用のために

大きいだけでなく多種で複雑
営業情報
ビッグデータ利活用に
Webサイト
UU
エリア
pageview 必要な要素は?
会員
アイテム
セッション

コンサル

クライアント
ビジネス課題を顕在化
情報の価値を判断

ビジネス課題に合わせて
データを情報化

マーケター

(C) Recruit Technologies Co.,Ltd. All rights reserved.

店舗情報

エンジニア

ビジネス要件に合うよう
大量・複雑なデータを
効率的に処理
9
リクルートテクノロジーズの取組体制

ビッグデータのビジネス活用にはマーケター視点が不可欠
事業会社担当者
≒マーケター

ビッグデータ活用組織
担当領域

エンジニア型
アナリスト

コンサル型
アナリスト

「コンサル型」・「エンジニア型」のアナリストを揃え、
マーケターとの三位一体で、最適なデータ活用を推進
(C) Recruit Technologies Co.,Ltd. All rights reserved.

10
ビッグデータ活用と取組事例

ビッグデータ活用を”可視化” と ”予測”に分類
“可視化” は過去と現在のデータを集計、分類、統計処理して可視化する。
“予測” は過去のデータを高度な数学で分析し、未来を予測する。
この2つから、事業利益へ直接的、間接的に効果を出すことができる。

可視化

予測

事業利益への

レポーティングBI
分析BI

KPIなどの
未来予測

事業利益への

リアルタイム
機械学習

メールやwebの
レコメンド

間接的な効果

直接的な効果

(C) Recruit Technologies Co.,Ltd. All rights reserved.

11
ビッグデータ活用と取組事例
事業A
事業B
事業C
事業D

施策シェア分析
サイト間
クロスUU
調査

サイト横断
モニタリング
指標

リスティング分析

レコメンド

クチコミ分析

KWD×LP分析

予約分析

メルマガ施策
13事業に対し、

BI

メール通数分析

現行応募相関

ステータス分析

自然語解析

行動ターゲティング

LPO

事業F

レコメンド

ログ分析

事業G

自然語解析

メールレコメンド

需要予測

クレンジング

領域間クロスUU

集客モニタリング

需要予測

レコメンド

カスタマープロファイル

商材分析

クライアントHP分析

カスタマートラッキング

事業I

KPIモニタリング

アクション数予測

効果集計

事業J

価格分析

レコメンド

クラスタリング

事業K

レコメンド

事業L

レコメンド

事業M

効果見立て分析

事業E

事業H

KPIモニタリング

年間176件の
データ利活用を推進

共通バナー

クチコミ分析

12
(C) Recruit Technologies Co.,Ltd. All rights reserved.

12
ビッグデータ解析における
データ基盤環境について

(C) Recruit Technologies Co.,Ltd. All rights reserved.

13
リクルートのビッグデータ基盤の変遷
リサーチ

3~4台
2008~9
実験機

実験・検証

20台

2010
ラボ環境

第1世代環境

120台

2011
プライベートクラ
ウドとの部分的な
環境融合

第2世代環境

50台

2012

データ集約基盤
構想

2013

プライベートクラ
ウド環境との完全
なる環境融合

パブリッククラウド
との連携を開始

DWH

BI
(C) Recruit Technologies Co.,Ltd. All rights reserved.

14
リクルートのビッグデータ基盤

2013年
①全社規模BI導入展開
②全社分析データ集約環境「Total DB」の推進

オンプレミスとパブリッククラウドを
融合した柔軟なビッグデータ基盤の構築
(C) Recruit Technologies Co.,Ltd. All rights reserved.

15
リクルート TotalDB (通称:出雲基盤)
分析用
社外データ

リクルート Total DB
全体概要図
Rクラウド(オロチ)

全社BI(アマテラス)

分析BI(ODBC)

行動履歴データ

経営データ
ID/ポイントデータ

リクルート
各事業データ

全社DWH(ツクヨミ)
事業DWH

分析ツール

事業DWH

事業個別
Hadoop

全社Hadoop(スサノオ)

(C) Recruit Technologies Co.,Ltd. All rights reserved.

Hadoop
エコシステム

16
リクルート TotalDB (通称:出雲基盤)
分析用
社外データ

リクルート Total DB
全体概要図
Rクラウド(オロチ)

全社BI(アマテラス)

分析BI(ODBC)

行動履歴データ

経営データ
ID/ポイントデータ

リクルート
各事業データ

全社DWH(ツクヨミ)
事業DWH

分析ツール

事業DWH

事業個別
Hadoop

全社Hadoop(スサノオ)

(C) Recruit Technologies Co.,Ltd. All rights reserved.

Hadoop
エコシステム

17
Redshift利用事例:実装編

(C) Recruit Technologies Co.,Ltd. All rights reserved.

18
利用目的
サイトのアクセスログのモニタリング・分析サービス活用
既存のアクセスツールの機能にはない分析を行うためのプロジェクトを立ち上げた。
Redshiftは主に前処理やデータマート作成に活用
さらにBIツール(Tableau)とRedshiftを連携したアクセスログのモニタリングレポート作成

アクセスログの可視化(tableau)
可視化

予測
独自集計・可視化ツール

事業利益への

レポーティングBI
分析BI

KPIなどの
未来予測

事業利益への

リアルタイム
機械学習

メールやwebの
レコメンド

間接的な効果

直接的な効果

(C) Recruit Technologies Co.,Ltd. All rights reserved.

19
アクセスログ解析基盤

データ

Amazon EC2

オリジナル
データ

Hadoop
データ加工処理

1次データ

オリジナル
データ

1次データ

1次処理:データクレンジング・標準化
Amazon
'ゴミから必要なデータを取り出す( Redshift

アクセスログ
データ

500万
レコード/日

Amazon EMR

Amazon S3

データ
加工処理

2次処理:マスタ統合
'使えるデータにする(
2次データ

3次処理:データマート作成
'使いやすいデータにする(
リクルート環境

モニタリング
独自アプリ
分析ツール

マスタデータ
2次データ
データマート

アドホック分析

Netezza

データマート

Tableau

(C) Recruit Technologies Co.,Ltd. All rights reserved.

20
経緯
当初計画では1~3次処理はすべてEMRで実施する予定だったが、
2012年10月にRedshiftの発表があり、2次処理以降をEMRから
Redshiftに切り替えを実施した

調査
2012.12
Closed Beta
@Virginia

判断
2013.02
On demand
@Virginia

2013.05
Reserved
Instance
@Oregon

2ノード+

4ノード

Amazon
Redshift

XL ノード
2TB スト
レージ

2~8ノード

開発

(C) Recruit Technologies Co.,Ltd. All rights reserved.

運用体制構築
2013.11
Reserved
Instance
&
On demand
@Oregon

4ノード
(一時的に+4)

21
調査
Redshiftの特徴の把握1

Redshiftは既存のカラム型DBの特徴そのまま
Select時にselect *ではなく必要なカラムを指定することで
早くデータが取り出せる
(C) Recruit Technologies Co.,Ltd. All rights reserved.

22
調査
Redshiftの特徴の把握2

Insert,Update,Deleteが遅い(不得意)
Redshift特有のCopyFromコマンドで
利用可能なスピードになった
(C) Recruit Technologies Co.,Ltd. All rights reserved.

23
判断(Redshiftに決めた4つの理由)

1. EMR⇒Redshiftに変更しても開発遅延リスクが低い
– さらに今後の改修を考慮するとトータル開発工数は少なく
なる

2. アジャイル型の開発であり、アドホック分析が多いプ
ロジェクトにマッチしていること
–

Redshiftにデータがることでデータマートの試行錯誤が分析者に
もできる

3. リソースコントロールがしやすい
– オンプレのDWHもあるが、別サービスへの影響が懸念され
た

4. 予算上、問題がない

(C) Recruit Technologies Co.,Ltd. All rights reserved.

24
実装
①Dailyバッチ'約500万レコード(・・・数時間

データ

アクセスログ
データ

500万
レコード/日

Amazon EC2

Amazon S3
オリジナル
データ

オリジナル
データ

Amazon EMR
Hadoop
データ加工処理
Amazon Redshift

②StartUpバッチ'約40億レコード(・・・約20日間
1次データ
1次データ
※特定の事業や分析者のニーズに合わせたデータを抽
マスタデータ
出し、データマートを作成する
データ
※データ仕様変更時も②のバッチを使用 2次データ
2次データ
加工処理

データマート

リクルート環境

Netezza

独自アプリ

データマート

Tableau

(C) Recruit Technologies Co.,Ltd. All rights reserved.

25
実装(チューニング)
各カラムに対し最適な圧縮方式を実施し、I/Oを高速化

Analyze Compressでシステムが推奨する
圧縮方式を採用することで高速化できる
ただし、すべてがベストとは限らない
(C) Recruit Technologies Co.,Ltd. All rights reserved.

26
実装(チューニング)
インポート方法をチューニングし約4倍の高速化に成功!

Load

Calculation

StartUp時間の約70%が
Redshiftへのインポート時間

Import

インポート方式を8パ
ターン検証
約4倍のスピードに!

'ディレクトリ単位で
StartUp処理の時間20
7日間を短縮し、
のインポートの結果(
分析者や事業担当者に対し、スピード感を
落とすことなくデータ提供できる環境に

(C) Recruit Technologies Co.,Ltd. All rights reserved.

27
運用体制構築
StartUpやデータ仕様変更処理中はRedshiftのリソースをほとんど使ってしま
い、本番サービスに影響が出てしまう。

Redshift&EC2:本番環境
Redshift&EC2:StartUp'データ仕様変更(環境
Redshift&EC2コピー環境
Redshift&EC2:本番環境
AWSのスナップショット機能で
5TBの全く同じ環境が13時間で構築できる

モニタリング
分析ツール

アドホック分析

(C) Recruit Technologies Co.,Ltd. All rights reserved.

28
Redshift利用事例:サービス活用編

(C) Recruit Technologies Co.,Ltd. All rights reserved.

29
アクセスログ解析基盤(再掲)

データ

オリジナル
データ

Hadoop
データ加工処理

1次データ

オリジナル
データ

1次データ

1次処理:データクレンジング・標準化
Amazon
'ゴミから必要なデータを取り出す( Redshift

アクセスログ
データ

500万
レコード/日

Amazon EMR

Amazon S3

Amazon EC2

データ
加工処理

2次処理:マスタ統合
'使えるデータにする(
2次データ

マスタデータ
2次データ

3次処理:データマート作成 データマート
'使いやすいデータにする(
リクルート環境

モニタリング
独自アプリ
分析ツール

アドホック分析

Netezza

データマート

Tableau

(C) Recruit Technologies Co.,Ltd. All rights reserved.

30
利用事例
アクセスログモニタリングツール

現在2サイトに提供中
2014年3月までに6サイト以上に拡大予定

(C) Recruit Technologies Co.,Ltd. All rights reserved.

31
利用事例
UI/UX分析基盤

Excelで集計していたUI/UX分析をBI化し効率化UP、
さらにセグメント別の分析も可能とし
詳細な分析が可能となる
(C) Recruit Technologies Co.,Ltd. All rights reserved.

※画面は開発中のイメージです 32
利用事例
UI/UX分析「クリックヒートマップ」(一例)

既存ツールでは見れない
セグメント別のクリックヒートマップなどから
定量的にUI改善プランニングを実施
(C) Recruit Technologies Co.,Ltd. All rights reserved.

33
利用事例
事業会社にはソリューションの提供だけでなく、UI/UXのコンサルティンググ
ループと共同でビッグデータ活用をしたUX改善の提案を行っている

ソリューションを事業に提供し、
間接的にカスタマーに価値を
届ける

UI/UXコンサルグループと協働し、
直接カスタマーに価値を
届ける

(C) Recruit Technologies Co.,Ltd. All rights reserved.

34
今後について

(C) Recruit Technologies Co.,Ltd. All rights reserved.

35
今後について
さらなる、分析者や事業担当者のニーズにこたえるために、、、
データ

アクセスログ
データ
500万
レコード/日

Amazon EC2
オリジナル
データ

Amazon S3
オリジナル
データ

②StartUpバッチ'約40億レコード(
1次データ
20日
データ
加工処理

7日
2次データ

7日

?日

Amazon EMR
Hadoop
データ加工処理
Amazon Redshift
1次データ
マスタデータ
2次データ
データマート

アーキテクチャの進化によって、
リクルート環境
さらに分析者や事業担当者のニーズにこたえる
独自アプリ
データマート
ソリューションに進化させる
Netezza

Tableau

(C) Recruit Technologies Co.,Ltd. All rights reserved.

36
おわりに
リクルートキャリア
リクルート住まいカンパニー
リクルートライフスタイル
リクルートジョブズ

事業会社

リクルートスタッフィング
リクルートマーケティングパートナーズ
スタッフサービス・ホールディングス

リクルート
ホールディングス
ビッグデータ機能部門

機能会社

事業・社内IT推進部門

UI設計/SEO部門

インフラ部門

テクノロジーR&D部門

大規模プロジェクト推進部門

リクルートアドミニストレーション
リクルートコミュニケーションズ
(C) Recruit Technologies Co.,Ltd. All rights reserved.
ご清聴ありがとうございました

リクルートテクノロジーズ
(C) Recruit Technologies Co.,Ltd. All rights reserved.

[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例