[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

15,265 views

Published on

Published in: Technology
0 Comments
62 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
15,265
On SlideShare
0
From Embeds
0
Number of Embeds
3,262
Actions
Shares
0
Downloads
246
Comments
0
Likes
62
Embeds 0
No embeds

No notes for slide

[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

  1. 1. リクルートにおける Redshift導入・活用事例 ~分析基盤の紹介~ 2014/1/17 ITソリューション部 BDG BI-Unit 山田 悦明 (C) Recruit Technologies Co.,Ltd. All rights reserved.
  2. 2. 本日の登壇者紹介  山田 悦明 ( やまだ えつあき ) 株式会社リクルートテクノロジーズ ITソリューション部 ビッグデータグループ ・2008年リクルート入社。 ・広告配信サーバ導入や顧客企業の集客最適化などに従事。 ・『じゃらん』『ホットペッパービューティー』の会員分析 ・Hadoopを活用した『SUUMO』の集客モニタリング、アトリビューション 分析など 最近ではアクセスログを解析する独自のソリューション開発・展開を推進。 (C) Recruit Technologies Co.,Ltd. All rights reserved. 1
  3. 3. 本日のアジェンダ 1. はじめに~リクルートとリクルートテクノロジーズのご紹介~ 2. ビッグデータグループの取り組み 3. ビッグデータ解析におけるデータ基盤環境について 4. Redshift利用事例 1. 実装編 2. サービス活用編 5. 今後について 6. おわりに (C) Recruit Technologies Co.,Ltd. All rights reserved. 2
  4. 4. はじめに ~リクルートとリクルートテクノロジーズのご紹介~ (C) Recruit Technologies Co.,Ltd. All rights reserved. 3
  5. 5. はじめに ~リクルートとは 【企業概要】 創立 グループ 従業員数 1960年3月31日 「大学新聞広告社」としてスタート 約 22,000名 関連企業数 国内:52社、海外:56社 連結売上高 約 1兆500億円 連結経常利益 目指す世界観 ※2013年3 月末 約 1,250億円 ※2013年3月 末 「あなた」を支える存在でありたい (C) Recruit Technologies Co.,Ltd. All rights reserved.
  6. 6. はじめに ~リクルートとは 【リクルートのビジネスモデル】 カスタマー (一般ユーザー) クライアント (サービス提供者) マッチング 世界中の生活者と産業界に 「まだ、ここにない、出会い。」を提供します (C) Recruit Technologies Co.,Ltd. All rights reserved.
  7. 7. はじめに ~リクルートグループが提供するサービス Life Event ライフイベント Life Style ライフスタイル 旅行 住宅購入 転職 お稽古 ファッション 出産/育児 結婚 車購入 時事 飲食 就職 ショッピング 進学 「選択・意思決定・行動」を支援する 情報サービスの提供 (C) Recruit Technologies Co.,Ltd. All rights reserved. 6
  8. 8. はじめに ~リクルートテクノロジーズとは リクルートキャリア リクルート住まいカンパニー リクルートライフスタイル リクルートジョブズ 事業会社 リクルートスタッフィング 2012/10月の分社化から リクルートマーケティングパートナーズ 1年以上が経ちました スタッフサービス・ホールディングス リクルート ホールディングス ビッグデータ機能部門 機能会社 事業・社内IT推進部門 UI設計/SEO部門 インフラ部門 テクノロジーR&D部門 リクルートアドミニストレーション リクルートコミュニケーションズ (C) Recruit Technologies Co.,Ltd. All rights reserved. ビッグデータグループ 大規模プロジェクト推進部門
  9. 9. ビッグデータグループの取り組み (C) Recruit Technologies Co.,Ltd. All rights reserved. 8
  10. 10. ビッグデータの利活用のために 大きいだけでなく多種で複雑 営業情報 ビッグデータ利活用に Webサイト UU エリア pageview 必要な要素は? 会員 アイテム セッション コンサル クライアント ビジネス課題を顕在化 情報の価値を判断 ビジネス課題に合わせて データを情報化 マーケター (C) Recruit Technologies Co.,Ltd. All rights reserved. 店舗情報 エンジニア ビジネス要件に合うよう 大量・複雑なデータを 効率的に処理 9
  11. 11. リクルートテクノロジーズの取組体制 ビッグデータのビジネス活用にはマーケター視点が不可欠 事業会社担当者 ≒マーケター ビッグデータ活用組織 担当領域 エンジニア型 アナリスト コンサル型 アナリスト 「コンサル型」・「エンジニア型」のアナリストを揃え、 マーケターとの三位一体で、最適なデータ活用を推進 (C) Recruit Technologies Co.,Ltd. All rights reserved. 10
  12. 12. ビッグデータ活用と取組事例 ビッグデータ活用を”可視化” と ”予測”に分類 “可視化” は過去と現在のデータを集計、分類、統計処理して可視化する。 “予測” は過去のデータを高度な数学で分析し、未来を予測する。 この2つから、事業利益へ直接的、間接的に効果を出すことができる。 可視化 予測 事業利益への レポーティングBI 分析BI KPIなどの 未来予測 事業利益への リアルタイム 機械学習 メールやwebの レコメンド 間接的な効果 直接的な効果 (C) Recruit Technologies Co.,Ltd. All rights reserved. 11
  13. 13. ビッグデータ活用と取組事例 事業A 事業B 事業C 事業D 施策シェア分析 サイト間 クロスUU 調査 サイト横断 モニタリング 指標 リスティング分析 レコメンド クチコミ分析 KWD×LP分析 予約分析 メルマガ施策 13事業に対し、 BI メール通数分析 現行応募相関 ステータス分析 自然語解析 行動ターゲティング LPO 事業F レコメンド ログ分析 事業G 自然語解析 メールレコメンド 需要予測 クレンジング 領域間クロスUU 集客モニタリング 需要予測 レコメンド カスタマープロファイル 商材分析 クライアントHP分析 カスタマートラッキング 事業I KPIモニタリング アクション数予測 効果集計 事業J 価格分析 レコメンド クラスタリング 事業K レコメンド 事業L レコメンド 事業M 効果見立て分析 事業E 事業H KPIモニタリング 年間176件の データ利活用を推進 共通バナー クチコミ分析 12 (C) Recruit Technologies Co.,Ltd. All rights reserved. 12
  14. 14. ビッグデータ解析における データ基盤環境について (C) Recruit Technologies Co.,Ltd. All rights reserved. 13
  15. 15. リクルートのビッグデータ基盤の変遷 リサーチ 3~4台 2008~9 実験機 実験・検証 20台 2010 ラボ環境 第1世代環境 120台 2011 プライベートクラ ウドとの部分的な 環境融合 第2世代環境 50台 2012 データ集約基盤 構想 2013 プライベートクラ ウド環境との完全 なる環境融合 パブリッククラウド との連携を開始 DWH BI (C) Recruit Technologies Co.,Ltd. All rights reserved. 14
  16. 16. リクルートのビッグデータ基盤 2013年 ①全社規模BI導入展開 ②全社分析データ集約環境「Total DB」の推進 オンプレミスとパブリッククラウドを 融合した柔軟なビッグデータ基盤の構築 (C) Recruit Technologies Co.,Ltd. All rights reserved. 15
  17. 17. リクルート TotalDB (通称:出雲基盤) 分析用 社外データ リクルート Total DB 全体概要図 Rクラウド(オロチ) 全社BI(アマテラス) 分析BI(ODBC) 行動履歴データ 経営データ ID/ポイントデータ リクルート 各事業データ 全社DWH(ツクヨミ) 事業DWH 分析ツール 事業DWH 事業個別 Hadoop 全社Hadoop(スサノオ) (C) Recruit Technologies Co.,Ltd. All rights reserved. Hadoop エコシステム 16
  18. 18. リクルート TotalDB (通称:出雲基盤) 分析用 社外データ リクルート Total DB 全体概要図 Rクラウド(オロチ) 全社BI(アマテラス) 分析BI(ODBC) 行動履歴データ 経営データ ID/ポイントデータ リクルート 各事業データ 全社DWH(ツクヨミ) 事業DWH 分析ツール 事業DWH 事業個別 Hadoop 全社Hadoop(スサノオ) (C) Recruit Technologies Co.,Ltd. All rights reserved. Hadoop エコシステム 17
  19. 19. Redshift利用事例:実装編 (C) Recruit Technologies Co.,Ltd. All rights reserved. 18
  20. 20. 利用目的 サイトのアクセスログのモニタリング・分析サービス活用 既存のアクセスツールの機能にはない分析を行うためのプロジェクトを立ち上げた。 Redshiftは主に前処理やデータマート作成に活用 さらにBIツール(Tableau)とRedshiftを連携したアクセスログのモニタリングレポート作成 アクセスログの可視化(tableau) 可視化 予測 独自集計・可視化ツール 事業利益への レポーティングBI 分析BI KPIなどの 未来予測 事業利益への リアルタイム 機械学習 メールやwebの レコメンド 間接的な効果 直接的な効果 (C) Recruit Technologies Co.,Ltd. All rights reserved. 19
  21. 21. アクセスログ解析基盤 データ Amazon EC2 オリジナル データ Hadoop データ加工処理 1次データ オリジナル データ 1次データ 1次処理:データクレンジング・標準化 Amazon 'ゴミから必要なデータを取り出す( Redshift アクセスログ データ 500万 レコード/日 Amazon EMR Amazon S3 データ 加工処理 2次処理:マスタ統合 '使えるデータにする( 2次データ 3次処理:データマート作成 '使いやすいデータにする( リクルート環境 モニタリング 独自アプリ 分析ツール マスタデータ 2次データ データマート アドホック分析 Netezza データマート Tableau (C) Recruit Technologies Co.,Ltd. All rights reserved. 20
  22. 22. 経緯 当初計画では1~3次処理はすべてEMRで実施する予定だったが、 2012年10月にRedshiftの発表があり、2次処理以降をEMRから Redshiftに切り替えを実施した 調査 2012.12 Closed Beta @Virginia 判断 2013.02 On demand @Virginia 2013.05 Reserved Instance @Oregon 2ノード+ 4ノード Amazon Redshift XL ノード 2TB スト レージ 2~8ノード 開発 (C) Recruit Technologies Co.,Ltd. All rights reserved. 運用体制構築 2013.11 Reserved Instance & On demand @Oregon 4ノード (一時的に+4) 21
  23. 23. 調査 Redshiftの特徴の把握1 Redshiftは既存のカラム型DBの特徴そのまま Select時にselect *ではなく必要なカラムを指定することで 早くデータが取り出せる (C) Recruit Technologies Co.,Ltd. All rights reserved. 22
  24. 24. 調査 Redshiftの特徴の把握2 Insert,Update,Deleteが遅い(不得意) Redshift特有のCopyFromコマンドで 利用可能なスピードになった (C) Recruit Technologies Co.,Ltd. All rights reserved. 23
  25. 25. 判断(Redshiftに決めた4つの理由) 1. EMR⇒Redshiftに変更しても開発遅延リスクが低い – さらに今後の改修を考慮するとトータル開発工数は少なく なる 2. アジャイル型の開発であり、アドホック分析が多いプ ロジェクトにマッチしていること – Redshiftにデータがることでデータマートの試行錯誤が分析者に もできる 3. リソースコントロールがしやすい – オンプレのDWHもあるが、別サービスへの影響が懸念され た 4. 予算上、問題がない (C) Recruit Technologies Co.,Ltd. All rights reserved. 24
  26. 26. 実装 ①Dailyバッチ'約500万レコード(・・・数時間 データ アクセスログ データ 500万 レコード/日 Amazon EC2 Amazon S3 オリジナル データ オリジナル データ Amazon EMR Hadoop データ加工処理 Amazon Redshift ②StartUpバッチ'約40億レコード(・・・約20日間 1次データ 1次データ ※特定の事業や分析者のニーズに合わせたデータを抽 マスタデータ 出し、データマートを作成する データ ※データ仕様変更時も②のバッチを使用 2次データ 2次データ 加工処理 データマート リクルート環境 Netezza 独自アプリ データマート Tableau (C) Recruit Technologies Co.,Ltd. All rights reserved. 25
  27. 27. 実装(チューニング) 各カラムに対し最適な圧縮方式を実施し、I/Oを高速化 Analyze Compressでシステムが推奨する 圧縮方式を採用することで高速化できる ただし、すべてがベストとは限らない (C) Recruit Technologies Co.,Ltd. All rights reserved. 26
  28. 28. 実装(チューニング) インポート方法をチューニングし約4倍の高速化に成功! Load Calculation StartUp時間の約70%が Redshiftへのインポート時間 Import インポート方式を8パ ターン検証 約4倍のスピードに! 'ディレクトリ単位で StartUp処理の時間20 7日間を短縮し、 のインポートの結果( 分析者や事業担当者に対し、スピード感を 落とすことなくデータ提供できる環境に (C) Recruit Technologies Co.,Ltd. All rights reserved. 27
  29. 29. 運用体制構築 StartUpやデータ仕様変更処理中はRedshiftのリソースをほとんど使ってしま い、本番サービスに影響が出てしまう。 Redshift&EC2:本番環境 Redshift&EC2:StartUp'データ仕様変更(環境 Redshift&EC2コピー環境 Redshift&EC2:本番環境 AWSのスナップショット機能で 5TBの全く同じ環境が13時間で構築できる モニタリング 分析ツール アドホック分析 (C) Recruit Technologies Co.,Ltd. All rights reserved. 28
  30. 30. Redshift利用事例:サービス活用編 (C) Recruit Technologies Co.,Ltd. All rights reserved. 29
  31. 31. アクセスログ解析基盤(再掲) データ オリジナル データ Hadoop データ加工処理 1次データ オリジナル データ 1次データ 1次処理:データクレンジング・標準化 Amazon 'ゴミから必要なデータを取り出す( Redshift アクセスログ データ 500万 レコード/日 Amazon EMR Amazon S3 Amazon EC2 データ 加工処理 2次処理:マスタ統合 '使えるデータにする( 2次データ マスタデータ 2次データ 3次処理:データマート作成 データマート '使いやすいデータにする( リクルート環境 モニタリング 独自アプリ 分析ツール アドホック分析 Netezza データマート Tableau (C) Recruit Technologies Co.,Ltd. All rights reserved. 30
  32. 32. 利用事例 アクセスログモニタリングツール 現在2サイトに提供中 2014年3月までに6サイト以上に拡大予定 (C) Recruit Technologies Co.,Ltd. All rights reserved. 31
  33. 33. 利用事例 UI/UX分析基盤 Excelで集計していたUI/UX分析をBI化し効率化UP、 さらにセグメント別の分析も可能とし 詳細な分析が可能となる (C) Recruit Technologies Co.,Ltd. All rights reserved. ※画面は開発中のイメージです 32
  34. 34. 利用事例 UI/UX分析「クリックヒートマップ」(一例) 既存ツールでは見れない セグメント別のクリックヒートマップなどから 定量的にUI改善プランニングを実施 (C) Recruit Technologies Co.,Ltd. All rights reserved. 33
  35. 35. 利用事例 事業会社にはソリューションの提供だけでなく、UI/UXのコンサルティンググ ループと共同でビッグデータ活用をしたUX改善の提案を行っている ソリューションを事業に提供し、 間接的にカスタマーに価値を 届ける UI/UXコンサルグループと協働し、 直接カスタマーに価値を 届ける (C) Recruit Technologies Co.,Ltd. All rights reserved. 34
  36. 36. 今後について (C) Recruit Technologies Co.,Ltd. All rights reserved. 35
  37. 37. 今後について さらなる、分析者や事業担当者のニーズにこたえるために、、、 データ アクセスログ データ 500万 レコード/日 Amazon EC2 オリジナル データ Amazon S3 オリジナル データ ②StartUpバッチ'約40億レコード( 1次データ 20日 データ 加工処理 7日 2次データ 7日 ?日 Amazon EMR Hadoop データ加工処理 Amazon Redshift 1次データ マスタデータ 2次データ データマート アーキテクチャの進化によって、 リクルート環境 さらに分析者や事業担当者のニーズにこたえる 独自アプリ データマート ソリューションに進化させる Netezza Tableau (C) Recruit Technologies Co.,Ltd. All rights reserved. 36
  38. 38. おわりに リクルートキャリア リクルート住まいカンパニー リクルートライフスタイル リクルートジョブズ 事業会社 リクルートスタッフィング リクルートマーケティングパートナーズ スタッフサービス・ホールディングス リクルート ホールディングス ビッグデータ機能部門 機能会社 事業・社内IT推進部門 UI設計/SEO部門 インフラ部門 テクノロジーR&D部門 大規模プロジェクト推進部門 リクルートアドミニストレーション リクルートコミュニケーションズ (C) Recruit Technologies Co.,Ltd. All rights reserved.
  39. 39. ご清聴ありがとうございました リクルートテクノロジーズ (C) Recruit Technologies Co.,Ltd. All rights reserved.

×