Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

変わる!? リクルートグループのデータ解析基盤

8,949 views

Published on

2015/07/15 IIJ Lead Initiative 2015での、野村の講演資料になります

Published in: Technology

変わる!? リクルートグループのデータ解析基盤

  1. 1. (C) Recruit Technologies Co.,Ltd. All rights reserved. 2015年7月15日 リクルートテクノロジーズ ITソリューション統括部ビッグデータ部 野村 健 変わる!?リクルートグループ のデータ解析基盤
  2. 2. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentはじめに 本日お伝えしたいこと リクルートグループのデータ活用状況について1 データ活用をしていく中で、でてきた課題感に対する 対応について2 1
  3. 3. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department自己紹介 野村 健 〜2009年: ・電気メーカのソフトウェア開発会社に勤務 ・交通管制システムの導入 - 主に、旅行時間情報の算出 - 運用管理システムの構築 〜2014年: ・某SIer会社に勤務 ・通信キャリアのログ分析基盤のアーキテクチャ設計 ・デジタルコンテンツのレコメンドシステムのアーキテクチャ設計 ・+5年 Hadoopなど並列分散処理関連の経験 2014年11月〜: ・リクルートテクノロジーズにて、R&D及びHadoop基盤運用を担当 2
  4. 4. (C) Recruit Technologies Co.,Ltd. All rights reserved. 1 2 最近のデータ活用状況紹介 3 4 5 6 ビッグデータへの取り組み データ活用における課題 新たなデータ解析基盤の要件 現状の取り組み アジェンダ まとめと今後の展望 3
  5. 5. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department ビッグデータへの取り組み 4
  6. 6. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentビッグデータへの取組みの歴史 2012年 Hadoop 活用拡大 DWH導入展開 ほぼ全ての事業で Hadoopの活用を実施 ビッグデータ活用基盤 を拡充(DWH等) 2011年 Hadoopの 本格展開 各サイトで本格展開を 開始、11事業40案件 に適用 Hadoopカンファレンス をR後援で開催 2010年 高速集計基盤 の研究 Hadoopのリサーチを 開始、この段階の投資 は最小限に抑えサーバ はWebオークションで 調達 2013年~ 全社規模 BI導入展開 ビッグデータの さらなる活用/ 用途拡大に向けた 全社統合DWH構築 リサーチ環境 第1世代Hadoop 第2世代Hadoop /DWH BI基盤 5
  7. 7. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentビッグデータ基盤構成概要  DWH/Hadoopを中心としたデータ格納領域に各事業等からデータを収集。  様々な利用シーンに対応し、「高速化を追求する」基盤を目指している。 6 データソース データ格納 プレゼンテーション 利用者 事業データ 行動データ プッシュ基盤ログ 経営データ 経営データ 外部データ IPアドレスデータ 行動履歴情報 オンプレミス Redshift Hadoop エコシステム 高度分析やモデル作成 レポート/モニタリング ビジネスインサイト (マーケター) 機械学習やモデル実装 エンドユーザー (エグゼ/営業 /マネージャ) マーケター (プロデューサ/事業 企画) データ サイエンティスト (高度分析者) データ サイエンティスト (エンジニア) ツールバーデータ
  8. 8. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department 最近のデータ活用状況紹介 7
  9. 9. (C) Recruit Technologies Co.,Ltd. All rights reserved. Server Database 数値で見るデータ解析環境 エコシステム 本番98台/開発24台 1 PB 8
  10. 10. (C) Recruit Technologies Co.,Ltd. All rights reserved. 数値で見るHadoopの使われ方 28,344 1,038 万 1日あたりの全JOBの数 1日あたりの全Hbaseクエリの数 リクルートグループ全体 リクルートグループ全体 9
  11. 11. (C) Recruit Technologies Co.,Ltd. All rights reserved. 数値で見るデータ解析案件状況 約200 データ解析案件数(年間) ビッグデータ部の案件従事人数 240 リクルートテクノロジーズ内での人数(パートナーも含む) リクルートテクノロジーズ内での案件数 10
  12. 12. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentビッグデータ活用における体制 リクルートグループでは、分析業務に対して以下の3つの役割を 定義し案件を推進! (「コンサル型」+「エンジニア型」)×マーケター コンサル型 エンジニア型 事業担当者 ≒マーケターリクルートテクノロジーズ ビッグデータグループ Hadoopエンジニア 分析者 11
  13. 13. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department データドリブンの意思決定・施策 【数が多い】 (レコメンド・BI・予測・リアルタイム・非構造) 施策ひとつひとつがより難易度高くかつ長期に【質が高い】 ①シナリオマーケティング、②リアルタイムレコメンド、 ③画像解析 etc 事業担当者 ≒マーケター の知識向上、データドリブン施策の 重要性が認識・拡散。 ここ数年での変化① 12
  14. 14. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department一般物体認識:スパースコーディング+SVM 一般物体認識: 画像に映った物を特定する処理 ① 画像をベクトルに変換するencoderの作成 ② encoderで画像をベクトルに変換 ③ 教師データのベクトルを用いて判別モデルを生成 ④ 未知の画像を②でベクトルに変換 ⑤ ③のモデルに④を通し物体を特定 カスタマが興味のある画像に、何が映っているかを特定し、 検索の軸としたり、レコメンド利用の可能性がある 13
  15. 15. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department 特定の技術上で施作実行 【種類が少ない】 (MapReduce/Mahout/Hive/HBase) 施策特性に合わせたエコシス/インフラ環境の活用【種類が増加】 ①YARN+Tez、②Spark(Spark Streaming)、 ③Impala、④ AWS/TreasureData etc 事業からの要望の高度化から、施策特性 に合わせた技術の選択。 ここ数年での変化② エンジニア型 分析者 事業担当者 ≒マーケター 14
  16. 16. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department取り掛かり中(一部やりたい)のテーマ紹介 Titan グラフ画像解析 テキスト 解析 ストリーム分散SQL 15
  17. 17. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department データ活用における課題 16
  18. 18. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department データマネジメント データ活用における課題 2 データ連携負荷1 17
  19. 19. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department1. データ連携負荷 個別環境が乱立 困ったなぁ~ 18
  20. 20. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department1. データ連携負荷 Oracle ユーザ 行動ログ ログ (システム/ アプリ) Adobe ログ検索BI/DWH レコメンド エンジン モニタ リング Hadoop 19
  21. 21. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department AWS 1. データ連携負荷 OracleS3/SQS ユーザ 行動ログ ログ (システム/ アプリ) AdobeTreasure Data ログ検索BI/DWH レコメンド エンジン モニタ リング HadoopExaData プッシュ 基盤 20
  22. 22. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department2. データマネジメント 個別の データ品質チェックなど 共通化できないかな? 21
  23. 23. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department AWS 2. データマネジメント OracleS3/SQS ユーザ 行動ログ ログ (システム/ アプリ) AdobeTreasure Data ログ検索BI/DWH レコメンド エンジン モニタ リング HadoopExaData プッシュ 基盤 品質担保品質担保品質担保品質担保 品質担保品質担保 品質担保 22
  24. 24. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department AWS データ連携・マネジメントに対する課題について OracleS3/SQS ユーザ 行動ログ ログ (システム/ アプリ) AdobeTreasure Data ログ検索BI/DWH レコメンド エンジン モニタ リング HadoopExaData プッシュ 基盤 データコネクト 基盤 品質担保 23
  25. 25. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department 新たなデータ解析基盤の要件 24
  26. 26. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department新たなデータ解析基盤の要件とは 1. データソースの多様性 2. データライフサイクル管理 3. データ品質管理 25
  27. 27. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department新たなデータ解析基盤の要件とは 1. データソースの多様性 2. データライフサイクル管理 3. データ品質管理 26
  28. 28. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentデータソースの多様性 REST API FTPサーバ データ コレクタ  リアルタイムデータとバッチデータのコレクト・フィード対応 データ フィード 27
  29. 29. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department新たなデータ解析基盤の要件とは 1. データソースの多様性 2. データライフサイクル管理 3. データ品質管理 28
  30. 30. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentデータライフサイクル管理 データ活用の観点2 システム監査の観点1 29
  31. 31. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentデータライフサイクル管理  システム監査の観点 アプリサーバなど データコネクト データ処理 ログ分析基盤  いつ生成されたデータなのか?  どこで生成されたデータなのか? 社内データセンタ 30
  32. 32. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentデータライフサイクル管理  システム監査の観点 アプリサーバなど データコネクト データ処理 ログ分析基盤  どの経路から来たデータなのか? 社内データセンタ 31
  33. 33. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentデータライフサイクル管理  システム監査の観点 アプリサーバなど 社内データセンタ データコネクト データ処理 ログ分析基盤  どのデータを元に生成されたのか?  データフローの管理者は誰か?  誰がどのようにアクセスするのか? 32
  34. 34. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentデータライフサイクル管理  データ活用の観点  特定用途による管理 • BI用の列指向ファイルフォーマットなど 生データ BI用データ レコメンドエンジン用 データ ・・・ 33
  35. 35. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentデータライフサイクル管理  データ活用の観点  時系列による管理 • 過去の不必要なデータのクリーニング 直近 1ヶ月後 2ヶ月後 1年後 N年後 ・・・ ・・・ 削除 34
  36. 36. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentデータライフサイクル管理  データ活用の観点  利用頻度・SLA・コストによる管理 • 蓄積デバイス、HDFSのレプリケーション数などの最適化 ・・・ ・・・ 利用頻度高 低 35
  37. 37. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentデータライフサイクル管理  データ活用の観点  利用者権限による管理 • ロールベースによる権限毎のデータ分離 生データ (マスキングや暗号化 など対策済み) マーケター 用データ 分析者用データ ・・・ 事業担当者 ≒マーケター 分析者 36
  38. 38. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department新たなデータ解析基盤の要件とは 1. データソースの多様性 2. データライフサイクル管理 3. データ品質管理 37
  39. 39. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentデータ品質管理  機密項目(マスキング/暗号化etc)  スキーマ互換性の担保  メタデータ管理  監査用ユニークID管理 ポリシー定義に基づく品質管理 品質 チェック データ 蓄積 ポリシー チェック 破棄 データ 38
  40. 40. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department 現状の取り組み 39
  41. 41. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentフィジビリ検証予定の内容について  フィジビリ検証予定のシステム概要について  ユーザの行動をニアリアルタイムに把握し、 サービスレベルを向上したい  ログの活用先の増加が想定されるので、データ 連携先の追加がしやすい仕組みにしておきたい  ログの活用に不要な情報に対して、暗号化・ マスキングなどの対策コストを抑えたい 40
  42. 42. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Departmentフィジビリ検証予定の内容について  フィジビリ検証予定のシステム概要について ① 事業サイトのログに対し、暗号化・マスキングなどデータの品質及びセキュリティ担保 ② データ活用側へ必要なデータのみ限定できるよう、データパイプラインを定義 ③ データ活用側が今後増えていくことを見越し、連携方式を統一し連携負荷軽減 アプリサーバ Agent アプリサーバ Agent 事業 サイト マスタ システム 生ログ-アプリ ETL済ログ-アプリ 変換 蓄積品質 モニタリング基盤 ログ解析基盤 生ログ-アプリ ETL済ログ-アプリ 変換 蓄積品質 ①② ③ 41
  43. 43. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department検証実施中の内容について  フィジビリ検証予定のシステム概要について ④ ユーザ行動をニアリアルタイムに分析し、予測モデルによる検知からプッシュ基盤などへ のアクション通知へ(のちのちは、オンライン学習などもできたら) アプリサーバ Agent アプリサーバ Agent 事業 サイト マスタ システム 生ログ-アプリ ETL済ログ-アプリ 変換 蓄積品質 プッシュ基盤 生ログ-アプリ ETL済ログ-アプリ 変換 蓄積品質 オン ライン 予測 通知検知 ④ 42
  44. 44. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department Hadoop YARN 新たなデータ解析基盤への取り組み  検討中のシステム構成概要案 セキュリティ ポリシー メタデータ リポジトリ データ 変換 データ 品質管理 データ 蓄積 データ フィード モニタリング MRv2 データコネクト/データリポジトリ リアルタイム/バッチ API データ コレクタ データライフ サイクル管理 データ 受信 43
  45. 45. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department まとめと今後の展望 44
  46. 46. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department 事業担当者の案件施策に対するデータ連携負荷を軽減し、 リクルートグループ内での更なるデータ利活用促進を目指す まとめと今後 2 新技術は積極的に試し、事業サービスでの利用可能性を 常に模索していく3 ストリームデータから導入を始め、既存のバッチへ横展開 そして、共通機能化をしていく 1 45
  47. 47. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department一緒に戦ってくれる仲間募集中 本日の「データマネジメント」はデータ解析基盤 の1テーマであり他にも取り組んでいます。 RTCでは、一緒に働く 仲間を求めてます!!  リアルタイムデータ解析処理  リソースマネジメントの効率化  データ分析者向けユーザインタフェース etc… リクルートテクノロジーズ ITソリューション統括部ビッグデータ部 野村 健<nomura_takeshi@r.recruit.co.jp>
  48. 48. (C) Recruit Technologies Co.,Ltd. All rights reserved. BIG DATA Department ご清聴ありがとうございました リクルートテクノロジーズ

×