ビッグデータ活用支援フォーラム

4,691 views

Published on

0 Comments
10 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
4,691
On SlideShare
0
From Embeds
0
Number of Embeds
1,955
Actions
Shares
0
Downloads
63
Comments
0
Likes
10
Embeds 0
No embeds

No notes for slide

ビッグデータ活用支援フォーラム

  1. 1. 2012年8月29日(水)ビッグデータ活用支援フォーラム リクルートにおける ビッグデータへの取り組み ~システム・体制のご紹介と実例の共有~ 株式会社リクルート MIT United 米谷 修
  2. 2. ◆本日のアジェンダ1.リクルートおよびシステム部門のご紹介2.「新技術」に対するスタンス3.ビッグデータへの取り組み ~分析基盤や体制について4.ビッグデータの分析事例 ~実サービスへのHadoop適用事例5.今後の展望 米谷 修 Osamu Yonetani 株式会社リクルート MIT United システム基盤推進室 プロジェクト推進部 エクゼクティブマネジャー
  3. 3. 1.リクルートおよびシステム部門のご紹介
  4. 4. 1.リクルートおよびシステム部門のご紹介~リクルートについて ライフイベント領域 ライフスタイル領域 シニア 旅行 車購入 住宅購入 お稽古 ファッション 転職 出産/育児 時事 飲食 結婚 就職 医療 進学 「選択・意思決定・行動」を支援する 情報サービスの提供 4
  5. 5. 1.リクルートおよびシステム部門のご紹介~リクルートについて創 業 : 1960年3月31日資本金 : 30億264万円売上高 : 3,720億57百万円(2011年4月1日~2012年3月31日)連結売上高 : 8,066億61百万円(2011年4月1日~2012年3月31日)従業員数 : 5,974名 (2012年4月1日現在)男性:2619名・女性:3355名代表者 : 代表取締役社長 峰岸 真澄2012年10月 会社分割を行い、7事業会社+3機能会社のグループ体制となります 5
  6. 6. 1.リクルートおよびシステム部門のご紹介~MIT United(システム部門)について ※ "Marketing and IT" United CEO 経営ボード HR 住宅 … 事業部門 カンパ カンパ MIT ニー ニーシステム基盤推進室:インフラ環境構築運用、性能検証などプロジェクト推進部:大規模サイト開発、PMO機能提供など 6
  7. 7. 1.リクルートおよびシステム部門のご紹介 (株)リクルートキャリア 事業会社 (株)リクルートジョブズ (株)リクルートスタッフィング(株)リクルート (株)リクルート住まいカンパニー ホールディングス (株)リクルートライフスタイル (株)リクルートマーケティングパートナーズ (株)スタッフサービス・ホールディングス (株)リクルートアドミニストレーション 機能会社 (株)リクルートコミュニケーションズ (株)リクルートテクノロジーズ 7
  8. 8. 2.「新技術」に対するスタンス
  9. 9. 2.「新技術」に対するスタンス講演や取材でよく聞かれること ユーザー企業なのに… なぜそこまで「みずから」 技術検証をしにいくのか? どうしてそこまでして新技術を キャッチアップしようとするのか? 9
  10. 10. 2.「新技術」に対するスタンスユーザー企業だからこそ…「新技術をいかに早く、い 性能検証は、ユーザー企業かに独自に組み合わせて勝 がそれぞれ個別のビジネス負をするか」はユーザー企 シーンに適したパターンで業の考えどころ 行うべきもの 常に新技術に対するアンテナを張り、 徹底的に 調査・検証 をして、 いち早く取り入れることを検討すべき 10
  11. 11. 2.「新技術」に対するスタンス調査・検証の際のこだわり ・ベンダーに任せきりにせずに ・リアリティのあるデータを用いて ・とことん深く、執拗に、繰り返し確かめ る かつて「スペックの盲信・検証の丸投げ」をする ことで、手痛い経験 をしてきたことの反省から 11
  12. 12. 2.「新技術」に対するスタンス新技術のR&D取り組みステップ Gate Review Gate Review Gate Review R-Stage Dev-Stage β-Stage 運用-Stage・技術要素調査 ・効果的な仕組み ・正式にフィジビ ・実運用へ・技術の実態を としてプレ実装 リティスタディ 把握する ・活用方法をさら として推進~ に開拓 展開をする日常的に、アタリマエのように調査・検証をし続け、新技術R&Dの 体制 や 習慣 、発想 を持ち続ける 12
  13. 13. 3.ビッグデータへの取り組み ~ 3.1.「Hadoop」を軸にした分析基盤のご紹介
  14. 14. 3.ビッグデータへの取り組み新技術のR&D取り組みステップ Gate Review Gate Review Gate Review R-Stage Dev-Stage β-Stage 運用-Stage・技術要素調査 ・効果的な仕組み ・正式にフィジビ ・実運用へ・技術の実態を としてプレ実装 リティスタディ 把握する ・活用方法をさら として推進~ に開拓 展開をする ビッグデー タ (Hadoop) 14
  15. 15. 3.ビッグデータへの取り組み 大規模データを効率的に分散処理・管理するHadoopとは ためのソフトウェア基盤(JAVAフレームワーク) ・MapReduce(Javaプログラム) これらで構成 マスタ ・HDFS(分散ファイルシステム) サーバー MapReduce MAP (javaプログラム) SHUFFLE スレーブ REDUCE サーバー HDFS (分散ファイルシステム) 15
  16. 16. 3.ビッグデータへの取り組み各種機能は「エコシステム」で簡単に利用 RDB問い合わせログ PVログ レコメンド データ Quest® Data Connector これらディストリSQLライクな操作言語として、Hive ビューションによ り、Hadoopを容マイニングのライブラリとして、mahout 易に使いこなしてデータ連携ツールとして、Sqoop いるJOBスケジューリングツールとして、Azkaban 16
  17. 17. 3.ビッグデータへの取り組み①Hive の活用 ・いわば Hadoop上で動作するRDB ・ SQLライクな「HiveQL」で操作、処理結果は自動的に MapReduceへ ・おもに既存機能のリプレイス系の案件で活躍する ・SQL → Hiveへ移行するだけで、低工数で簡単に 高速化が実現 見立てのために 更なる高速化のために 「とりあえずは 一部をMapReduceへ書き Hiveで実装」 換え 17
  18. 18. 3.ビッグデータへの取り組み②mahout の活用 ・データマイニング系ロジックのJavaライブラリ ・「アソシエーション分析」などのアルゴリズムが用意されている ・協調フィルタリングや、アソシエーションルール に基づくレコメンドなど ・複数の中から最適な条件を選定することが可能 行動履歴 データ レコメンド物件の 表示など 18
  19. 19. 3.ビッグデータへの取り組み③Sqoop の活用 ・HadoopとRDBMSとでデータをやり取りするためのしくみ ・Oracleデータベースへの高速接続を提供する「OraOop」など ・RDBMSを完全に撤廃させることなく、RDBMSと Hadoopでデータを共有、使い分けを可能にする ・複数のRDBMSによる分析基盤作りにも有効 本番DB Hadoop ログ 検証環境 外部本番データから Hadoopデータに連 データ 携する 19
  20. 20. 3.ビッグデータへの取り組み ~ 3.2.システム構成の概要
  21. 21. 3.ビッグデータへの取り組みシステム構成概要 リサーチ段階 実験・検証 第1世代環境 第2世代環境 3~4台 20台 120台 40台 (今後拡 プライベートクラウド 大) プライベートクラウド 部分的な 完全なる 実験機 ラボ環境 環境融合 環境融合2008~9 2010 2011 2012Webサイトのバッチ システム移行などで 商用利用が可能な設計 プライベートクラウド処理移植など、 余ったハードウェアを (セキュリティなど非 環境との融合を進めた処理性能の評価・ 再利用 機能面)を施した環境 環境研究 イマココ 21
  22. 22. 3.ビッグデータへの取り組みシステム構成概要 第1世代 第2世代 Apache Hadoop / CDH MapR / GreenplumMR Heartbeat + DRBDMasterNode1 MasterNode2 MasterNode3 MasterNode4 Node1 Node2 Node3 Node4 JobTracker JobTracker CLDB CLDB CLDB CLDB NameNode NameNode JobTracker JobTracker JobTracker JobTracker Secondary Secondary TaskTracker TaskTracker TaskTracker TaskTracker NameNode NameNode FileServer FileServer FileServer FileServer WardenSlaveNode1 SlaveNode2 SlaveNode3 SlaveNode4 Node5 Node6 Node7 Node8 TaskTracker TaskTracker TaskTracker TaskTracker CLDB CLDB CLDB CLDB DataNode DataNode DataNode DataNode JobTracker JobTracker JobTracker JobTracker TaskTracker TaskTracker TaskTracker TaskTracker FileServer FileServer FileServer FileServerMaster4台+Slave15台+batch1台の20 3Nodeから、利用リソースに応じて増台構成をベースに利用リソースに応じ 設てSlaveを増設 22
  23. 23. 3.ビッグデータへの取り組み ~ 3.3.「コンサル型+エンジニア型」 アナリスト×マーケター体制
  24. 24. 3.ビッグデータへの取り組みビッグデータに対峙する2種類のアナリスト【役割】事業の抱える課題解決に向けた仮説を立て、大量データをマイニングし具体的な解決案を提案する。現場に近いところで超具体的な方針を示す【スキル・知識】分析力、論理的思考力、仮説力、統計/マーケティング知識、SQL、Rなど【役割】データマイニングや機械学習を行った結果をもとに、ユーザーの行動特性など一定の規則性を見出し、提供サービスの品質向上に努める【スキル・知識】Hadoop、MapReduce、Mahout、Java、R、統計解析、時系列解析、データマイニング、機械学習、自然言語処理など 24
  25. 25. 3.ビッグデータへの取り組み「コンサル型」アナリストツールを駆使してデータを分析する。どんなマーケティング施策を打てばビジネスにプラスになるか事業と共に考え、意思決定の手助けをする→ 最適なアルゴリズム・ロジックを「見つける」 コンサル型アナリスト 事業担当者 例えば 需要予測 … 何にどのタイミングで広告宣伝費をかけるのが一番効率的か? ( 某メディアでは年間の広告宣伝費を3億削減 ) レコメンド どのようなロジックにするとアクション率が向上するか? 25
  26. 26. 3.ビッグデータへの取り組み「エンジニア型」アナリストビッグデータ関連技術の活用方法を、技術力・インフラ基盤と共に提供し、新たな施策を事業とともに考え実装していく→ アルゴリズムを「実装する」・「組み合わせる」 事業担当者 エンジニア型アナリスト事業の状況を背景とした、新たな 技術で実現できることを背景としたソ施策の検討、期待する成果・目的 リューションの紹介、技術力・インフの設定 ラ基盤の提供、活用方法の事例展開や 新たな用途開発など 26
  27. 27. 3.ビッグデータへの取り組み(「コンサル型」+「エンジニア型」)×マーケター 事業担当者 ≒マーケター MITの 守備範囲 コンサル型 エンジニア型「コンサル型」+「エンジニア型」の異なるアナリス トとマーケターの三位一体で、最適なデータ活用を実現 27
  28. 28. 4.ビッグデータの分析事例 ~実サービスにおけるHadoopの適用事例ご紹介
  29. 29. 【事例紹介①】 自動車カンパニー
  30. 30. 4.ビッグデータの分析事例「クルマなびカウンター*」における活用事例 *クルマなびカウンター:対面形式で車選びを支援する新サービス 仲介 簡単 お客様 安心 販売店 無料相談 仲介 仲介 カーセンサー独自の品質基準による車選び 物件や状態選定はお任せ+カーナビ/ETC+保証/アフター 車選び~契約までのワンストップサービス 車選び〜実車確認〜契約代行 30
  31. 31. 4.ビッグデータの分析事例 31
  32. 32. 4.ビッグデータの分析事例 どこにデータ活用がされているのか? 車の価格設定 条件の近いものをまとめ、一律の 保証等を付けて同一品質・同一価格を実現する これが難しい。なぜか? どのような項目でまとめれば良いか? 最適な値段はいくらなのか? 32
  33. 33. 4.ビッグデータの分析事例■マーケット・商材の特殊性 中古車マーケットは感覚的な値付けの世界=「正価」のないマーケット 一物一価の商材。価格決定因子が複雑 外部環境(輸出、為替、新車)からの影響値が大きい 車種/グレード/年式/走行/修復歴/ナビ/ETC/駆動方式 /色/ミッション/排気量/車検残/禁煙車/本革シート/ モニター/キーレス/サンルーフ/保証/整備/エリア… オプションは→ 統計的分析が難しい ざっと30超!■価格算出に求められること マーケット・商材の特殊性から、価格算出するために必要なこと→ 全データを対象にしたトライ&エラーの繰り返し 33
  34. 34. 4.ビッグデータの分析事例 もともと、アイディアはあったが… 組み合わせが膨大なため、車種やエリアを限定しても 集計が困難。限定しているので、価格算出の信頼度が低い。 本番DB この集計ではダメだ… 行動履歴 DB やり直そう… 外部 データ 数日 カーセンサーのデータ*:1億件/月 オートオークションのデータ:18万件/月*月間で340万件×30オプションのand条件 → 実現できそうもない 34
  35. 35. 4.ビッグデータの分析事例 既にバッチ高速化でhadoopの実用性を認識 Hadoopを活用できるのでは? 本番DB行動履歴 Hadoop 色々試せる! DB 外部 環境データ 1時間半 仮説→実行→検証を高速に繰り返し 答えを導くことができた 35
  36. 36. 4.ビッグデータの分析事例 Hadoop活用でサービス完成! 仲介 簡単 お客様 安心 販売店 本番DB 行動履歴 Hadoop DB 環境 外部 データ 毎月950車種の価格を1時間半で分析! 36
  37. 37. 【事例紹介②】 ブライダルカンパニー
  38. 38. 4.ビッグデータの分析事例「ログデータ集計基盤」再構築における事例 効果基盤システムの課題 課題1 効果集計データ及びロジックが分散かつ複雑 → データ品質の悪化 課題2 大量データ処理を高速に行う基盤が存在しない → 集計工数の肥大 化 SCログ集 計処理 ログ集計 ログ集計 処理1 処理2 課題1 データとロジックが分散。 課題2 大量データを高速 データ品質の悪化を招く に扱えない 38
  39. 39. 4.ビッグデータの分析事例「ログデータ集計基盤」再構築における事例 事業の分析運用面での課題 課題3 分析は手作業中心。データ取得方法も異なる → 分析業務の効率が悪い 課題4 データが分散。十分な分析ができない → 集客ほか効果増に繋がらない データ加工 課題4 データ分散により効 果に繋がる分析ができない 課題3 手作業&異なるデータ取 得方法により効率が悪い 39
  40. 40. 4.ビッグデータの分析事例「ログデータ集計基盤」再構築で目指したこと システム面で目指す状態 理想1 効果データ・集計ロジックが集約されデータ品質が良い 理想2 大量データの高速処理が可能であり、対応工数が抑えられる 分析運用面で目指す状態 理想3 効果分析業務が最適に効率化されている 理想4 様々なデータを効果分析に利用することができる 40
  41. 41. 4.ビッグデータの分析事例打ち手を整理すると… 理想1 効果データ・集計ロジックの集約 データの 一元管理 理想2 大量データの高速処理の実現 理想3 効果分析業務の効率化 大量データ 理想4 多様なデータの分析を可能に の高速処理 41
  42. 42. 4.ビッグデータの分析事例【システム化 対応前】 既存システムD 既存システムE既存システムA I/F I/F 集計① 集計結果 DBデータ・ログ既存システムB ファイルなどの収集 整形② 営業・顧 客 整形①既存システムC マスタデータの整形 既存システムF やアクセスログの整 形 整形③ 集計② 集計結果 ASP 既存システムG MP サイカタ I/F 集計
  43. 43. 4.ビッグデータの分析事例【システム化 対応後】 既存システムD Hadoop EUC 既存システムE既存システムA I/F 集計結果 DBデータ・ログ既存システムB ファイルなどの収集 ② 集計結果 集計 営業・顧 客既存システムC 既存システムF 整形① ③ 他システム 連携 集計結果 ASP MP サイカタ
  44. 44. 4.ビッグデータの分析事例主な効果(一部のみ紹介) 理想1 効果データ・集計ロジックの集約 データ遡及工数削減(▲60%) 理想2 大量データの高速処理の実現 14時間の集計処理→15分 理想3 効果分析業務の効率化 分析工数の削減(▲85%) 理想4 多様なデータの分析を可能に アトリビューション分析の実現 上記以外にも副次的な効果が多数 44
  45. 45. 4.ビッグデータの分析事例その他にも… 1週間分のログをクレメンタインで 約8万人に レコメンド計算 レコメンド 約20万人に CVRは レコメンド 1.6倍に 1年半分 でレコメンド計算 アソシエーションルールによる レコメンドエリアの算出 下まで閲覧すると レコメンドバナー表出 45
  46. 46. 4.ビッグデータの分析事例 リスティング分事業A サイト横断 施策シェア分析 クチコミ分析 析事業B サイト間 モニタリング レコメンド KWD×LP分析 クロスUU 指標事業C 予約分析 調査事業D メルマガ施策 BI KPIモニタリン メール通数分析 現行応募相関 ステータス分析事業E グ 自然語解析 行動ターゲティング LPO事業F レコメンド ログ分析 メールレコメン事業G 自然語解析 需要予測 クレンジング 領域間クロス ド 集客モニタリン 需要予測 レコメンド 共通バナー事業H UU グ カスタマープロファイル 商材分析 クライアントHP分析 カスタマートラッキング KPIモニタリン アクション数予事業I 効果集計 グ 測事業J 価格分析 レコメンド クラスタリング クチコミ分析事業K レコメンド事業L レコメンド事業M 効果見立て分析 46 46
  47. 47. 4.ビッグデータの分析事例 リスティング分事業A サイト横断 施策シェア分析 クチコミ分析 析 サイト間事業B 13事業に対し、 クロスUU モニタリング 指標 レコメンド KWD×LP分析事業C 予約分析 調査事業D メルマガ施策 BI KPIモニタリン 年間100件超の メール通数分析 現行応募相関 ステータス分析事業E グ 自然語解析 行動ターゲティング LPO事業F レコメンド ログ分析 メールレコメン事業G 自然語解析 需要予測 クレンジング 領域間クロス ド 集客モニタリン データ利活用 需要予測 レコメンド 共通バナー事業H UU グ カスタマープロファイル 商材分析 クライアントHP分析 カスタマートラッキング KPIモニタリン アクション数予事業I 効果集計 グ 測事業J 価格分析 レコメンド クラスタリング クチコミ分析事業K レコメンド事業L レコメンド を展開中事業M 効果見立て分析 47 47
  48. 48. 5.今後の展望
  49. 49. 5.今後の展望 DWH KVS or RDB 49
  50. 50. 5.今後の展望 with 自然言語処理 DWH KVS :Hadoop+Mahout(マイニング)+Lucene(形態素分解)ほか 活用 or ➤ クチコミ分析、レコメンドメールなどへ応用展開 RDB with リアルタイム分析 :S4・STORM(リアルタイム分散処理プラットフォーム) ほか 活用 ➤ リアルタイムレコメンド、フラッシュマーケティングなど with スマートデバイス :音声解析(Siri)・位置情報の取り込み、画像データの取り込み ほか ➤ ユーザ属性×GPS(行動履歴)分析による店舗情報プッシュなど 50
  51. 51. 5.今後の展望最新情報はHadoopカンファレンスにて! 2011年度の開催実績 ・会場:ベルサール汐留 ・参加人数:約1,000名 ・講演:Cloudera社 Todd Lipcon氏 ほか ・特色:専用のQAサイト、無料ランチ提供本年度もカンファレンス開催予定で す。ご興味のある方は ぜひ足を運んでください! 51
  52. 52. さいごにリクルート MIT Unitedは、2012年10月1日の分社化によりリクルートテクノロジーズ という会社に生まれ変わります【ミッション】リクルートグループ各社の エンジニアの方は、ぜひ現在・将来のニーズを見据えて 弊社サイトにアクセス下さ競合優位性の高いIT・ネットマーケティング基盤を い!開拓・実装・展開・運用することにより http://recruit-tech.co.jpリクルートグループの競争優位を構築していく 52
  53. 53. ご清聴ありがとうございまし た

×