Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

CET (Capture EveryThing)プロジェクトにおける機械学習・データマイニング最前線

16,856 views

Published on

リクルートライフスタイルの全サービス横断で、ログデータ(システム系ログやユーザ行動ログなど)をリアルタイムに収集・可視化・分析するCETプロジェクトでの機械学習・データマイニング活用事例のご紹介

Published in: Data & Analytics

CET (Capture EveryThing)プロジェクトにおける機械学習・データマイニング最前線

  1. 1. CET(Capture EveryThing)プロジェクトにおける 機械学習・データマイニング最前線 高柳慎一 株式会社リクルートコミュニケーションズ ICTソリューション局アドテクノロジーサービス開発部 兼 株式会社リクルートライフスタイル ネットビジネス本部ディベロップメントデザインユニット アーキテクト2 兼 リーン開発グループ
  2. 2. 2 会社&自己紹介
  3. 3. リクルートグループの提供価値 3 リクルート グループ <提供価値> 人生や生活の中で 選択に困った際に その人が必要とする 情報を提供 クライアント (企業) 悩み ユーザ (生活者) 悩み <提供価値> ユーザとの 出会いの機会や 最終的な マッチングを創出
  4. 4. リクルートグループについて 4 ㈱リクルート ホールディングス ㈱リクルートキャリア ㈱リクルートジョブズ ㈱リクルートスタッフィング ㈱スタッフサービス・ホールディングス ㈱リクルートライフスタイル ㈱リクルートマーケティングパートナーズ ㈱リクルート住まいカンパニー ㈱リクルートアドミニストレーション ㈱リクルートテクノロジーズ ㈱リクルートコミュニケーションズ 主な事業会社 機能会社 制作・宣伝・流通・ サービス開発機能 社員募集領域 AP人材募集領域 派遣人材募集領域 本社機能 R&D(事業開発) グローバル 住宅領域 派遣人材募集領域 日常消費領域 結婚・進学・自動車等領域 アドミニストレーション機能 IT/基幹システム開発 リクルートコミュニケーションズ&リクルートライフスタイルはここです
  5. 5. リクルートコミュニケーションズの概要 5 • リクルートコミュニケーションズ – リクルートグループの機能会社 – 制作、流通・宣伝、カスタマーサポート – デジタルマーケティング等の統括的な支援 リクルートコミュニケーションズ メディア 制作 流通・宣伝 カスタマー サポート サポート デジタル マーケティ ング
  6. 6. 6 リクルートライフスタイルのサービス概要
  7. 7. 自己紹介 • CET(Capture EveryThing)プロジェクト、 やリーン開発に伴うABテストなどのデー タ分析/開発を担当 7 http://www.ipsj.or.jp/event/sj/sj2016/IT-F_bigdata.html
  8. 8. 8 CETプロジェクトについて
  9. 9. • リクルートライフスタイルの全サービス横 断で、リアルタイムにデータ(システムロ グ、ユーザの行動、在庫変動など)を収 集・分析するための基盤 • リアルタイムデータ分析に必要な処理(収 集、加工、集計、分析、可視化)を一気通 貫で実施 • 少数精鋭なビジネス系メンバ、データサイ エンティスト、エンジニアでプロジェクト を推進 CETの概要・特徴 9
  10. 10. • サービス・ビジネスに関するあらゆる情報 の変化(ユーザの行動、在庫量の変動な ど)を、我々サービス提供者がリアルタイ ムに把握できていない • その結果、状況に応じて最適な施策を講じ ることができておらず、機会損失が発生し ている CETが解決する課題 10 • リアルタイムなデータに対する適切な処理 を実施することで課題を解決
  11. 11. CETのログ収集システム構成 11 CET – Capture EveryThingサービス サービス 運用者 機械学習 エンジニア データ 分析者 が 活用 ELB Elasticsearch,Kibana BigQuery S3 APIELB Cloud Bigtable *GCP関連製品は技術検証中 Cloud Pub/Sub Cloud Dataproc,Apache Spark 計算結果を格納
  12. 12. • コールセンタでリアルタイムにログをモニタ リング • アプリケーションのスローダウンやユーザ操 作の戸惑いなど、ユーザビリティに関する情 報を迅速に検知し、顧客サポート品質向上に 努める リアルタイムデータ可視化事例 – Airレジ 12
  13. 13. • Spark Streamingを使用してウインドウ集計を 実施 • 定期的に直近のユーザ行動ログを集計し、宿 ページごとのUU数をリアルタイムに算出 ストリームデータ処理事例1 – じゃらん 13
  14. 14. • Spark Streamingを使用してログを定期的に集計 • 処理時間が特定のしきい値を超えるログの件数を URLごとに集計し、結果をサービス運用者へ通知 ストリームデータ処理事例2 – サービス共通 CET – Capture EveryThingサービス サービス 運用者 ELB Cloud Pub/Sub Cloud Dataproc Apache Spark 14 Amazon SNS AWS Lambda メール Slack
  15. 15. ストリームデータ処理事例3 – 直近閲覧状況の可視化 15
  16. 16. 16 CETにおける機械学習/データマイニング
  17. 17. エンジニア兼データ分析者の使うツール群 17 今日は特に を活用した機械学 習/データマイニングの話をししま す!
  18. 18. CETのデータ分析環境 18 AWS S3 Elastic Search TreasureData RedShift Spark Notebook Docker ※一部試験環境用 AWS S3 Cloud Bigtable RUNDECK ※サーバ・バッチ起動管理 分析用サーバ(EC2) Spark用サーバ(EMR)
  19. 19. Rを活用した機械学習/データマイニングの流れ • データの取得 – COLDデータ: 数億件のレコードをRedShift, TreasureDataで捌いて特徴量抽出/生成 – HOTデータ: CETのElastic Searchから取得 • 機械学習/データマイニングの実行 – 1,000万件程度のレコードに対して実施 • 分析環境(AWS) – 基本的にはr3.2xlargeを複数人で使用 – 計算パワーが足りないときは💰で殴る (インスタンスのグレードを上げる) • サービスへの展開 – BigTableに格納し、結果をAPI化 19
  20. 20. 社内用パッケージの開発 • DB接続・IDマスキング・AUC計算などの よくやる処理をパッケージとして共通化 20
  21. 21. 顧客のクラスタリング • 時系列データのクラスタリングを実施 • あるクラスタに属するユーザに対して、 サービス改善の施策を提案 21 関連・使用しているRのパッケージなど ・秘密のマエショリ ・dplyr, tidyr, rls(いつもの)※クラスタリング結果(同一クラスタに属するもの)
  22. 22. XXしそうなユーザの判定 • ユーザの行動に応じて、画面選択の省略やデフォ ルト値の変更を行う • 多値クラス分類問題を解いて、デフォルトの選択 肢を用意する 22 関連・使用しているRのパッケージなど ・ranger ・dplyr, tidyr, rls(いつもの)
  23. 23. 人気上昇ランキング • じゃらんの全宿の”予約速度”を計算し、ス コアリング。人気度に応じた文言を表示 23 関連・使用しているRのパッケージなど ・RcppRoll ・dplyr, tidyr, rls(いつもの)
  24. 24. • 在庫変動データに基づいた、在庫売り切れ予測 • 予約が急激入り始める時点の予測 • 多腕バンディットアルゴリズムを活用した配信 • リアルタイム異常検知 ※すべてを でやるわけではない 今後対応を検討していること 24
  25. 25. 25 機械学習/データマイニングエンジニアの スキル向上の施策
  26. 26. 手を動かしながら学ぶ機械学習 26 手を動かしながら学ぶ機械学習 クラスタリング・回帰・自然言語処理までを手を動かしながら 順にお勉強するという企画
  27. 27. 機械学習大会 27 機械学習大会 某機械学習サイトにインスパイアされたサイト(Play frameworkで内製)。 予測結果をアップロードすると結果の計算&順位付けを行う (※この大会は、ほぼ皆某Deepでやってました…)
  28. 28. 論文輪読会 28 論文輪読会 テーマは自由&論文の時期も自由、ただし「発表者本人が これから勉強したいこと」が条件
  29. 29. あれやこれやの詳細は… 29 懇親会で!!!
  30. 30. 30 補足
  31. 31. • SparkRをEC2上で動かして分散処理して みる | Tech Blog | リクルートライフスタ イル RECRUIT LIFESTYLEhttp://engineer.recruit- lifestyle.co.jp/techblog/2015-08-19- sparkr/ • 第4回 [データ分析編]“制約なし”で大 規模データ分析基盤を構築:リクルートラ イフスタイルの技術力を追え!|gihyo.jp … 技術評論社 http://gihyo.jp/dev/serial/01/recruit- lifestyle/0004 (補足)関連資料 1/2 31
  32. 32. • リクルートライフスタイル全サービス横断 のリアルタイムログ収集・可視化・分析基 盤@JAWS-UG Meguro #2 http://www.slideshare.net/RecruitLifes tyle/ss-53400381 • 「ビッグデータは“リアルタイム”でこそ価 値がある」CETエンジニア 吉田啓二氏イ ンタビュー | Tech Blog | リクルートライ フスタイル RECRUIT LIFESTYLE http://engineer.recruit- lifestyle.co.jp/techblog/2015-11-02- yoshida-interview-1/ (補足)関連資料 2/2 32

×