Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

「リクルートデータセット」 ~公開までの道のりとこれから~

1,619 views

Published on

2016/11/30 IDRユーザフォーラム 2016での、櫻井の講演資料になります

Published in: Technology
  • Login to see the comments

  • Be the first to like this

「リクルートデータセット」 ~公開までの道のりとこれから~

  1. 1. 「リクルートデータセット」 ~ 公開までの道のりとこれから ~ IDRユーザフォーラム 2016 パネルセッション ♥
  2. 2. 自己紹介 櫻井 一貴 Kazutaka Sakurai 株式会社リクルートテクノロジーズ 経営企画部 経営企画グループ 兼 アドバンスドテクノロジーラボ 情報処理学会 DBS研究会 幹事 関西学院大学 社会情報学研究センター 客員研究員
  3. 3. アジェンダ 1 リクルートとリクルートテクノロジーズ 2 公開したデータセットの概要 3 公開する目的 4 データ公開に向けて感じた悩み 5 今後にむけて
  4. 4. 1-1 リクルートについて 私たちは、誰かと誰かを結ぶ「場」を提供しています
  5. 5. 1-1 リクルートについて 主なビジネスドメイン
  6. 6. 1-1 リクルートについて 主なビジネスドメインと代表的なサービス
  7. 7. 1-2 リクルートテクノロジーズについて Solutions (IT & Internet marketing) SEO Marketing SupportDevelopment Infrastructure Service Design Impact Analysis Smart Device Big Data Solution PC & N/W Support R&D 事業横断でデータを取り扱う ことができるポジション
  8. 8. 2 公開したデータセットの概要
  9. 9. 2 公開したデータセットの概要(枠組み:事業向け説明資料より) RLS RTC NII B大学 RMP RSC RCA ・・・ RAD A大学 C大学 D大学 ・・・ NII:国立情報学研究所 www.nii.ac.jp/ National Institute of Informatics 情報学という新しい研究分野での「未来価値創 成」を目指す国内唯一の学術総合研究所。ネッ トワーク、ソフトウェア、コンテンツなどの情 報関連分野の新しい理論・方法論から応用展開 までの研究開発を総合的に推進する 情報提供に関する 包括的契約 RTC⇔NII 契約内容の確認 データ提供 学術研究を目的とした データ利用 (@各研究室) 情報利用に関する 包括的契約 契約とりまとめ、 データ加工など
  10. 10. 2 公開したデータセットの概要(利用状況) 申請総数:20 (国公立大学:6) (私立大学:12) (その他:2)
  11. 11. 2 公開したデータセットの概要(実際の活用状況、抜粋) 主な活用状況 ご意見・感想 ・論文「感情極性値を用いたレビューの有用性自動評価」 ・論文「価値観ベース協調フィルタリングのユーザ特性解析による 推薦性能向上に関する研究」(修士論文) ・口コミデータを使った時系列分析、計量テキスト分析 ・自作自演の印象を与える口コミにどのような特徴があるかの分析 ・たくさんの種類のデータがあって、さまざまな角度から分析できる ・データの形式がそろっていない部分があり、扱いにくい ・肯定的なレビューの数の方が圧倒的に多く、学習時などその偏りを どう克服するかが大変だった ・売上データなどもわかると分析の幅が広がるためありがたい
  12. 12. 3 公開する目的 ① CSRの観点 ② 新しい技術やアイディアの獲得 ③ プレゼンス向上 :研究レベル向上のために民間企業として資することのできる余地? :最先端の研究結果をビジネスに接続できないか? :分析しがいのあるデータを保有する企業であることを訴求
  13. 13. 4 データ公開に向けて感じた悩み ① リスクテイク ( パーミッション済みとはいえ”最悪のシナリオ”をどう捉えるか) ② 機能組織ならではの悩み (「データにアクセスできる」↔「データを取り扱う権限を持つ」) ③ ROI? (公開準備タスクもろもろ ↔ [CSR/技術獲得/プレゼンス])
  14. 14. 4 データ公開に向けて感じた悩み ① リスクテイク ( パーミッション済みとはいえ”最悪のシナリオ”をどう捉えるか) 「公開をするとどんなリスクがあるのか、万一発生したら問題ないのか」 ※クライアント、カスタマーのデータを活用するため、事業は慎重にならざるをえない ↓ ・想定範囲(学術利用)外に流出する可能性が極めて低いことを説明 ・想定される「最もよくないシナリオ」を列挙、事業に共有をした (例) USBメモリの置き忘れ等でデータが流出したら? (例) 利用者がデータを商用利用したら?
  15. 15. 4 データ公開に向けて感じた悩み ② 機能組織ならではの悩み (「データにアクセスできる」⇔「データを取り扱う権限を持つ」)
  16. 16. 4 データ公開に向けて感じた悩み ③ ROI? (公開準備タスクもろもろ ↔ [CSR/技術獲得/プレゼンス]) 1)協力(賛同)を得られるサービスを探す >工数割いてまで…リスク… 2)公開対象データの選定 >個人情報含まず、パーミッション済み… 3)データの取得 >自社内securityレベルも高まり、意外と手間 4)データ整形 >マスキング、カラム除外、暗号化… 5)受け渡し ↑ここまで辿り着くのに実は数ヶ月以上も・・・
  17. 17. 5 今後にむけて ~とはいえ前向きにデータ公開を推進するために ① 自社コントロールで活用(ハッカソン他) ② データの多様化(ビッグデータの “3V”) ③ 公開までのタスクの簡素化、効果の可視化
  18. 18. ① 自社コントロールで活用(ハッカソン他) 今期も開催します!絶賛エントリー受付中! (2017/3/27-31) タスクの設定 データからの発想 事業からのF/B
  19. 19. ② データの多様化(ビッグデータの “3V”) Variety Verocity Volume
  20. 20. ② データの多様化(ビッグデータの “3V”)
  21. 21. ② データの多様化(ビッグデータの “3V”)
  22. 22. ③ 公開までのタスクの簡素化、効果の可視化 (タスク簡素化) →手間・ステップをシンプルにできればより多くのデータ 公開をスピーディに展開できる。ROIも向上する (効果の可視化) →「どれだけ世の役に立っているか」に加え、具体的な ビジネス面での成果が生まれる&可視化されると、事業 のメリットに繋がる
  23. 23. 今後に向けて 「いかに高いROIを担保できるか」を意識しつつ、 Variety を豊富にできないか、検討していきたい
  24. 24. (大事なことなのでもう一度!) 今期も開催します!絶賛エントリー受付中! (2017/3/27-31)
  25. 25. ご清聴ありがとうございました

×