Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

「リクルートデータセット」 ~公開までの道のりとこれから~

2,668 views

Published on

2015/11/24 WebDBフォーラム2015での、櫻井の講演資料になります

Published in: Technology
  • Be the first to comment

「リクルートデータセット」 ~公開までの道のりとこれから~

  1. 1. 「リクルートデータセット」 ~ 公開までの道のりとこれから ~ A-1: 特別セッション1 産学間のデータセット共有の意義、 課題と将来の展望
  2. 2. 自己紹介 櫻井 一貴 Kazutaka Sakurai 株式会社リクルートテクノロジーズ 経営企画部 経営企画グループ 兼 アドバンスドテクノロジーラボ 情報処理学会DBS研究会 幹事
  3. 3. アジェンダ 1 リクルートとリクルートテクノロジーズ 2 公開したデータセットの概要 3 公開する目的 4 データ公開に向けて感じた悩み 5 今後にむけて
  4. 4. 1-1 リクルートについて
  5. 5. 1-1 リクルートについて 目指す世界観 果たすべき役割
  6. 6. 1-2 リクルートテクノロジーズについて Solutions (IT & Internet marketing) SEO Marketing SupportDevelopment Infrastructure UXD Impact Analysis Smart Device Big Data Solution PC & N/W Support R&D 事業横断でデータを取り扱う ことができるポジション
  7. 7. 2 公開したデータセットの概要
  8. 8. 2 公開したデータセットの概要(事業向け説明資料より) RLS RTC NII B大学 RMP RSC RCA ・・・ RAD A大学 C大学 D大学 ・・・ NII:国立情報学研究所 www.nii.ac.jp/ National Institute of Informatics 情報学という新しい研究分野での「未来価値創 成」を目指す国内唯一の学術総合研究所。ネッ トワーク、ソフトウェア、コンテンツなどの情 報関連分野の新しい理論・方法論から応用展開 までの研究開発を総合的に推進する 情報提供に関する 包括的契約 RTC⇔NII 契約内容の確認 データ提供 学術研究を目的とした データ利用 (@各研究室) 情報利用に関する 包括的契約 契約とりまとめ、 データ加工など
  9. 9. 2 公開したデータセットの概要(利用状況、2014/9~) 申請総数:12 実際に利用: 7 利用準備中: 2 不明 : 3 (国公立大学:3、私立大学8、その他1)
  10. 10. 2 公開したデータセットの概要(実際の活用状況、抜粋) 活用状況 ご意見・感想 ・論文「感情極性値を用いたレビューの有用性自動評価」 ・学部ラボワーク生によるデータ分析実習 ・口コミデータを使った時系列分析、計量テキスト分析 ・自作自演の印象を与える口コミにどのような特徴があるかの分析 ・たくさんの種類のデータがあって、さまざまな角度から分析できる ・データの形式がそろっていない部分があり、扱いにくい ・肯定的なレビューの数の方が圧倒的に多く、学習時などその偏りを どう克服するかが大変だった ・売上データなどもわかると分析の幅が広がるためありがたい
  11. 11. 3 公開する目的 ① CSRの観点 ② 新しい技術やアイディアの獲得 ③ プレゼンス向上・人材獲得 :研究レベル向上のために民間企業として資することのできる余地? :最先端の研究結果をビジネスに接続できないか? :分析しがいのあるデータを保有する企業であることを訴求
  12. 12. 4 データ公開に向けて感じた悩み ① リスクテイク ( パーミッション済みとはいえ”最悪のシナリオ”をどう捉えるか) ② 機能組織ならではの悩み (「データにアクセスできる」↔「データを取り扱う権限を持つ」) ③ ROI? (公開準備タスクもろもろ ↔ [CSR/技術獲得/プレゼンス])
  13. 13. 4 データ公開に向けて感じた悩み ① リスクテイク ( パーミッション済みとはいえ”最悪のシナリオ”をどう捉えるか) ② 横断機能組織ならではの悩み ③ ROI? (公開準備タスクもろもろ ↔ [CSR/技術獲得/プレゼンス]) 「公開をするとどんなリスクがあるのか、万一発生したら問題ないのか」 ※クライアント、カスタマーのデータを活用するため、事業は慎重にならざるをえない ↓ ・想定範囲(学術利用)外に流出する可能性が極めて低いことを説明 ・想定される「最もよくないシナリオ」を列挙、事業に共有をした (例) USBメモリの置き忘れ等でデータが流出したら? (例) 利用者がデータを商用利用したら?
  14. 14. 4 データ公開に向けて感じた悩み ③ ROI? (公開準備タスクもろもろ ↔ [CSR/技術獲得/プレゼンス]) 1)協力(賛同)を得られるサービスを探す >工数割いてまで…リスク… 2)公開対象データの選定 >個人情報含まず、パーミッション済み… 3)データの取得 >自社内securityレベルも高まり、意外と手間 4)データ整形 >マスキング、カラム除外、暗号化… 5)受け渡し ↑ここまで辿り着くのに実は数ヶ月以上も・・・
  15. 15. 5 今後にむけて ① 自社コントロールで活用(ハッカソン他) ② 活用状況の可視化(公開時の事例&公開後の状況) ③ 公開までのタスクの簡素化、効果の可視化
  16. 16. ① 自社コントロールで活用(ハッカソン他)
  17. 17. ② 活用状況の可視化(公開時の事例&公開後の状況) (公開時) →例えばこんな使い方、など自社内でも実際に活用をして 提示することで、利用申請しようとする動機形成に? (公開後) →どれだけ世の役に立っているか、がタイムリーに可視化 されることが事業にとってもモチベーション
  18. 18. ③ 公開までのタスクの簡素化、効果の可視化 (タスク簡素化) →手間・ステップをシンプルにできればより多くのデータ 公開をスピーディに展開できる。ROIも向上する (効果の可視化) →「どれだけ世の役に立っているか」に加え、具体的な ビジネス面での成果が生まれる&可視化されると、事業 のメリットに繋がる
  19. 19. 今後に向けて 今後も可能な限りデータ公開を進めていきたいが、 「いかに高いROIを担保できるか」がポイント
  20. 20. ご清聴ありがとうございました

×