Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

チームラボにおけるレコメンデーション精度改善の取り組みについて(WebDBForum 2017)

118 views

Published on

2017/9/18〜9/20 に開催された WebDB Forum 2017 のテクノロジーショーケースで発表した資料です。

Published in: Technology
  • Be the first to comment

  • Be the first to like this

チームラボにおけるレコメンデーション精度改善の取り組みについて(WebDBForum 2017)

  1. 1. チームラボ 株式会社 teamLab Inc. TEL: 03-5804-2356 MAIL: info@team-lab.com URL: http://www.team-lab.com/ チームラボにおけるレコメンデーション精度改善の 取り組みについて 2017/09/20 WebDB Forum 2017
  2. 2. We are the future. Copyright (C) teamLab Inc.All rights reserved. WebDB Forum 2017 - 2017/09/20 自己紹介 2 林 輝大(はやし きだい) 職種:エンジニア 仕事:主にレコメンドパッケージの導入やサイト分析 経歴:長野高専専攻科    →チームラボ2012年新卒で入社 研究:自然言語処理
  3. 3. We are the future. Copyright (C) teamLab Inc.All rights reserved. WebDB Forum 2017 - 2017/09/20 チームラボとは? 3 ウルトラテクノロジスト集団(社員500名弱) プログラマ(アプリケーションプログラマ、ユーザーインター フェイスエンジニア、 DBエンジニア、ネットワーク エンジニア)、ロボットエンジニア、数学者、建築家、 Webデザイナー、グラフィックデザイナー、 CGアニメー ター、編集者 様々なスペシャリストが一つの空間に集まり、密にコミュニケーションを取って、思想 と価値を共有させながらものづくりを行う
  4. 4. We are the future. Copyright (C) teamLab Inc.All rights reserved. WebDB Forum 2017 - 2017/09/20 チームラボとは? 4 Engineers (70%) WEBエンジニア WEBプロダクトエンジニア WEBフロントエンドエンジニア スマートフォンエンジニア インタラクティブエンジニア データサイエンティスト 空間演出エンジニア 機械学習エンジニア others (5%) ブランディングチーム バックオフィス など Catalysts (15%) プランニング ディレクション プロジェクト管理 などを行うチーム Designers (10%) Webデザイナー グラフィックデザイナー CGアニメーター 絵師
  5. 5. We are the future. Copyright (C) teamLab Inc.All rights reserved. WebDB Forum 2017 - 2017/09/20 チームラボの仕事内容 5 Web スマホアプリ データ分析 実空間 ソリューション アート その他 仕事のほとんどが、 Webサイトやスマホアプリ などの保守・開発です。 露出の多いアートや実空間 ソリューションのお仕事は 3割ほどです。
  6. 6. We are the future. Copyright (C) teamLab Inc.All rights reserved. WebDB Forum 2017 - 2017/09/20 将来の分析に備えてWebサイト内データを収集するための基盤があります。 基盤などを利用した分析結果を元に、お取引先様と一緒にPDCAサイクルを 回します。 また後述のレコメンデーションを基軸としたサイト改善も行っております。 Webサイトの分析 6 課題確認 分析軸決定 ユーザ履歴抽出 目視確認 仮説をたてる ユーザ行動 パターン分類 パターン毎に 施策提案 パターン毎に 実施検証 効果がみられない場合、再度検討
  7. 7. We are the future. Copyright (C) teamLab Inc.All rights reserved. WebDB Forum 2017 - 2017/09/20 事例 離脱防止としてのレコメンド オーガニック検索からの直流入を逃さないために商材への導線を増やす 販売促進としてのレコメンド 購買意欲が高まっている購買完了画面で、次に購入するための近道として 色んな商材への導線を増やす 特集・バナー・メール配信のパーソナライズ化 ユーザーの行動から好みそうなコンテンツを推測・提供をすることで、 通常の施策以上の効果を見込む 7
  8. 8. We are the future. Copyright (C) teamLab Inc.All rights reserved. WebDB Forum 2017 - 2017/09/20 チームラボレコメンデーション チームラボレコメンデーションというパッケージがあります。 導入先のECサイトやアプリなどで、取り扱っている商材や記事などを オススメする機能を提供しております。 協調フィルタリングを元にした独自のアルゴリズムを利用しております。 20社以上に導入頂いております。 導入事例: ● アパレルECサイト (月間3,000万超PV、商品点数30万点以上) ● 求人サイト (月間1,000万超PV、案件数15万件以上) ● etc … 8
  9. 9. We are the future. Copyright (C) teamLab Inc.All rights reserved. WebDB Forum 2017 - 2017/09/20 チームラボレコメンデーションの特徴 9 リアルタイムにレコメンド結果が変化 (数百万規模の商品でも可能) 細かなチューニングが可能
  10. 10. We are the future. Copyright (C) teamLab Inc.All rights reserved. WebDB Forum 2017 - 2017/09/20 レコメンドのチューニング レコメンドに関するパラメータを調整することで精度向上を目指す パラメータは大きく分けて2つ 10 デザインに関連するもの 見た目が変わるので、 クリックに大きな影響を与えます。 ● 表示件数 例:10件 or 20件 ● 表示要素 例:値段を出す or 出さない ● 表示デザイン 例:カルーセル or もっとみる ロジックに関連するもの レコメンドの内容が変化するため、 クリック後の行動に影響します。 ● 商品属性での絞り込み 例:1,000円以上の商品に限定 ● 計算に使用するログの量と 種類を増やす ● パーソナライズレコメンドに 利用するログの件数を変える
  11. 11. We are the future. Copyright (C) teamLab Inc.All rights reserved. WebDB Forum 2017 - 2017/09/20 レコメンドの問題点 ある程度は精度をあげることができるが、 アルゴリズムが持つ根本的な原因を回避しきれるわけではない。 問題点(ログベースの推薦アルゴリズム特有) ・ログの少ない商品からのオススメが微妙(新作商品など) ・人気な商品を閲覧することでオススメ内容がガラリと変わる レコメンドのアルゴリズムを修正することで根本的な問題の解決を図る 11
  12. 12. We are the future. Copyright (C) teamLab Inc.All rights reserved. WebDB Forum 2017 - 2017/09/20 問題点の改善のために 新エンジンの開発、実験を日々行っております。 現在の取り組み ログの少ない商品のオススメ精度向上するための手法を検討中です。 今回はDNNを用いた実験をご紹介します。 12
  13. 13. We are the future. Copyright (C) teamLab Inc.All rights reserved. WebDB Forum 2017 - 2017/09/20 実験に用いた手法 ● Wangらが2015年に提案した Collaborative Deep Learning (CDL) を利用 ○ H. Wang, N. Wang and D.-Y. Yeung, In Proceedings of KDD’15, 2015 ● 協調フィルタリングの実現方法の一つである Matrix Factorization に Neural Network を組み合わせ、アイテムの情報を潜在変数に導入した モデル 13
  14. 14. We are the future. Copyright (C) teamLab Inc.All rights reserved. WebDB Forum 2017 - 2017/09/20 予備知識:Matrix Factorization Matrix Factorization (行列因子分解) は以下のようにユーザ毎、アイテム毎の 潜在変数の内積が評価値となるというモデルを元に潜在変数を計算する手法 である 14
  15. 15. We are the future. Copyright (C) teamLab Inc.All rights reserved. WebDB Forum 2017 - 2017/09/20 手法の選出理由 ● アイテムの特徴として画像や説明文が利用できる。 (ログ不足でのレコメンド精度の解消に期待が持てそう) 15
  16. 16. We are the future. Copyright (C) teamLab Inc.All rights reserved. WebDB Forum 2017 - 2017/09/20 画像などの高次元データに対応 ● 中間層から潜在変数の間に1層の線形変換を導入 ● Convolution Layer を導入 Wangらの手法との相違点 1/2 16 Wangらの手法では入力データは文章の Bag-of-Wordsであり、画像と比較すると 次元が低い。 そのため、Wangらのモデルでは Autoencoderの中間層の次元が潜在変 数の次元に束縛されており、画像などの 高次元データを入力した場合に Autoencoderの学習がうまく進まない現 象が発生した。 FC
  17. 17. We are the future. Copyright (C) teamLab Inc.All rights reserved. WebDB Forum 2017 - 2017/09/20 Wangらの手法との相違点 2/2 Implicit Feedback※ を導入 ● 出力行列Rを{0, 1}要素の行列とする ● ユーザ i がアイテム j を複数個・複数回購入したとき Rij =1 という情報に 大きい重みを付与して潜在変数の更新を行う手法 ※ Y.F. Hu, Y. Koren, and C. Volinsky, “Collaborative Filtering for Implicit Feedback Datasets,” Proc. IEEE Int’l Conf. Data Mining (ICDM 08), IEEE CS Press, 2008, pp. 263-272. 17 レーティング: ★★☆☆☆ 購買したか Yes(1) / No(0) 1回購買した 10回購買した
  18. 18. We are the future. Copyright (C) teamLab Inc.All rights reserved. WebDB Forum 2017 - 2017/09/20 データセット ● 大手アパレルサイトの2017年7月分の購買データを使用 (ユーザ数:15万、アイテム数:7万、レコード数:33万件) ● アイテムの情報として商品画像を利用 ● 各ユーザごとに購入したアイテムのうち2割をランダムに隠して テストデータとした 評価 ● Mean Average Precision@10 (MAP@10) で評価 (次頁) 上記を元に、既存のシステムと比較実験を行った 比較実験 18
  19. 19. We are the future. Copyright (C) teamLab Inc.All rights reserved. WebDB Forum 2017 - 2017/09/20 Mean Average Precision@10 (MAP@10) の定義 評価指標 19 テストセットにおけるユーザ u についての購買アイテム数 k 番目にレコメンドされたアイテムが Positive なら1となる関数 k 番目までのレコメンドされた中での Precision ユーザ u に対してレコメンドされたアイテム個数
  20. 20. We are the future. Copyright (C) teamLab Inc.All rights reserved. WebDB Forum 2017 - 2017/09/20 Result (64x64) 20 学習データに含まれる 商品の結果上位 学習データに含まれ ていない商品の 結果上位 ユーザーの 購買データ
  21. 21. We are the future. Copyright (C) teamLab Inc.All rights reserved. WebDB Forum 2017 - 2017/09/20 Result naive MFのが一番精度が出る結果となった 21
  22. 22. We are the future. Copyright (C) teamLab Inc.All rights reserved. WebDB Forum 2017 - 2017/09/20 ● CDL > 既存レコメ ○ リアルタイム性は失われるものの、精度の改善が期待できる ● MF > CDL ○ 論文とは異なる結果になった ○ 画像データを入力としているため、うまく適用できていない可能性 ○ 説明文での実験、ネットワークの見直し、ログがない商品だけでの評価 それぞれの手法の長所で補い合うようなエンジンの開発に取り組んでいきたい その他の懸念事項 ● コスト面での不安 ○ 学習頻度を検討することによって改善の可能性 ○ 例:DNN部分は月一回の更新、 MF部分は毎日更新 ● データ量での不安 ○ ユーザー数、アイテム数、ログの数 に線形で計算量が増加 ○ 例:33万件→3000万件 線形(100倍時間かかる) 考察と課題 22
  23. 23. We are the future. Copyright (C) teamLab Inc.All rights reserved. WebDB Forum 2017 - 2017/09/20 ● チームラボの仕事のほとんどはWeb関連 ● チームラボレコメンデーションを基軸としたサイト改善を行っている ● チームラボレコメンデーションは協調フィルタリングをベースとした システムで、ログベースのレコメンドの問題点を含んでいる ● CDLで既存レコメンドの精度を上回ったが、画像の特徴を活かせていない ● それぞれの手法の長所で補い合うようなエンジンの開発に取り組みたい まとめ 23
  24. 24. We are the future. Copyright (C) teamLab Inc.All rights reserved. WebDB Forum 2017 - 2017/09/20 質疑応答 24

×