Word2Vecによる次元圧縮と
重回帰分析型協調フィルタリング
藤井 流華  岡本 一志
1 2
電気通信大学 情報理工学部 総合情報学科
電気通信大学 大学院情報理工学研究科 情報学専攻
1
2
!12017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
はじめに
!2
協調フィルタリング
情報推薦システム
アイテム(商品や店舗,記事など)の内容や特徴,

好みの度合いなどからユーザが好みそうなアイテムを予測するシステム
購入履歴やアイテムに付与されたスコアなどから,

類似ユーザ・アイテムの発見や付与されるスコアを予測する手法
?
ユーザ-アイテム行列
• Top-Nレコメンド

• スコア予測
ユーザ-アイテム行列を用いて

?のスコアを予測する
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
協調フィルタリングの手法
!3
モデルベース法
メモリベース法
• ユーザやアイテムの類似関係からスコアを予測する手法

• 推薦のたびに全てのユーザやアイテムについて近傍探索を実行
• 学習アルゴリズムに基づいてスコアの予測モデルを構築する手法

• 学習処理が必要だが推薦(予測)処理は低計算コスト
例 - ユーザベース協調フィルタリング

  - アイテムベース協調フィルタリング
例 - ベイジアンネットワーク

  - 行列因子分解
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
推薦システムにおける説明
!4
推薦システムの説明における役割 [Tintarev, 2007]
• 信頼性:ユーザのシステムに対する信頼を向上させる情報を提供

• 有効性:ユーザが良い決定を行うのを助ける情報を提供

• 透明性:なぜそのアイテムが推薦されたかの情報を提供
推薦に透明性があると,ユーザは推薦されたアイテムを好みやすい
[Herlocker+, 2000], [Shinha+, 2002], [Gedilki+, 2014]
→ 協調フィルタリングではメモリベース法が主流
モデルベース協調フィルタリングで推薦の透明性を実装
Herlocker, J. L., Konstan, J. A., and Riedl, J.: Explaining Collaborative Filtering Recommendations, Proc. of the 2000 ACM Conf. on Computer
Supported Cooperative Work, pp. 241–250, 2000
Tintarev, N.: Explaining Recommendedions, Proc. of Int. Conf. on User Modeling, pp. 470-474, 2007
Sinha, R. and Swearingen, K.: The Role of Transparency in Recommender Systems, Proc. of SIGCHI Conf. on Human Factors in Computing
Systems, pp. 830-831, 2002
Gedikli, F., Jannach, D., and MouzhiGe: How Should I Explain? A Comparison of Different Explanation Types for Recommender Systems, Int. J.
of Human-Computer Studies, Vol. 72, No. 4, pp. 367–382, 2014
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
モデルベース協調フィルタリング
!5
学習の計算コスト
重回帰分析 < ベイジアンネットワーク
手法 スコア予測 推薦の透明性
Matrix Factorization
非負値行列因子分解
ベイジアンネットワーク
重回帰分析
y = ↵0 + ↵1x1 + ↵2x2 + · · · + ↵nxn
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
研究目的
!6
協調フィルタリングにおける課題
目的アイテムのスコア予測だけでなく,

予測に影響を与える他のアイテムの推定技術の開発
• ユーザ−アイテム行列は巨大で疎性が強い

 → 学習に使用できる観測データが少なくなる傾向

• 重回帰分析は変数の数に対して観測データ数が10倍程度必要

• 想定される解決法

  - 正則化
- 次元圧縮
[P. Peduzzi+, 1995]
Peduzzi, P., Concato, J., Feinstein, A. R., and Holford, T. R.: Importance of Events Per
Independent Variable in Proportional Hazards Regression Analysis II. Accuracy and Precision of
Regression Estimates, J. of Clinical Epidemiology, Vol. 48, No. 12, pp. 1503-1510, 1995.
重回帰分析の協調フィルタリングへの応用
→ 評価されているところのみを学習する

  Word2Vecを用いることで高速に学習
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
重回帰分析型協調フィルタリング
!7
予測モデル(正則化法)
ˆy = ↵0 + x↵
予測モデル(次元圧縮法)
ˆy = β0 + xWβ
次元圧縮
(Word2Vec)
次元
Wn
k
X0
k
m
圧縮空間
X0
= XW
回帰式(次元圧縮法)
y
学習用ユーザ−アイテム行列
アイテム
ユ
ー
ザ X
m n
y
目的変数説明変数
y = β0 + X0
β + R(β)
正則化項
正則化項
学習用ユーザ−アイテム行列 回帰式(正則化法)
アイテム
ユ
ー
ザ X
m n
y
目的変数説明変数
正則化による方法
y = ↵0 + X↵ + R(↵)
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
実験目的
!8
1. 重回帰分析型協調フィルタリングのスコア予測精度を確認
→ 正則化法と次元圧縮法のスコアの予測性能を明らかにする
2. 次元圧縮法において,適切なハイパーパラメータを求める
→ 次元圧縮法において,Word2Vecのハイパーパラメータが
与える影響について検証
 重回帰分析をモデルベース協調フィルタリングとして応用し,

目的アイテムのスコア予測だけでなく,予測に影響を与える

他のアイテムの推定技術の開発
本研究の目的
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
実験環境( 1 / 2 )
!9
重回帰分析 Rのglmnetパッケージを使用
正則化法
• L1正則化

• L2正則化
次元圧縮法
Word2Vecで変数間の相関が想定

 → L1正則化およびL2正則化を適用
使用データ Book Crossing データセット
• ユーザが書籍につけた1~10までのスコアを集計

• ユーザ数: 11,030  書籍数: 104,596  総スコア数: 229,406

• データの収集期間: 2014年8月~9月の1週間
Word2Vecのハイパーパラメータ(次元圧縮法)
• 圧縮次元数:20~200まで20次元ずつ変化させた10種類

• 学習の最大単語数(WS):2~10まで2ずつ変化させた5種類
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
実験環境( 2 / 2 )
!10
回帰式の構築
汎化性能の検証
• 巨大で疎性の強いユーザ−アイテム行列

 → 評価しているユーザ数が少ない傾向

• 交差検証法では,目的変数を評価しているユーザが学習データと

テストデータの両方に含まれることを保証できない

 → 学習モデルを構築できない・予測誤差を検証できない可能性

• ブートストラップ法では,ランダムサンプリングにより学習データ
中の目的変数の数を調整できる
目的変数:評価しているユーザの多い書籍上位100件
(目的変数毎にモデル構築)説明変数:全書籍
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
予測精度の評価
!11
予測誤差 の計算
ブートストラップサンプリング集合
:学習用ユーザ-アイテム行列X
: 訓練集合に  を,テスト集合に を使って推定した予測誤差Xi X
: 訓練集合に  を,テスト集合に を使って推定した予測誤差Xi Xi
: 訓練集合に  を,テスト集合に を使って推定した予測誤差X X
N
{X1, X2, · · · , Xi, · · · , XN }
E(Xi, X)
E(Xi, Xi)
E(X, X)
汎化誤差 = E(X, X) +
1
N
NX
i=1
{E(Xi, X) − E(Xi, Xi)}
MAE ( Mean Absolute Error )
ˆyiyi : 真値 : 予測値
E
MAE =
1
T
TX
i=1
|yi − ˆyi| T : テストデータ数
:ブートストラップ数( =20)N
汎化誤差 経験誤差
ブートストラップ法の汎化誤差の計算
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
L1正則化を適用した場合の汎化誤差
!12
正則化法 次元圧縮法
ウィンドウサイズ2 ウィンドウサイズ10
• 汎化誤差の中央値について,

正則化法は1.08,次元圧縮法は1.27~1.32

• 正則化法のほうが次元圧縮法より0.19~0.24汎化誤差が小さい

• 次元圧縮法について,Word2Vecのハイパーパラメータは

スコア予測に大きく影響を与えていない
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
L2正則化を適用した場合の汎化誤差
!13
正則化法 次元圧縮法
ウィンドウサイズ2 ウィンドウサイズ10
• 汎化誤差の中央値について,

正則化法は1.09,次元圧縮法は1.27~1.32

• 正則化法のほうが次元圧縮法より0.18~0.23汎化誤差が小さい

• 次元圧縮法について,Word2Vecのハイパーパラメータは

スコア予測に大きく影響を与えていない
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
回帰係数の相関
!14
正則化法で得られる回帰係数が正しいと仮定
正則化法と次元圧縮法の回帰係数が類似
→ 正則化法よりも低い計算コストで学習できる次元圧縮法で解析が可能
正則化法と次元圧縮法の回帰係数の類似関係を確認
→ 正則化法と次元圧縮法の回帰係数の相関関係について検証
:学習用ユーザ-アイテム行列X
正則化法の回帰係数
次元圧縮法の回帰係数
X: を重回帰分析して得られた回帰係数
: をハイパーパラメータごとに重回帰分析して

 得られた回帰係数
X
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
正則化法と次元圧縮法の回帰係数の相関
!15
dimension k
correlation
dimension k
L1正則化
dimension k
correlation
dimension k
L2正則化
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
実験のまとめ
!16
1. 重回帰分析型協調フィルタリングのスコア予測精度を確認
2. 次元圧縮法において,適切なハイパーパラメータを求める
汎化誤差の中央値(正則化法:1.08~1.09,次元圧縮法:1.27~1.32)より、
正則化法・次元圧縮法どちらもスコア予測の観点では正しく動作
Word2Vecのハイパーパラメータはスコア予測に影響を与えていない
3. 正則化法と次元圧縮法の回帰係数の相関を調べる
半分の変数には正の相関が、残り半分には負の相関がある
2017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
おわりに
!17
今後の課題
• 回帰係数の相関について解析する

• 別のデータセットを用いても正しく動作するか検証する
研究のまとめ
• 目的
 重回帰分析を協調フィルタリングに応用し、スコア予測だけでなく目的
のアイテムに影響を与える他のアイテムも予測する技術の開発
• 実験
- 正則化法と次元圧縮法のスコアの予測性能を明らかにする

- 次元圧縮法において、Word2Vecのハイパーパラメータが与える影響に

 ついて検証
• 結果
- スコア予測の観点ではどちらも正しく動作

- Word2Vecのハイパーパラメータはスコア予測に影響を与えない

Word2Vecによる次元圧縮と重回帰分析型協調フィルタリングへの応用

  • 1.
    Word2Vecによる次元圧縮と 重回帰分析型協調フィルタリング 藤井 流華  岡本 一志 12 電気通信大学 情報理工学部 総合情報学科 電気通信大学 大学院情報理工学研究科 情報学専攻 1 2 !12017/12/16 第11回Webインテリジェンスとインタラクション研究会 / 17
  • 2.
    2017/12/16 第11回Webインテリジェンスとインタラクション研究会 /17 はじめに !2 協調フィルタリング 情報推薦システム アイテム(商品や店舗,記事など)の内容や特徴, 好みの度合いなどからユーザが好みそうなアイテムを予測するシステム 購入履歴やアイテムに付与されたスコアなどから, 類似ユーザ・アイテムの発見や付与されるスコアを予測する手法 ? ユーザ-アイテム行列 • Top-Nレコメンド • スコア予測 ユーザ-アイテム行列を用いて ?のスコアを予測する
  • 3.
    2017/12/16 第11回Webインテリジェンスとインタラクション研究会 /17 協調フィルタリングの手法 !3 モデルベース法 メモリベース法 • ユーザやアイテムの類似関係からスコアを予測する手法 • 推薦のたびに全てのユーザやアイテムについて近傍探索を実行 • 学習アルゴリズムに基づいてスコアの予測モデルを構築する手法 • 学習処理が必要だが推薦(予測)処理は低計算コスト 例 - ユーザベース協調フィルタリング   - アイテムベース協調フィルタリング 例 - ベイジアンネットワーク   - 行列因子分解
  • 4.
    2017/12/16 第11回Webインテリジェンスとインタラクション研究会 /17 推薦システムにおける説明 !4 推薦システムの説明における役割 [Tintarev, 2007] • 信頼性:ユーザのシステムに対する信頼を向上させる情報を提供 • 有効性:ユーザが良い決定を行うのを助ける情報を提供 • 透明性:なぜそのアイテムが推薦されたかの情報を提供 推薦に透明性があると,ユーザは推薦されたアイテムを好みやすい [Herlocker+, 2000], [Shinha+, 2002], [Gedilki+, 2014] → 協調フィルタリングではメモリベース法が主流 モデルベース協調フィルタリングで推薦の透明性を実装 Herlocker, J. L., Konstan, J. A., and Riedl, J.: Explaining Collaborative Filtering Recommendations, Proc. of the 2000 ACM Conf. on Computer Supported Cooperative Work, pp. 241–250, 2000 Tintarev, N.: Explaining Recommendedions, Proc. of Int. Conf. on User Modeling, pp. 470-474, 2007 Sinha, R. and Swearingen, K.: The Role of Transparency in Recommender Systems, Proc. of SIGCHI Conf. on Human Factors in Computing Systems, pp. 830-831, 2002 Gedikli, F., Jannach, D., and MouzhiGe: How Should I Explain? A Comparison of Different Explanation Types for Recommender Systems, Int. J. of Human-Computer Studies, Vol. 72, No. 4, pp. 367–382, 2014
  • 5.
    2017/12/16 第11回Webインテリジェンスとインタラクション研究会 /17 モデルベース協調フィルタリング !5 学習の計算コスト 重回帰分析 < ベイジアンネットワーク 手法 スコア予測 推薦の透明性 Matrix Factorization 非負値行列因子分解 ベイジアンネットワーク 重回帰分析 y = ↵0 + ↵1x1 + ↵2x2 + · · · + ↵nxn
  • 6.
    2017/12/16 第11回Webインテリジェンスとインタラクション研究会 /17 研究目的 !6 協調フィルタリングにおける課題 目的アイテムのスコア予測だけでなく, 予測に影響を与える他のアイテムの推定技術の開発 • ユーザ−アイテム行列は巨大で疎性が強い
  → 学習に使用できる観測データが少なくなる傾向 • 重回帰分析は変数の数に対して観測データ数が10倍程度必要 • 想定される解決法   - 正則化 - 次元圧縮 [P. Peduzzi+, 1995] Peduzzi, P., Concato, J., Feinstein, A. R., and Holford, T. R.: Importance of Events Per Independent Variable in Proportional Hazards Regression Analysis II. Accuracy and Precision of Regression Estimates, J. of Clinical Epidemiology, Vol. 48, No. 12, pp. 1503-1510, 1995. 重回帰分析の協調フィルタリングへの応用 → 評価されているところのみを学習する   Word2Vecを用いることで高速に学習
  • 7.
    2017/12/16 第11回Webインテリジェンスとインタラクション研究会 /17 重回帰分析型協調フィルタリング !7 予測モデル(正則化法) ˆy = ↵0 + x↵ 予測モデル(次元圧縮法) ˆy = β0 + xWβ 次元圧縮 (Word2Vec) 次元 Wn k X0 k m 圧縮空間 X0 = XW 回帰式(次元圧縮法) y 学習用ユーザ−アイテム行列 アイテム ユ ー ザ X m n y 目的変数説明変数 y = β0 + X0 β + R(β) 正則化項 正則化項 学習用ユーザ−アイテム行列 回帰式(正則化法) アイテム ユ ー ザ X m n y 目的変数説明変数 正則化による方法 y = ↵0 + X↵ + R(↵)
  • 8.
    2017/12/16 第11回Webインテリジェンスとインタラクション研究会 /17 実験目的 !8 1. 重回帰分析型協調フィルタリングのスコア予測精度を確認 → 正則化法と次元圧縮法のスコアの予測性能を明らかにする 2. 次元圧縮法において,適切なハイパーパラメータを求める → 次元圧縮法において,Word2Vecのハイパーパラメータが 与える影響について検証  重回帰分析をモデルベース協調フィルタリングとして応用し, 目的アイテムのスコア予測だけでなく,予測に影響を与える 他のアイテムの推定技術の開発 本研究の目的
  • 9.
    2017/12/16 第11回Webインテリジェンスとインタラクション研究会 /17 実験環境( 1 / 2 ) !9 重回帰分析 Rのglmnetパッケージを使用 正則化法 • L1正則化 • L2正則化 次元圧縮法 Word2Vecで変数間の相関が想定  → L1正則化およびL2正則化を適用 使用データ Book Crossing データセット • ユーザが書籍につけた1~10までのスコアを集計 • ユーザ数: 11,030  書籍数: 104,596  総スコア数: 229,406 • データの収集期間: 2014年8月~9月の1週間 Word2Vecのハイパーパラメータ(次元圧縮法) • 圧縮次元数:20~200まで20次元ずつ変化させた10種類 • 学習の最大単語数(WS):2~10まで2ずつ変化させた5種類
  • 10.
    2017/12/16 第11回Webインテリジェンスとインタラクション研究会 /17 実験環境( 2 / 2 ) !10 回帰式の構築 汎化性能の検証 • 巨大で疎性の強いユーザ−アイテム行列
  → 評価しているユーザ数が少ない傾向 • 交差検証法では,目的変数を評価しているユーザが学習データと
 テストデータの両方に含まれることを保証できない
  → 学習モデルを構築できない・予測誤差を検証できない可能性 • ブートストラップ法では,ランダムサンプリングにより学習データ 中の目的変数の数を調整できる 目的変数:評価しているユーザの多い書籍上位100件 (目的変数毎にモデル構築)説明変数:全書籍
  • 11.
    2017/12/16 第11回Webインテリジェンスとインタラクション研究会 /17 予測精度の評価 !11 予測誤差 の計算 ブートストラップサンプリング集合 :学習用ユーザ-アイテム行列X : 訓練集合に  を,テスト集合に を使って推定した予測誤差Xi X : 訓練集合に  を,テスト集合に を使って推定した予測誤差Xi Xi : 訓練集合に  を,テスト集合に を使って推定した予測誤差X X N {X1, X2, · · · , Xi, · · · , XN } E(Xi, X) E(Xi, Xi) E(X, X) 汎化誤差 = E(X, X) + 1 N NX i=1 {E(Xi, X) − E(Xi, Xi)} MAE ( Mean Absolute Error ) ˆyiyi : 真値 : 予測値 E MAE = 1 T TX i=1 |yi − ˆyi| T : テストデータ数 :ブートストラップ数( =20)N 汎化誤差 経験誤差 ブートストラップ法の汎化誤差の計算
  • 12.
    2017/12/16 第11回Webインテリジェンスとインタラクション研究会 /17 L1正則化を適用した場合の汎化誤差 !12 正則化法 次元圧縮法 ウィンドウサイズ2 ウィンドウサイズ10 • 汎化誤差の中央値について,
 正則化法は1.08,次元圧縮法は1.27~1.32 • 正則化法のほうが次元圧縮法より0.19~0.24汎化誤差が小さい • 次元圧縮法について,Word2Vecのハイパーパラメータは
 スコア予測に大きく影響を与えていない
  • 13.
    2017/12/16 第11回Webインテリジェンスとインタラクション研究会 /17 L2正則化を適用した場合の汎化誤差 !13 正則化法 次元圧縮法 ウィンドウサイズ2 ウィンドウサイズ10 • 汎化誤差の中央値について,
 正則化法は1.09,次元圧縮法は1.27~1.32 • 正則化法のほうが次元圧縮法より0.18~0.23汎化誤差が小さい • 次元圧縮法について,Word2Vecのハイパーパラメータは
 スコア予測に大きく影響を与えていない
  • 14.
    2017/12/16 第11回Webインテリジェンスとインタラクション研究会 /17 回帰係数の相関 !14 正則化法で得られる回帰係数が正しいと仮定 正則化法と次元圧縮法の回帰係数が類似 → 正則化法よりも低い計算コストで学習できる次元圧縮法で解析が可能 正則化法と次元圧縮法の回帰係数の類似関係を確認 → 正則化法と次元圧縮法の回帰係数の相関関係について検証 :学習用ユーザ-アイテム行列X 正則化法の回帰係数 次元圧縮法の回帰係数 X: を重回帰分析して得られた回帰係数 : をハイパーパラメータごとに重回帰分析して  得られた回帰係数 X
  • 15.
    2017/12/16 第11回Webインテリジェンスとインタラクション研究会 /17 正則化法と次元圧縮法の回帰係数の相関 !15 dimension k correlation dimension k L1正則化 dimension k correlation dimension k L2正則化
  • 16.
    2017/12/16 第11回Webインテリジェンスとインタラクション研究会 /17 実験のまとめ !16 1. 重回帰分析型協調フィルタリングのスコア予測精度を確認 2. 次元圧縮法において,適切なハイパーパラメータを求める 汎化誤差の中央値(正則化法:1.08~1.09,次元圧縮法:1.27~1.32)より、 正則化法・次元圧縮法どちらもスコア予測の観点では正しく動作 Word2Vecのハイパーパラメータはスコア予測に影響を与えていない 3. 正則化法と次元圧縮法の回帰係数の相関を調べる 半分の変数には正の相関が、残り半分には負の相関がある
  • 17.
    2017/12/16 第11回Webインテリジェンスとインタラクション研究会 /17 おわりに !17 今後の課題 • 回帰係数の相関について解析する • 別のデータセットを用いても正しく動作するか検証する 研究のまとめ • 目的  重回帰分析を協調フィルタリングに応用し、スコア予測だけでなく目的 のアイテムに影響を与える他のアイテムも予測する技術の開発 • 実験 - 正則化法と次元圧縮法のスコアの予測性能を明らかにする - 次元圧縮法において、Word2Vecのハイパーパラメータが与える影響に
  ついて検証 • 結果 - スコア予測の観点ではどちらも正しく動作 - Word2Vecのハイパーパラメータはスコア予測に影響を与えない