Fism kdd

FISM: Factored Item Similarity Models
for Top-N Recommender Systems 紹介
NIPS・ICML 読み会
望月駿一
2013/10/12
NIPS・ICML 読み会 FISM: Factored Item Similarity Models for Top-N Recommender Systems 紹介

概要
ユーザの入力情報をもとにユーザが好む上位 N 個のアイテムを推薦
既存手法:データのスパース性が高くなると精度が低下
本手法の提案
• アイテム類似度行列を用いる
• SLIM への潜在空間行列の導入
• アイテム自身への評価を利用しない推定

推薦システムの概要
既存の推薦システムは大きく分けて二種類
• 協調フィルタリングベース
ex)N 近傍のユーザ／アイテムによる推薦
• モデルベース
機械学習により潜在因子や類似度のモデルを構築して推薦
現在はアイテム類似度を学習して行列で表現して用いる方法が最も精度
が良い

関連研究について
• SLIM
構造方程式を用いて回帰によってアイテム同士の類似度をモデリン
グする手法
• NSVD&SVD++
アイテム類似度行列を分解して，低次元の潜在空間での相関を捉え
る手法

SLIM
ユーザごとの評価を ru，アイテム間の関係を示す類似度行列を S として
ˆru = ruS (1)
S は次の式で最適化される
minimize
S
1
2
||R − RS||2
F +
β
2
||S||2
F + λ||S||1 (2)
subject to S ≥ 0, diag(S) = 0 (3)
• diag(S) = 0 : 構造方程式による回帰では自身への評価を用いない
• S ≥ 0 : 各アイテムからの非負の類似度を仮定

NSVD
bu, bi をそれぞれユーザ，アイテムの評価バイアスとして
ˆrui = ˜rui = bu + bi +
∑
j∈R+
u
pjqT
i (4)
ただし，R+
u はユーザが評価したアイテムの集合, ˆr は計算上の推定値, ˜r
は最終的に提示する予測値を示す．
P, Q は,
minimize
P,Q
1
2
∑
i∈C
∑
i∈R+
u
||rui − ˆrui||2
F +
β
2
(||P||2
F + ||Q||2
F ) (5)
として最適化する．

FISM のアイデア
• 同時に評価されない複数のアイテム間の相関関係を取り込む
→潜在因子の仮定を用いて，低次元空間に射影
• 因子数が増加した時に，アイテム自身の評価が高くなることを防ぐ
→構造方程式による回帰で自身への評価を除く類似度行列 S を学習

FISM の定式化
ユーザの未観測アイテムへの推薦スコアは n+
u をユーザが評価したアイテ
ム数として，
˜rui = bu + bi + (n+
u )−α
∑
j∈R+
u
pjqT
i (6)
で算出される．ただし，α は 0∼1 のユーザごとに設定される係数．
(n+
u )−α の効果は
• α = 1 の時
→ユーザが評価したほぼ全てのアイテムと高い類似度を持つときの
み対象アイテムの評価は高くなる
• α = 0 の時
→ユーザが評価したアイテムのうち一つでも類似度が高いものがあ
れば対象アイテムの評価は高くなる
α の値はデータに依存し，実験的に決定する．

FISMrmse の定式化
RMSE を目的関数とすると損失は
L(·) =
∑
i∈D
∑
u∈C
(rui − ˆrui) (7)
で算出される．ˆrui は
ˆrui = ˜rui = bu + bi +
∑
j∈R+
u
pjqT
i (8)
で算出され，P, Q, bu, bi は,
minimize
P,Q,bu,bi
1
2
∑
i∈C
∑
i∈R+
u
||rui − ˆrui||2
F +
β
2
(||P||2
F + ||Q||2
F )
+
λ
2
||bu||2
2 +
γ
2
||bi||2
2 (9)
を満たすように最適化する．λ, γ は適当な正則化パラメタ．

FISMrmse のアルゴリズム
式 (7) では全アイテムについて損失を考慮したが，アイテム評価予測の問
題では実際に評価されたアイテムへの予測のみが対象となる．
そこで，nnz(R) を R の非零要素数, 適当な係数を ρ として，ρ · nnz(R)
個まで評価されなかったアイテムへの計算を間引く．式 (8) を SGD を用
いて以下のように最適化する．

FISMauc の定式化
順序損失を考慮して AUC を目的関数とすると損失は
L(·) =
∑
u∈C
∑
i∈R+
u ,j∈R−
u
((rui − ruj) − (ˆrui − ˆruj))2
(10)
で算出される．ˆrui は式 (7) と同様に算出される．ユーザ間のバイアス bu
は損失関数がユーザに関して差分を取るので消去．
P, Q, bi は,
minimize
P,Q,bi
1
2
∑
i∈C
∑
i∈R+
u
||rui − ˆrui||2
F +
β
2
(||P||2
F + ||Q||2
F )
+
γ
2
||bi||2
2 (11)
を満たすように最適化する．λ, γ は適当な正則化パラメタ．

大規模データへの FISM の許容性
• 学習時の計算時間
→ SGD を使ったことにより並列計算が可能，大規模データでも現実
的な時間で学習可能．
• 推薦時の計算時間
→ S に疎な構造を導入することで計算時間を減らす事ができる．
例えば，S を更新する際に上位何個かの要素以外を零にする．
FISM では学習時も推薦時も大規模データ向けに計算時間を短縮する拡張
が可能．

実験データについて
• ML100K,NetFlix,YahooMusic のデータセット．
• 元データを間引き，より疎にした実験も行った．

評価方法について
• データセットを 5 分割して，それぞれのセットで LOOCV を用いた．
• N=10 に設定，各ユーザの上位 10 アイテムを予測した．
推薦精度は，正答率 (HR)，順序重み付き正答率 (ARHR) で評価した．
HR =
#hits
#users
(12)
ARHR =
1
#users
#hits∑
i=1
1
posi
(13)

実験結果：バイアス項の効果
まず各パラメタの導入がモデルに与える影響を調べた．
バイアス bu, bi については
アイテムへのバイアス bi のみを導入した時が最も精度が良い．

実験結果：類似度調整項の効果
類似度調整項 α の効果にについて調べた．
• α は 0.4∼0.5 の間くらいが最も精度が良い．
• FISMauc の方が α の変化に対して安定した．順序損失に対して最適
化しているため評価数の影響は受けにくい？

実験結果：疎な S の効果
疎な類似度行列 S が精度に与える効果について調べた．
0.1∼0.15 の割合で S の要素数を制約した時，精度を損なわずに計算時間
を短縮可能．

実験結果：推定モデルの効果
推定モデルを変更したことによる効果を確認した．
FISM(F) を自身の評価を取り除かないで学習したモデルとする．
要素数 k が増加した時に，FISM の方が良い精度．
推定モデルを変更した事による効果が確認された．

実験結果：非負制約の効果
• SLIM では明示的に S の要素が非負となる制約が存在．
• FISM では特にそのような制約がないため，制約を設けて実験．
• 結果，制約を導入した時の HR は Yahoo,ML100K ともに低下．
更新中の正負の要素数について調べた結果，

実験結果：他の手法との比較
上位 10 アイテムの予測結果を二つの指標を用いて他の手法と比較．
RMSE を損失関数として用いた手法の方が AUC よりも良い結果．
先行研究では逆の性質が報告されているので調査中．

実験結果：他の手法との比較
上位 5∼20 アイテムの予測結果を HR を用いて他の手法と比較．
全ての条件で FISM が最もよい性能．

実験結果：疎なデータへの対応
間引いたデータを用いて次点の手法からの HR の改善度を調べた．
データが疎になるほど，性能が次点に比べて改善．

まとめ
• 良い性能を持つ SLIM に，潜在空間での相関を導入した FISM を提案．
• 潜在空間の導入によりユーザが同時に評価していないアイテムの相
関を取り込んだ．
• 様々なパラメタや導入した制約について実験．条件のモデルへの影
響を確認．
• 他の手法と比較して良好な推定精度を得た

Fism kdd

Recommended

Recommended

More Related Content

Similar to Fism kdd

Similar to Fism kdd (6)

Fism kdd