Top-K Off-Policy Correction for a REINFORCE Recommender System

Top-K Off-Policy Correction for a
REINFORCE Recommender System
調和系 M1 織⽥智⽮ 2020/07/22
Minmin Chen and Alex Beutel and Paul Covington and Sagar Jain and Francois
Belletti and Ed Chi, Google, Inc. ,WSDM 2019
https://arxiv.org/abs/1812.02353
有志実装: https://github.com/awarebayes/RecNN
Google Resarch: https://research.google/pubs/pub47647/

ゼミ資料
概要
• YouTubeの推薦システムをオフライン強化学習で実装した
研究
• ユーザ⾏動ログ（クリック・滞在時間）から学習
• しかし前のバージョンの⽅策のバイアスの影響を受ける
• 貢献
• 100万オーダーの⾏動空間を持つ推薦システムの実運⽤
• 様々な⽅策から観測されたデータバイアスへの対処
1
強化学習を使ったTop-K推薦システムの提案

ゼミ資料
INTRODUCTION
[スケール問題]
– 産業⽤推薦システムの状態空間と⾏動空間は膨⼤
[バイアス問題]
– 様々なポリシーを元に推薦されたログからの学習はバイアスの影響
[Top-k問題]
– 通常強化学習は⼀つの⾏動を選択（推薦システムだと⼀つのアイテ
ムしか推薦されない）
[環境変化問題]
– ユーザの好みは⽇々変化
2

ゼミ資料
RELATED WORK
• Q学習のような価値ベースの⼿法の関数近似部分は不安定
[29]
– ⽅策の収束はあまり研究されてない
– 安定動作には，ハイパラ調整が必須
• ⽅策ベースの⼿法は，学習率が⼗分⼩さいと，関数近似部
分がかなり安定
3
[29] Volodymyr Mnih, Adria Puigdomenech Badia, Mehdi Mirza, Alex Graves, Timothy Lillicrap, Tim Harley, David Silver, and Koray
Kavukcuoglu. 2016. Asynchronous methods for deep reinforcement learning. In International conference on machine learning. 1928–1937.
方策ベースな手法であるREINFORCEを使用

ゼミ資料
REINFORCEアルゴリズム
• ⽅策を微分して勾配を求める
• 得られた勾配を元に期待収益を最⼤化するよう⽅策を更新
• 実は期待収益は，分類モデルにおける交差エントロピーと
同じ式になる
– ⽅策関数は予測
– 報酬は教師ラベル
• ⽐較的わかりやすので導出のスライド付けました
4

ゼミ資料
マルコフ過程でモデリング
𝒮: embedされたユーザの状態空間（連続）
𝒜: 推薦するアイテム(YouTubeの動画)の⾏動空間（離散）
𝑃: 𝒮×𝒜×𝒮 → ℝ 遷移確率関数𝑃(𝑠′|𝑠, 𝑎)
𝑅: 𝒮×𝒜 → ℝ 報酬関数𝑟(𝑠, 𝑎)
• 期待収益を最⼤化
• 上式を直接微分して導出された式をモンテカルロ近似
5
𝑚𝑎𝑥
!
𝔼"∼! 𝑅 𝜏 , where 𝑅(𝜏) = +
$%&
|"|
𝑟(𝑠$, 𝑎$)
)𝜏 = (𝑠&, 𝑎&, 𝑠(, ⋯ ,
方策からサンプリングされた軌跡
• reward to go
• 割引率の導入

ゼミ資料
おまけ: REINFORCE導出
6
http://rail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-5.pdf
• パラメータ𝜃を持つ方策を𝜋)
• 𝐽(𝜃)を最大化する𝜃を求める
• Tはエピソードにおけるステップ数
𝜋! 𝜏 ∇! log 𝜋! 𝜏 = 𝜋! 𝜏
∇! 𝜋! 𝜏
𝜋! 𝜏
= ∇! 𝜋! 𝜏
トリック

ゼミ資料
Off-Policy補正
• 古典的⼿法はオンライン更新
• しかし，過去の様々な⽅策によるログしか使えない
– 更新してる⽅策と異なる⾏動空間の分布
– 古い⽅策を𝛽を使って𝜋!を更新したい
7
Importance Sampling
𝐽 𝜃 = 𝐸!∼#" ! 𝑟 𝜏 = 𝐸!∼$ !
𝜋% 𝜏
𝛽 𝜏
𝑟 𝜏
=
Where
𝜏の展開
未来の行動は時刻tに
関係ないため，t以降
は無視
（分散を減らす）
さらに一次近似バリアンスを減らす工夫
∇) 𝐽 𝜃

ゼミ資料
⽅策𝜋#の設計
• 𝑠) ∈ ℝ*
時刻tでのユーザのembed
• 𝑢+*
∈ ℝ,
時刻tでの⾏動のembed
• 𝑃(𝑠′|𝑠, 𝑎) をRNN(CFN[24])を使って表現
– CFNはRNN・LSTMの内部状態が外部⼲渉なしに収束する
問題を対処した⼿法
• softmaxが数100万オーダーのため, sampled
softmax[4]を使⽤
• 本番環境では⾼速な最近傍法アルゴリズム
8
Fig.1 ニューラルアーキテクチャ
[4] Yoshua Bengio, Jean-Sébastien Senécal, et al. 2003. Quick Training of Probabilistic Neural Nets by Importance Sampling
[24] Thomas Laurent and James von Brecht. 2016. A recurrent neural network without chaos. arXiv preprint arXiv:1612.06212 (2016).
Cell
𝑠#
Cell
𝑠$ 𝑠%
𝑠$
Cell
𝑠&'$
・・・
𝑢# 𝑠$𝑢$ 𝑠&𝑢&
方策関数RNN詳細
∇! 𝐽 𝜃 ＝
softmax 𝜋! 𝜏
softmax 𝛽 𝜏
[再掲] 方策の勾配式
これで𝑠&'$の方策の勾配が手に入る

ゼミ資料
⽅策𝜋#と𝛽の学習
• 混合⽅策𝛽の推定は，過去ログの(𝑠, 𝑎)ペアから⾏う
• 途中までネットワークを共有し，最後のsoftmaxで分離
• 過去⽅策からは勾配が流れないようにブロック
• 𝜋4と𝛽を分離したネットワークで推定を⾏ったが性能変わ
らず
9
Fig.1 ニューラルアーキテクチャ
𝛽推定の計算量を減らした

ゼミ資料
おまけ: CFN(Chaos Free Network)の計算式
[GRU]
• LSTMの⼊⼒・忘却ゲートを更新ゲートとしてまとめたモデル
[CFN]
• 更新式
• 今回の更新式
10
https://qiita.com/shotasakamoto/items/af46ee3bbbe1e12230d0
zとかuとか表現まちまち 𝑊 ∈ ℝ)×+
𝑏 ∈ ℝ)
CFNアブストより
• 単純なアーキテクチャでRNN, LSTMに匹敵す
る性能を達成
• 隠れ状態の予期せぬポイントへの収束を克服
したらしい

ゼミ資料
Top-K Actionの導⼊
• 1つの⾏動𝑎から複数の⾏動集合𝐴へにしたい
[条件]
• 𝐴の期待報酬は各要素の期待報酬の合計に等しいと仮定
• 𝜋!に従いTop-1推薦を繰り返し，重複を除去して𝐴を⽣成
11
𝛱,：方策関数
この条件の下で方策の勾配式を修正
𝛼 𝑎 𝑠 = 1 − (1 − 𝜋%(𝑎|𝑠))-
方策の勾配式の𝜋%を𝛼に変更して
ゴリゴリ計算
𝛼 𝑎 𝑠 はKへの出現確率 𝐾 = 𝐴.
𝜋→0(確率)のとき報酬発生で勾配はK倍，𝜋→1のとき報酬発生で勾配0

ゼミ資料
バリアンスを下げるテクニック
12
[Weight Capping]
• シンプルに上限を設定
[Normalized Importance Sampling(NIS)]
[TRPO]
• 新旧⽅策で KLダイバージェンス<𝛿 以下に抑える制約付き最適化問題
を解くことによってロバストに⽅策を更新
一次近似はしたが，方策が全然違
う時に分散が大きくなる
cの値が小さいほど分散は下げるが，バイアスが増える
nが増加すると学習率を調整することに相当

ゼミ資料
探索
• 有名な⼿法に𝜖-greedyがあるが，数100万オーダーの空
間には無理がある
• softmaxの計算もオーバーヘッド
• 探索と活⽤のアプローチとして，Top-KからKʼ, M-Kʼから
K-Kʼサンプリング
13
[12] Nathaniel D Daw, John P O’doherty, Peter Dayan, Ben Seymour, and Raymond J Dolan. 2006. Cortical substrates for exploratory decisions
in humans. Nature 441, 7095 (2006), 876
ボルツマン探索[12]を使用
効率的最近傍法でM
個の候補を検索
SoftmaxでTop-K
の算出
SoftmaxからTop 1~6
items
K=8, K’=2のとき
上以外のMから 2 items

ゼミ資料
実験1 (off-policyの有効性)
• アイテムを10個⽤意する 𝒜 = {𝑎𝑖, 𝑖 = 1, … , 10}
• 報酬はアイテムのindexと対応 𝑟 𝑎5 = 𝑖
• ⾏動（推薦）は1つのアイテムのみ
• 挙動⽅策𝛽(𝑎|𝑠)はindexの⼩さいアイテムを優先的に選ぶ
14
off-policy修正なし off-policy修正あり
𝜋(s)
探索の方策が悪くても，その影響を受けずに学習可能

ゼミ資料
実験2 Top-K補正の有効性
• アイテムは同じく10個⽤意する 𝒜 = {𝑎𝑖, 𝑖 = 1, … , 10}
• 報酬は⼀部だけ⾼い 𝑟 𝑎6 = 10, 𝑟 𝑎7 = 9 他は1
• 複数アイテム推薦可能
• 挙動⽅策𝛽(𝑎|𝑠)は⼀様分布
15
𝜋(s)
Top-K補正なし Top-K補正あり
Top-k補正を使用した方がより多くの報酬

ゼミ資料
YouTubeでの実証実験
• ViewTime(ユーザが動画を⾒てる時間）を指標として考
える
• Control ⾏動⽅策（恐らくβ）
• Experiment 学習した⽅策
16
推薦動画をインプレッション高い順に並べた累積分布
off-policy有効性実験と同じく，
剥離が起きている
ViewTimeに有意差は無いが，
動画の視聴数が0.53%増加

ゼミ資料
• Top-Kアクションの数の⽐較実験
• 5⽇間の実験
17
K=16をベースラインとしたKの比較
追実験にてk=8の場合には，
+0.15%増加したらしい

ゼミ資料
• バリアンス削除⼿法の効果の検証
• Weight Cappingが最⼤の効果
• その他⼿法（NIS, TRPO）をプラスしても改善は⾒られず
• 考察として，たまたま⾼い報酬を受け取った少数の⾏動に
オーバフィットすることを防げたからだと説明
18
Weight Cappingを使用しないとViewTimeが
0.52%減少
ログの方策
学習中の方策

ゼミ資料
まとめ
• YouTubeで使⽤されている強化学習を⽤いた推薦システム
の実装の紹介論⽂
• REINFORCEを数100万オーダーにスケールアップし，
off-policy補正，Top-K補正を適⽤
• 実運⽤を通して提案⼿法の有⽤性を⽰した
• 推薦システムへの強化学習の適⽤可能性を⽰した
19

Top-K Off-Policy Correction for a REINFORCE Recommender System

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Top-K Off-Policy Correction for a REINFORCE Recommender System

Similar to Top-K Off-Policy Correction for a REINFORCE Recommender System (20)

More from harmonylab

More from harmonylab (20)

Top-K Off-Policy Correction for a REINFORCE Recommender System