Optimization Approaches for Counterfactual Risk Minimization with Continuous Actions

OPTIMIZATION APPROACHES FOR
COUNTERFACTUAL RISK
MINIMIZATION WITH CONTINUOUS
ACTIONS
AI Lab 阿部拳之
2020/05/25

Summary
■ Houssam Zenati, Alberto Bietti, Matthieu Martin, Eustache Diemert, and Julien
Mairal
– Criteo AI Lab
■ Contribution
– Continuous action設定のcounterfactual risk minimizationのためのベンチ
マークデータセットを公開
– Proximal point algorithmが既存アルゴリズムよりもpolicy最適化に適し
ていることを実験的に示した
– 新たなclipping法（soft-clipping）を用いたIPS estimatorを提案

Introduction
■ レコメンドシステムやオンラインオーク
ションでは，あるpolicy（logging policy）
によるログデータがしばしば得られる
■ ログデータを用いて，オフラインで最適な
policyを学習させたい
Log data
Logging Policy
(𝑥, 𝑎, 𝑦)
Optimal Policy
Learning!!
オークション
情報
Bid額
報酬

Introduction
■ Expected reward (risk) of policy 𝜋
𝑅 𝜋 = 𝐸 𝑥,𝑎,𝑦 ~𝐷 𝜋
[𝑦]
– 𝑥~𝑃(𝑥)：context feature
– 𝑎~𝜋(𝑎|𝑥)：action
– 𝑟~𝑃(𝑟|𝑥, 𝑎)：reward (risk)
■ BanditやRLでは，期待報酬（和）を最大化するようなpolicyを見つ
けることが目標（riskの場合最小化）
𝜋∗
∈ arg max
𝜋∈Π
𝑅 𝜋

COUNTERFACTUAL
RISK MINIMIZATION

Counterfactual Risk Minimization
■ 実際にはfeatureやrewerdの分布は未知なので，logging policy 𝜋0によるログ
データから期待報酬を推定
■ Counterfactual Risk Minimization
𝜋 ∈ arg max
𝜋∈Π
𝑅 𝜋 + Ω(𝜋)
– 期待報酬の推定値を最大にするpolicyを探索
– policyがパラメタライズされてる場合
𝜃 ∈ arg max
𝜃∈Θ
𝑅 𝜋 𝜃 + Ω 𝜋 𝜃
■ 𝑅 𝜋 の推定はどうやって行う？？
→代表的な方法：Inverse propensity scoring
期待報酬の推定値正則化項

Inverse Propensity Scoring
■ 報酬にlogging policy 𝜋0との密度比をかけることによってlogging
policyとの不一致を補正する推定方法
𝑅𝐼𝑃𝑆 𝜋 =
1
𝑛
𝑖=1
𝑛
𝑦𝑖
𝜋(𝑎𝑖|𝑥𝑖)
𝜋0(𝑎𝑖|𝑥𝑖)
■ unbiasedな推定が可能
■ しかし，一般的に分散が大きくなりがち

Hard Clipping IPS
■ 密度比を一定値内にclipすることで分散を抑える
𝑅𝐼𝑃𝑆
𝑀
𝜋 =
1
𝑛
𝑖=1
𝑛
𝑦𝑖 min
, 𝑀
■ Unbiasedではない
■ パラメータ𝑴を制御することでバイアスと分散のトレードオフが
取れる

Nonconvexity of Objective Function
■ Policy最適化の目的関数は基本的に非凸最適化問題となる
𝜃 ∈ arg max
𝜃∈Θ
– 非凸性はclippingやpolicyのモデル化などが要因
■ L-BFGSなどの勾配降下法やSGDによって最適化されることが多い
■ 𝑅 𝜋 の推定にHard Clipping IPSを用いる場合
– 𝑅𝐼𝑃𝑆
𝑀
𝜋 が微分不可能となる
– Logging policyとの不一致性が大きいパラメータが定留点とな
る
→最適化が困難

Soft Clipping IPS
■ 大きな値を抑えつつ，微分可能であるIPSを提案
𝑅 𝑆𝐼𝑃𝑆
𝑀
𝜋 =
1
𝑛
𝑖=1
𝑛
𝑦𝑖 𝜉
, 𝑀 ,
𝜉 𝑤𝑖, 𝑀 =
𝑤𝑖
𝛼 𝑀 log(𝑤𝑖 + 𝛼 𝑀 − 𝑀)
– ただし，𝛼 𝑀 log 𝛼 𝑀 = 𝑀
(if 𝑤𝑖 ≤ 𝑀)
(otherwise)

Soft Clipping IPS
■ Hard Clipping IPSと比較して・・・
– 微分可能となる
– 定留点がなくなる

OPTIMIZATION DRIVEN
APPROACHES FOR CRM

Proximal Point Algorithms
■ ここからは𝑅(𝜋)の推定の話から離れ，目的関数を最適化する方法
に着目
𝜃 ∈ arg max
𝜃∈Θ
■ おさらい
– 目的関数は非凸最適化問題となりがち
– これまでの研究では，L-BFGSなどの勾配降下法やSGDによっ
て最適化されてきた
→もっとよい最適化法はないか？？

Proximal Point Algorithms
■ 代替となる最適化法として，Proximal point algorithmに着目
■ Proximal point algorithm
– 元の目的関数より容易に解ける問題を繰り返し解く
𝜃 𝑘 = arg min
𝜃∈Θ
𝐿 𝜃 +
𝜅
2
𝜃 − 𝜃 𝑘−1 2
2
– 直感的には，二次関数で正則化することで非凸性を緩和
→実験によって有効性を確認

Synthetic Dataset
■ Contextとrewardの生成プロセス
1. 観測できないGroup indexがランダムに決定
2. Group indexの条件付き分布からcontextとpotentialをサンプル
3. Potentialとactionの条件付き分布からrewardをサンプル

Synthetic Dataset
■ rewardの分布
– 区分線形関数でモデル化
■ 「あるactionに対して増加（減少）→プラトー→減少（増加）」
するという現実の問題の傾向を再現

Synthetic Dataset
■ データセットは3種
点の位置はcontext，色はpotentialを表現

Evaluation protocol
■ Training, validation, test setのサイズはそれぞれ10,000
■ Validation setではハイパラ最適化
■ 最適化したpolicyは，test setにおける報酬の平均値によって比較

Benefits of the proximal point algorithm
■ Proximal point algorithmとL-BFGSによるpolicy最適化を比較
■ 対角線よりも左上にある点：proximal point algorithmの方が高いreward

Benefits of the soft clipping estimator
■ Soft-clipping IPSとhard-clipping IPSを比較
■ 対角線よりも左上にある点： Soft-clipping IPSの方が高いreward

Criteo Off Policy ContinuousAction
Dataset
■ Online Ad auctionにおけるログデータ
■ データ
– Context：3つの変数
– Action：入札額
– Reward：(Conversion value) – (Advertising cost)
■ データ数は1億以上

Evaluation protocol
■ Training, validation, test setはそれぞれデータの50%-25%-25%
■ 最適化したpolicyは，self-normalized IPSによって評価

Results
■ 最適化法とclipping手法の組み合わせを比較
■ Proximal point algorithmとsoft-clippingの組み合わせが最も高いreward

まとめ
■ Continuous action設定のcounterfactual risk minimizationのためのベンチ
マークデータセットを公開
■ Proximal point algorithmが既存アルゴリズムよりもpolicy最適化に適して
いることを実験的に示した
■ Soft-clipping IPSを提案し，従来のHard-clipping IPSよりも優れていること
を実験的に示した
■ データセットのURLはこちら
– https://github.com/criteo-research/optimization-continuous-action-crm

Optimization Approaches for Counterfactual Risk Minimization with Continuous Actions

Recommended

Recommended

More Related Content

Similar to Optimization Approaches for Counterfactual Risk Minimization with Continuous Actions

Similar to Optimization Approaches for Counterfactual Risk Minimization with Continuous Actions (14)

More from Kenshi Abe

More from Kenshi Abe (7)

Optimization Approaches for Counterfactual Risk Minimization with Continuous Actions