SlideShare a Scribd company logo
1 of 27
OPTIMIZATION APPROACHES FOR
COUNTERFACTUAL RISK
MINIMIZATION WITH CONTINUOUS
ACTIONS
AI Lab 阿部拳之
2020/05/25
Summary
■ Houssam Zenati, Alberto Bietti, Matthieu Martin, Eustache Diemert, and Julien
Mairal
– Criteo AI Lab
■ Contribution
– Continuous action設定のcounterfactual risk minimizationのためのベンチ
マークデータセットを公開
– Proximal point algorithmが既存アルゴリズムよりもpolicy最適化に適し
ていることを実験的に示した
– 新たなclipping法(soft-clipping)を用いたIPS estimatorを提案
INTRODUCTION
Introduction
■ レコメンドシステムやオンラインオーク
ションでは,あるpolicy(logging policy)
によるログデータがしばしば得られる
■ ログデータを用いて,オフラインで最適な
policyを学習させたい
Log data
Logging Policy
(𝑥, 𝑎, 𝑦)
Optimal Policy
Learning!!
オークション
情報
Bid額
報酬
Introduction
■ Expected reward (risk) of policy 𝜋
𝑅 𝜋 = 𝐸 𝑥,𝑎,𝑦 ~𝐷 𝜋
[𝑦]
– 𝑥~𝑃(𝑥):context feature
– 𝑎~𝜋(𝑎|𝑥):action
– 𝑟~𝑃(𝑟|𝑥, 𝑎):reward (risk)
■ BanditやRLでは,期待報酬(和)を最大化するようなpolicyを見つ
けることが目標(riskの場合最小化)
𝜋∗
∈ arg max
𝜋∈Π
𝑅 𝜋
COUNTERFACTUAL
RISK MINIMIZATION
Counterfactual Risk Minimization
■ 実際にはfeatureやrewerdの分布は未知なので,logging policy 𝜋0によるログ
データから期待報酬を推定
■ Counterfactual Risk Minimization
𝜋 ∈ arg max
𝜋∈Π
𝑅 𝜋 + Ω(𝜋)
– 期待報酬の推定値を最大にするpolicyを探索
– policyがパラメタライズされてる場合
𝜃 ∈ arg max
𝜃∈Θ
𝑅 𝜋 𝜃 + Ω 𝜋 𝜃
■ 𝑅 𝜋 の推定はどうやって行う??
→代表的な方法:Inverse propensity scoring
期待報酬の推定値 正則化項
Inverse Propensity Scoring
■ 報酬にlogging policy 𝜋0との密度比をかけることによってlogging
policyとの不一致を補正する推定方法
𝑅𝐼𝑃𝑆 𝜋 =
1
𝑛
𝑖=1
𝑛
𝑦𝑖
𝜋(𝑎𝑖|𝑥𝑖)
𝜋0(𝑎𝑖|𝑥𝑖)
■ unbiasedな推定が可能
■ しかし,一般的に分散が大きくなりがち
Hard Clipping IPS
■ 密度比を一定値内にclipすることで分散を抑える
𝑅𝐼𝑃𝑆
𝑀
𝜋 =
1
𝑛
𝑖=1
𝑛
𝑦𝑖 min
𝜋(𝑎𝑖|𝑥𝑖)
𝜋0(𝑎𝑖|𝑥𝑖)
, 𝑀
■ Unbiasedではない
■ パラメータ𝑴を制御することでバイアスと分散のトレードオフが
取れる
SOFT CLIPPING FOR IPS
WEIGHTS
Nonconvexity of Objective Function
■ Policy最適化の目的関数は基本的に非凸最適化問題となる
𝜃 ∈ arg max
𝜃∈Θ
𝑅 𝜋 𝜃 + Ω 𝜋 𝜃
– 非凸性はclippingやpolicyのモデル化などが要因
■ L-BFGSなどの勾配降下法やSGDによって最適化されることが多い
■ 𝑅 𝜋 の推定にHard Clipping IPSを用いる場合
– 𝑅𝐼𝑃𝑆
𝑀
𝜋 が微分不可能となる
– Logging policyとの不一致性が大きいパラメータが定留点とな
る
→最適化が困難
Soft Clipping IPS
■ 大きな値を抑えつつ,微分可能であるIPSを提案
𝑅 𝑆𝐼𝑃𝑆
𝑀
𝜋 =
1
𝑛
𝑖=1
𝑛
𝑦𝑖 𝜉
𝜋(𝑎𝑖|𝑥𝑖)
𝜋0(𝑎𝑖|𝑥𝑖)
, 𝑀 ,
𝜉 𝑤𝑖, 𝑀 =
𝑤𝑖
𝛼 𝑀 log(𝑤𝑖 + 𝛼 𝑀 − 𝑀)
– ただし,𝛼 𝑀 log 𝛼 𝑀 = 𝑀
(if 𝑤𝑖 ≤ 𝑀)
(otherwise)
Soft Clipping IPS
■ Hard Clipping IPSと比較して・・・
– 微分可能となる
– 定留点がなくなる
OPTIMIZATION DRIVEN
APPROACHES FOR CRM
Proximal Point Algorithms
■ ここからは𝑅(𝜋)の推定の話から離れ,目的関数を最適化する方法
に着目
𝜃 ∈ arg max
𝜃∈Θ
𝑅 𝜋 𝜃 + Ω 𝜋 𝜃
■ おさらい
– 目的関数は非凸最適化問題となりがち
– これまでの研究では,L-BFGSなどの勾配降下法やSGDによっ
て最適化されてきた
→もっとよい最適化法はないか??
Proximal Point Algorithms
■ 代替となる最適化法として,Proximal point algorithmに着目
■ Proximal point algorithm
– 元の目的関数より容易に解ける問題を繰り返し解く
𝜃 𝑘 = arg min
𝜃∈Θ
𝐿 𝜃 +
𝜅
2
𝜃 − 𝜃 𝑘−1 2
2
– 直感的には,二次関数で正則化することで非凸性を緩和
→実験によって有効性を確認
EXPERIMENTS
Synthetic Dataset
■ Contextとrewardの生成プロセス
1. 観測できないGroup indexがランダムに決定
2. Group indexの条件付き分布からcontextとpotentialをサンプル
3. Potentialとactionの条件付き分布からrewardをサンプル
Synthetic Dataset
■ rewardの分布
– 区分線形関数でモデル化
■ 「あるactionに対して増加(減少)→プラトー→減少(増加)」
するという現実の問題の傾向を再現
Synthetic Dataset
■ データセットは3種
点の位置はcontext,色はpotentialを表現
Evaluation protocol
■ Training, validation, test setのサイズはそれぞれ10,000
■ Validation setではハイパラ最適化
■ 最適化したpolicyは,test setにおける報酬の平均値によって比較
Benefits of the proximal point algorithm
■ Proximal point algorithmとL-BFGSによるpolicy最適化を比較
■ 対角線よりも左上にある点:proximal point algorithmの方が高いreward
Benefits of the soft clipping estimator
■ Soft-clipping IPSとhard-clipping IPSを比較
■ 対角線よりも左上にある点: Soft-clipping IPSの方が高いreward
Criteo Off Policy ContinuousAction
Dataset
■ Online Ad auctionにおけるログデータ
■ データ
– Context:3つの変数
– Action:入札額
– Reward:(Conversion value) – (Advertising cost)
■ データ数は1億以上
Evaluation protocol
■ Training, validation, test setはそれぞれデータの50%-25%-25%
■ 最適化したpolicyは,self-normalized IPSによって評価
Results
■ 最適化法とclipping手法の組み合わせを比較
■ Proximal point algorithmとsoft-clippingの組み合わせが最も高いreward
まとめ
■ Continuous action設定のcounterfactual risk minimizationのためのベンチ
マークデータセットを公開
■ Proximal point algorithmが既存アルゴリズムよりもpolicy最適化に適して
いることを実験的に示した
■ Soft-clipping IPSを提案し,従来のHard-clipping IPSよりも優れていること
を実験的に示した
■ データセットのURLはこちら
– https://github.com/criteo-research/optimization-continuous-action-crm

More Related Content

Similar to Optimization Approaches for Counterfactual Risk Minimization with Continuous Actions

Data-Intensive Text Processing with MapReduce ch6.1
Data-Intensive Text Processing with MapReduce ch6.1Data-Intensive Text Processing with MapReduce ch6.1
Data-Intensive Text Processing with MapReduce ch6.1Sho Shimauchi
 
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” Hajime Sasaki
 
全体セミナー20170629
全体セミナー20170629全体セミナー20170629
全体セミナー20170629Jiro Nishitoba
 
MLP SVM Chapter 7 分割法
MLP SVM Chapter 7 分割法MLP SVM Chapter 7 分割法
MLP SVM Chapter 7 分割法Taikai Takeda
 
AI Business Challenge Day 20170316
AI Business Challenge Day 20170316AI Business Challenge Day 20170316
AI Business Challenge Day 20170316陽平 山口
 
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』The Japan DataScientist Society
 
Happy Optimization
Happy OptimizationHappy Optimization
Happy Optimizationguestee2c67
 
Happy Optimization
Happy OptimizationHappy Optimization
Happy OptimizationKazuho Oku
 
Machine Learning Nagoya 20161015
Machine Learning Nagoya 20161015Machine Learning Nagoya 20161015
Machine Learning Nagoya 20161015陽平 山口
 
エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎Daiyu Hatakeyama
 
データ解析入門
データ解析入門データ解析入門
データ解析入門Takeo Noda
 
Or seminar2011final
Or seminar2011finalOr seminar2011final
Or seminar2011finalMikio Kubo
 

Similar to Optimization Approaches for Counterfactual Risk Minimization with Continuous Actions (14)

Data-Intensive Text Processing with MapReduce ch6.1
Data-Intensive Text Processing with MapReduce ch6.1Data-Intensive Text Processing with MapReduce ch6.1
Data-Intensive Text Processing with MapReduce ch6.1
 
PFI Christmas seminar 2009
PFI Christmas seminar 2009PFI Christmas seminar 2009
PFI Christmas seminar 2009
 
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処” WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
WI2研究会(公開用) “データ分析でよく使う前処理の整理と対処”
 
全体セミナー20170629
全体セミナー20170629全体セミナー20170629
全体セミナー20170629
 
MLP SVM Chapter 7 分割法
MLP SVM Chapter 7 分割法MLP SVM Chapter 7 分割法
MLP SVM Chapter 7 分割法
 
AI Business Challenge Day 20170316
AI Business Challenge Day 20170316AI Business Challenge Day 20170316
AI Business Challenge Day 20170316
 
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
 
Happy Optimization
Happy OptimizationHappy Optimization
Happy Optimization
 
Happy Optimization
Happy OptimizationHappy Optimization
Happy Optimization
 
M5 sinchir0
M5 sinchir0M5 sinchir0
M5 sinchir0
 
Machine Learning Nagoya 20161015
Machine Learning Nagoya 20161015Machine Learning Nagoya 20161015
Machine Learning Nagoya 20161015
 
エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎
 
データ解析入門
データ解析入門データ解析入門
データ解析入門
 
Or seminar2011final
Or seminar2011finalOr seminar2011final
Or seminar2011final
 

More from Kenshi Abe

二人零和マルコフゲームにおけるオフ方策評価
二人零和マルコフゲームにおけるオフ方策評価二人零和マルコフゲームにおけるオフ方策評価
二人零和マルコフゲームにおけるオフ方策評価Kenshi Abe
 
Deep Counterfactual Regret Minimization
Deep Counterfactual Regret MinimizationDeep Counterfactual Regret Minimization
Deep Counterfactual Regret MinimizationKenshi Abe
 
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~Kenshi Abe
 
Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...
Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...
Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...Kenshi Abe
 
Deep Q-learning from Demonstrations
Deep Q-learning from DemonstrationsDeep Q-learning from Demonstrations
Deep Q-learning from DemonstrationsKenshi Abe
 
Multi-agent Reinforcement Learning in Sequential Social Dilemmas
Multi-agent Reinforcement Learning in Sequential Social DilemmasMulti-agent Reinforcement Learning in Sequential Social Dilemmas
Multi-agent Reinforcement Learning in Sequential Social DilemmasKenshi Abe
 
Evolved policy gradients
Evolved policy gradientsEvolved policy gradients
Evolved policy gradientsKenshi Abe
 

More from Kenshi Abe (7)

二人零和マルコフゲームにおけるオフ方策評価
二人零和マルコフゲームにおけるオフ方策評価二人零和マルコフゲームにおけるオフ方策評価
二人零和マルコフゲームにおけるオフ方策評価
 
Deep Counterfactual Regret Minimization
Deep Counterfactual Regret MinimizationDeep Counterfactual Regret Minimization
Deep Counterfactual Regret Minimization
 
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
 
Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...
Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...
Competitive Multi-agent Inverse Reinforcement Learning with Sub-optimal Demon...
 
Deep Q-learning from Demonstrations
Deep Q-learning from DemonstrationsDeep Q-learning from Demonstrations
Deep Q-learning from Demonstrations
 
Multi-agent Reinforcement Learning in Sequential Social Dilemmas
Multi-agent Reinforcement Learning in Sequential Social DilemmasMulti-agent Reinforcement Learning in Sequential Social Dilemmas
Multi-agent Reinforcement Learning in Sequential Social Dilemmas
 
Evolved policy gradients
Evolved policy gradientsEvolved policy gradients
Evolved policy gradients
 

Optimization Approaches for Counterfactual Risk Minimization with Continuous Actions

  • 1. OPTIMIZATION APPROACHES FOR COUNTERFACTUAL RISK MINIMIZATION WITH CONTINUOUS ACTIONS AI Lab 阿部拳之 2020/05/25
  • 2. Summary ■ Houssam Zenati, Alberto Bietti, Matthieu Martin, Eustache Diemert, and Julien Mairal – Criteo AI Lab ■ Contribution – Continuous action設定のcounterfactual risk minimizationのためのベンチ マークデータセットを公開 – Proximal point algorithmが既存アルゴリズムよりもpolicy最適化に適し ていることを実験的に示した – 新たなclipping法(soft-clipping)を用いたIPS estimatorを提案
  • 4. Introduction ■ レコメンドシステムやオンラインオーク ションでは,あるpolicy(logging policy) によるログデータがしばしば得られる ■ ログデータを用いて,オフラインで最適な policyを学習させたい Log data Logging Policy (𝑥, 𝑎, 𝑦) Optimal Policy Learning!! オークション 情報 Bid額 報酬
  • 5. Introduction ■ Expected reward (risk) of policy 𝜋 𝑅 𝜋 = 𝐸 𝑥,𝑎,𝑦 ~𝐷 𝜋 [𝑦] – 𝑥~𝑃(𝑥):context feature – 𝑎~𝜋(𝑎|𝑥):action – 𝑟~𝑃(𝑟|𝑥, 𝑎):reward (risk) ■ BanditやRLでは,期待報酬(和)を最大化するようなpolicyを見つ けることが目標(riskの場合最小化) 𝜋∗ ∈ arg max 𝜋∈Π 𝑅 𝜋
  • 7. Counterfactual Risk Minimization ■ 実際にはfeatureやrewerdの分布は未知なので,logging policy 𝜋0によるログ データから期待報酬を推定 ■ Counterfactual Risk Minimization 𝜋 ∈ arg max 𝜋∈Π 𝑅 𝜋 + Ω(𝜋) – 期待報酬の推定値を最大にするpolicyを探索 – policyがパラメタライズされてる場合 𝜃 ∈ arg max 𝜃∈Θ 𝑅 𝜋 𝜃 + Ω 𝜋 𝜃 ■ 𝑅 𝜋 の推定はどうやって行う?? →代表的な方法:Inverse propensity scoring 期待報酬の推定値 正則化項
  • 8. Inverse Propensity Scoring ■ 報酬にlogging policy 𝜋0との密度比をかけることによってlogging policyとの不一致を補正する推定方法 𝑅𝐼𝑃𝑆 𝜋 = 1 𝑛 𝑖=1 𝑛 𝑦𝑖 𝜋(𝑎𝑖|𝑥𝑖) 𝜋0(𝑎𝑖|𝑥𝑖) ■ unbiasedな推定が可能 ■ しかし,一般的に分散が大きくなりがち
  • 9. Hard Clipping IPS ■ 密度比を一定値内にclipすることで分散を抑える 𝑅𝐼𝑃𝑆 𝑀 𝜋 = 1 𝑛 𝑖=1 𝑛 𝑦𝑖 min 𝜋(𝑎𝑖|𝑥𝑖) 𝜋0(𝑎𝑖|𝑥𝑖) , 𝑀 ■ Unbiasedではない ■ パラメータ𝑴を制御することでバイアスと分散のトレードオフが 取れる
  • 10. SOFT CLIPPING FOR IPS WEIGHTS
  • 11. Nonconvexity of Objective Function ■ Policy最適化の目的関数は基本的に非凸最適化問題となる 𝜃 ∈ arg max 𝜃∈Θ 𝑅 𝜋 𝜃 + Ω 𝜋 𝜃 – 非凸性はclippingやpolicyのモデル化などが要因 ■ L-BFGSなどの勾配降下法やSGDによって最適化されることが多い ■ 𝑅 𝜋 の推定にHard Clipping IPSを用いる場合 – 𝑅𝐼𝑃𝑆 𝑀 𝜋 が微分不可能となる – Logging policyとの不一致性が大きいパラメータが定留点とな る →最適化が困難
  • 12. Soft Clipping IPS ■ 大きな値を抑えつつ,微分可能であるIPSを提案 𝑅 𝑆𝐼𝑃𝑆 𝑀 𝜋 = 1 𝑛 𝑖=1 𝑛 𝑦𝑖 𝜉 𝜋(𝑎𝑖|𝑥𝑖) 𝜋0(𝑎𝑖|𝑥𝑖) , 𝑀 , 𝜉 𝑤𝑖, 𝑀 = 𝑤𝑖 𝛼 𝑀 log(𝑤𝑖 + 𝛼 𝑀 − 𝑀) – ただし,𝛼 𝑀 log 𝛼 𝑀 = 𝑀 (if 𝑤𝑖 ≤ 𝑀) (otherwise)
  • 13. Soft Clipping IPS ■ Hard Clipping IPSと比較して・・・ – 微分可能となる – 定留点がなくなる
  • 15. Proximal Point Algorithms ■ ここからは𝑅(𝜋)の推定の話から離れ,目的関数を最適化する方法 に着目 𝜃 ∈ arg max 𝜃∈Θ 𝑅 𝜋 𝜃 + Ω 𝜋 𝜃 ■ おさらい – 目的関数は非凸最適化問題となりがち – これまでの研究では,L-BFGSなどの勾配降下法やSGDによっ て最適化されてきた →もっとよい最適化法はないか??
  • 16. Proximal Point Algorithms ■ 代替となる最適化法として,Proximal point algorithmに着目 ■ Proximal point algorithm – 元の目的関数より容易に解ける問題を繰り返し解く 𝜃 𝑘 = arg min 𝜃∈Θ 𝐿 𝜃 + 𝜅 2 𝜃 − 𝜃 𝑘−1 2 2 – 直感的には,二次関数で正則化することで非凸性を緩和 →実験によって有効性を確認
  • 18. Synthetic Dataset ■ Contextとrewardの生成プロセス 1. 観測できないGroup indexがランダムに決定 2. Group indexの条件付き分布からcontextとpotentialをサンプル 3. Potentialとactionの条件付き分布からrewardをサンプル
  • 19. Synthetic Dataset ■ rewardの分布 – 区分線形関数でモデル化 ■ 「あるactionに対して増加(減少)→プラトー→減少(増加)」 するという現実の問題の傾向を再現
  • 21. Evaluation protocol ■ Training, validation, test setのサイズはそれぞれ10,000 ■ Validation setではハイパラ最適化 ■ 最適化したpolicyは,test setにおける報酬の平均値によって比較
  • 22. Benefits of the proximal point algorithm ■ Proximal point algorithmとL-BFGSによるpolicy最適化を比較 ■ 対角線よりも左上にある点:proximal point algorithmの方が高いreward
  • 23. Benefits of the soft clipping estimator ■ Soft-clipping IPSとhard-clipping IPSを比較 ■ 対角線よりも左上にある点: Soft-clipping IPSの方が高いreward
  • 24. Criteo Off Policy ContinuousAction Dataset ■ Online Ad auctionにおけるログデータ ■ データ – Context:3つの変数 – Action:入札額 – Reward:(Conversion value) – (Advertising cost) ■ データ数は1億以上
  • 25. Evaluation protocol ■ Training, validation, test setはそれぞれデータの50%-25%-25% ■ 最適化したpolicyは,self-normalized IPSによって評価
  • 26. Results ■ 最適化法とclipping手法の組み合わせを比較 ■ Proximal point algorithmとsoft-clippingの組み合わせが最も高いreward
  • 27. まとめ ■ Continuous action設定のcounterfactual risk minimizationのためのベンチ マークデータセットを公開 ■ Proximal point algorithmが既存アルゴリズムよりもpolicy最適化に適して いることを実験的に示した ■ Soft-clipping IPSを提案し,従来のHard-clipping IPSよりも優れていること を実験的に示した ■ データセットのURLはこちら – https://github.com/criteo-research/optimization-continuous-action-crm