Ml professional bandit_chapter1

Chapter1:
バンディット問題とは
機械学習プロフェッショナルシリーズ輪読会
バンディット問題の理論とアルゴリズム
@takeru0911

構成
• 1.1 はじめに
• 1.2 バンディット問題の例
• 1.3 確率的バンディットと敵対的バンディット
• 1.4 プレイヤー方策の評価法
• 1.5 バンディット問題の歴史
• 1.6 関連分野
• 1.7 本書の構成
• はなしません

構成
• 1.1 はじめに
• 1.2 バンディット問題の例
• 1.3 確率的バンディットと敵対的バンディット
• 1.4 プレイヤー方策の評価法
• 1.5 バンディット問題の歴史
• 1.6 関連分野
• 1.7 本書の構成

はじめに
• あなたはカジノに来ました
当たる確率が異なるスロットマシーンが5台あり，
あなたは計100回スロットを回せます。
どう引きますか？
イラスト： http://www.irasutoya.com/

儲けるための戦略
• 儲けるためには
• 当たる確率が最も高いスロットマシーンを選択
• どうやって選択するか？
• 例：各スロットn回ずつ引き，
残りの(100-n)回で最も当たったスロットを回す

儲けるための戦略
• 儲けるためには
• 当たる確率が最も高いスロットを選択
• どうやって良いスロット選択するか？
• 例：各スロットn回ずつ引き，
残りの(100-n)回で最も当たったスロットを選択

探索と知識利用のトレードオフ
• n を小さくすると・・・
• 当たったスロットを多く引けるものの，
真に当たりやすいスロットであるかの見極めが難しい
• nを大きくすると・・・
• 当たりやすいスロットの見極めができるかもしれないが，
当たりやすいスロットを多くは引けない
• 良いアームを探索する必要がある一方で
探索で得たアームを引く知識利用を行う必要もある
• 探索と知識利用はトレードオフとなる

バンディット問題とは
• 選択肢の集合から報酬が良い選択を行い，
報酬の最大化を目指す逐次決定問題
• e.g)良いスロットを選択し，儲けを最大化する
• 探索により得られた知識をもとに次の選択肢を
決定する戦略を方策（policy）と呼ぶ

バンディット問題の例
• バンディット問題はわりと現実問題に多い
治験
インターネット広告
ECサイトのレコメンド
ゲームの最善手選択
最適ルートの選択

確率的バンディットと敵対的バンディット
• バンディット問題は大きく2つに分けて
• 確率バンディット（stochastic bandit）
• アームの報酬を確率分布により生成
• （詳細は第4章で）
• 敵対的バンディット（adversarial bandit）
• プレイヤーのアーム選択方法を知った上で
敵対者が報酬を最小化する
• ただし敵対者はプレイヤーがアームを選択する前に
報酬を設定する
• （詳細は第5章で）

プレイヤー方策の評価法
• バンディット問題において
以下の2つのいずれかの最大化を目指す
• 有限時間区間（finite horizon）
における累積報酬（cumulative raword）
• 無限時間区間（infinite horizon）
における幾何割引（geometric discount）された累積報酬

近年では主流

近年では主流
𝑡=1
𝑇
𝑋𝑖 𝑡 (𝑡)

近年では主流
𝑡=1
𝑇
時刻tに選択するアーム

近年では主流
𝑡=1
𝑇
時刻tにおける報酬

Regretによる方策の評価
• 累積による評価の場合，
報酬の組み合わせにも依存してしまう
• ある累積報酬を目標値とし，それとの差を比較する
➝リグレット（regret）
Regret T = max
𝑖∈{1,…𝐾}
𝑡=1
𝑇
𝑋𝑖(𝑡) −
𝑡=1
𝑇
𝑋𝑖(𝑡)(𝑡)

Regret T = max
𝑖∈{1,…𝐾}
𝑡=1
𝑇
𝑋𝑖(𝑡) −
𝑡=1
𝑇
同じ選択を続けたとき,
累積報酬が最大となる選択

Regret T = max
𝑖∈{1,…𝐾}
𝑡=1
𝑇
𝑋𝑖(𝑡) −
𝑡=1
𝑇
方策により決定した
選択の累積報酬

• 方策の選択i(t)や報酬Xi(t)は確率的であることが多い
➝複数試行のリグレットの平均値である
期待リグレット（expected regret）をよく用いる
𝐄 Regret T = 𝐄 max
𝑖∈{1,…𝐾}
𝑡=1
𝑇
𝑋𝑖(𝑡) −
𝑡=1
𝑇

• 方策の選択i(t)や報酬Xi(t)は確率的であることが多い
➝複数試行のリグレットの平均値である
期待リグレット（expected regret）をよく用いる
➝さらに擬リグレット（pseudo regret）も用いられる
𝐄 Regret T = 𝐄 max
𝑖∈{1,…𝐾}
𝑡=1
𝑇
𝑋𝑖(𝑡) −
𝑡=1
𝑇
Regret(T) = max
𝑖∈{1,…𝐾}
𝐄
𝑡=1
𝑇
𝑋𝑖(𝑡) −
𝑡=1
𝑇

バンディット問題の歴史
• バンディット問題のような問題は古くから研究されていた
• 適応的割り当て（adaptive allocation）
• 逐次的割り当て（sequential allocation）
• 1950年代~
• 確率的バンディットの研究スタート
• 平均擬リグレット
• １腕バンディット問題
• 1990年代~
• 強化学習による行動価値観数の学習
• 敵対的バンディットに関する研究スタート
• 2000年代~
• UCB方策の提案
• モンテカルロ木探索の導入

- UCB方策 -
• ライらは期待報酬の信頼上限（upper confidence bound）を
アーム選択指標とする方策を提案（1985年）
• 指標が複雑で計算が困難
• ブルネタスらが計算が容易であるような指標に
改良した方策を提案（1996年）
➝やはり指標は複雑

- UCB方策 -
• ライらは期待報酬の信頼上限（upper confidence bound）を
アーム選択指標とする方策を提案（1985年）
• 指標が複雑で計算が困難
• ブルネタスらが計算が容易であるような指標に
改良した方策を提案（1996年）
➝やはり指標は複雑
アウアーらがUCB方策（3章）を提案
➝ 漸近的な性能は劣るものの，指標が直感的
様々な分野に応用され機械学習分野においても盛んに

- 様々な応用 -
• コックシスらはUCTアルゴリズム（Upper Confidence
bound applied to Tree algorithm）（第10章）の提案
• モンテカルロ木探索にUCB方策を導入
• 葉節点の選択にUCB方策を利用する
• Lin UCB方策（LinUCB policy）（第7章）の提案
• UCB方策を線形モデル上のバンディット問題に拡張
• 推薦システムへの応用
• コールドスタート問題を解消する手法として有効

- 敵対的バンディット -
• 1995年にアウアーらがExp3方策（Exponential-weight policy
for Exploration and Exploitation policy）（第5章）を提案
• Hedgeアルゴリズム（第5章）をバンディット問題に適応
• 過去の損失に応じて選択確率を決定する
• 性能改善の余地があった
• 2009年にオーディベールらによりINF方策（Implicitly
Normalized Forcaster policy）（第5章）の提案
• Exp3方策で改善の余地があった部分を解消

Ml professional bandit_chapter1

More Related Content

Similar to Ml professional bandit_chapter1

Ml professional bandit_chapter1