SlideShare a Scribd company logo
DATUMSTUDIO株式会社 宇佐見崇
MLP輪読会
バンディット問題の理論とアルゴリズム
第3章 確率的バンディット問題の方策
© 2016 DATUM STUDIO Co. Ltd. PROPRIETARY & 1
自己紹介
• 宇佐見崇
• Y!(開発) -> ソシャゲ(開発・分析) -> ソシャゲ(分析) ->
DATUMSTUDIO株式会社(分析・コンサル)
• 大学時代は生物統計専攻
• オープンセミナーで高校生のクジラやマグロをやりたいという夢を潰す
• 2週間ほど東シナ海で実習経験あり
• 趣味 : ゲーム
2
この章でやること
• 確率的バンディット(報酬が何らかの確率分布に従って生成)
の定式化と理論限界について
• 理論限界を達成可能な代表的な方策の紹介(≠証明)
3
3.1 定式化
• 前提条件
• K : スロットマシンのアームの本数
• i : アームの番号
• t : 時刻
• 𝜇𝑖 : 報酬の期待値
• P𝑖 = 𝑃(𝜇𝑖) : 報酬の確率分布
• : 最大期待値(つまりできるだけこれをあて続けたい)
• : 最大期待値となるアーム
• μ* T : 最大期待値となるアームを引き続けたときの累積報酬最大期待値
• : 1回毎の最大期待値と実際の期待値との差
4
3.1 定式化
• N𝑖(𝑡) : 時刻tの開始時点までにアームiを引いた回数
確率的バンディットでのリグレット
• : リグレットの期待値
※このリグレットは確率的バンディットでのみ用いられる
5
時間ベースでの総和
回数ベースでの総和
3.2 理論限界
• リグレットを小さくするという問題は期待値最大ではない
アームに対して選択数を小さくする問題と同等になる
• その選択数はどこまで小さくすることが出来るか、が理論限
界にあたる
• 理論限界は以下のように定義される
• 一貫性を持つとリグレットは多項式オーダーより小さくなる
• O(logT)オーダーまで小さくした方策を紹介する
6
誤植あり
𝑜 𝑇 𝑎
=> 𝑂(𝑇 𝑎
)
3.2 理論限界
• 一貫性を持つ方策のリグレット下界
7
3.3 ε-貪欲法
• アルゴリズム
8
3.3 ε-貪欲法
• アルゴリズムの例
1. 全体のアームの選択数を100回、アームの本数を5本とする
2. ε=0.2とする
3. すべてのアームを0.2 * 100 / 5 = 4回ずつ引く
4. 残りの80回は一番期待値の高かったアームを引く
• なんとなる分かること
• εの値をどれくらいに設定すればいいか分からない
• 活用期間に一番期待値の高いアームの選択を誤ると…
9
3.3 ε-貪欲法
• リグレット上界
10
3.3 ε-貪欲法
• εの調整に非常に敏感
• O(logT)のリグレットを達成するためにはε= O((logT)/T)としてやる必要があ
る
• 係数部分は(未知である) に依存して決められる必要もある
• 期待値が最大に近いアームも劣っているアームも同じ回数の
探索が必要
11
3.4 尤度に基づく方法
• 理論限界から期待値最大でないそれぞれのアームをΩ(logt)
回程度は選択しなければいけない
• ある時刻tにおいてそのアームを1/t(logtをtで微分)程度は必
要となる
• 逆説的に考えると各時刻に1/t程度の確率で期待値最大ではな
いアームを選ぶことができれば理論限界と同じオーダーのリ
グレットが見込める
12
3.4.1 UCB方策
• Upper Confidence Boundの略
• 報酬最大化のためには報酬期待値が高いアームを引くことが
必要
• 報酬期待値が高いアームの選択数は多くなりがち
• 選択数が低いアームについては標本平均が真の期待値に収束
しない可能性がある
• これらのバランスを取って、各時刻に1/t程度の確率で確率最
大でないアームも選ぶようにする
13
3.4.1 UCB方策
• アルゴリズム
14
3.4.1 UCB方策
• はじめに全部1回ずつ引き、その後は1回ずつスコアを計算し
て探索期間と活用期間を兼ねながら進めていく
• スコアは以下の式で算出
※導出はヘフディングの不等式から
15
3.4.1 UCB方策
• リグレット上界
※証明は4章で行うとのこと
16
3.4.1 UCB方策
• UCB方策 : スコアはヘフディングの不等式に基づく
• KL-UCB方策 : スコアはチェルノフ・ヘフディングの不等式
に基づく
• より精密な確率の上界を与えるKLダイバージェンスを用いて
いる
17
3.4.1 UCB方策
• リグレット上界
※UCB方策の証明に基づく
• 理論限界を達成することは可能だが、KLダイバージェンスの
μに対する逆関数を計算する必要あり
18
3.4.2 MED方策
• Minimum Empirical Divergenceの略
• 期待値最大ではないアームの選択率が1/t程度になるように選
択率を直接操作する
• 直感的理解が容易なものとしてDMED方策(Deterministic
Minimum Empirical Divergence policy)を例に挙げている
19
3.4.2 MED方策
• アルゴリズム
20
3.4.2 MED方策
• 現在のループで引くべきアームのリストを実行する
• 実行途中で次のループで引くべきアームのリストを作成する
• アームのリストは以下のどちらかの式(同値)で決定される
• 「期待値最大である尤度が1/t以上のアームを引く」方策であ
る
21
3.4.2 MED方策
• 先程の式を変形すると
が得られて、論理限界が示す最低限必要な回数だけ探索を行
うことをDMED方策が目指していることを言える
• リグレット上界
22
≦
3.5 確率一致法とトンプソン抽出
• 確率一致法
• 「それぞれのアームが期待値最大である確率」を定式化し、引くアームをその
確率に従いランダムに選択する
• 例としてソフトマックス法が挙げられる
23
3.5.1 確率一致法の特徴と解釈
• バッチ更新に対して頑健である
• 計算量や運用上の都合により遅延を含んでデータが与えられることがしばしば
ある
• そういった場合、データが送られてくるまで、同じアームを引き続ける可能性
がある
• 乱数によって引くアームが決定されるため、各アームの選択回数がある程度は
保証される
24
3.5.2 トンプソン抽出
• 確率一致法をベイズ統計の枠組みで定式化したもの
• ベイズ更新を行うため、共役事前分布が仮定できると計算が
容易になる
• 今回はベルヌーイ分布モデルを仮定する(つまりアームが2本
の場合)
25
3.5.2 トンプソン抽出
• アルゴリズム
26
3.5.2 トンプソン抽出
• 事前分布が不明ならばα=β=1といった無情報事前分布を仮
定する
• 指数型分布族以外の確率モデルでは近似計算により事後分布
を推定する必要がある(この部分についてはバンディット問題
に限ったことではない)
27
3.5.2 トンプソン抽出
• リグレット上界
※こちらも証明については4章で行う
28
3.5.3 トンプソン抽出とUCB方策の関係
• トンプソン抽出 : 乱数アルゴリズムで事後確率を計算
• UCB方策 : ヘフディングの不等式などからの確率の上界式か
ら計算
• 事後確率と尤度という方針は違うかもしれないが、どちらも
「期待値最大でいある確率が1/t以上のアームを選ぶ」という
方策として見なすことが出来る
29
3.6 最悪時の評価
• UCB方策のリグレット上界を例に取ると、Tが十分に大きい
場合はO(logT)オーダーとして見なすことが出来る
• 逆にΔがTに対して非常に小さい(もしくはKが非常に大きい)
場合は分布のパラメータである{𝜇𝑖}について依存しない形の
リグレット上界を考えることがある
• Tを固定して{𝜇𝑖}について最悪の場合を考えるということで再
悪事リグレット上界と呼ばれる
30

More Related Content

What's hot

[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
Deep Learning JP
 
20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則
koba cky
 
大規模凸最適化問題に対する勾配法
大規模凸最適化問題に対する勾配法大規模凸最適化問題に対する勾配法
大規模凸最適化問題に対する勾配法
京都大学大学院情報学研究科数理工学専攻
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
Taiji Suzuki
 
無限関係モデル (続・わかりやすいパターン認識 13章)
無限関係モデル (続・わかりやすいパターン認識 13章)無限関係モデル (続・わかりやすいパターン認識 13章)
無限関係モデル (続・わかりやすいパターン認識 13章)
Shuyo Nakatani
 
はじめてのパターン認識 第11章 11.1-11.2
はじめてのパターン認識 第11章 11.1-11.2はじめてのパターン認識 第11章 11.1-11.2
はじめてのパターン認識 第11章 11.1-11.2
Prunus 1350
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
 
深層強化学習でマルチエージェント学習(前篇)
深層強化学習でマルチエージェント学習(前篇)深層強化学習でマルチエージェント学習(前篇)
深層強化学習でマルチエージェント学習(前篇)
Junichiro Katsuta
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
 
バンディット問題について
バンディット問題についてバンディット問題について
バンディット問題について
jkomiyama
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
 
TalkingData AdTracking Fraud Detection Challenge (1st place solution)
TalkingData AdTracking  Fraud Detection Challenge (1st place solution)TalkingData AdTracking  Fraud Detection Challenge (1st place solution)
TalkingData AdTracking Fraud Detection Challenge (1st place solution)
Takanori Hayashi
 
DeepLearning 14章 自己符号化器
DeepLearning 14章 自己符号化器DeepLearning 14章 自己符号化器
DeepLearning 14章 自己符号化器
hirono kawashima
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
joisino
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布Nagayoshi Yamashita
 
「これからの強化学習」勉強会#1
「これからの強化学習」勉強会#1「これからの強化学習」勉強会#1
「これからの強化学習」勉強会#1
Chihiro Kusunoki
 
「統計的学習理論」第1章
「統計的学習理論」第1章「統計的学習理論」第1章
「統計的学習理論」第1章
Kota Matsui
 
3.3節 変分近似法(前半)
3.3節 変分近似法(前半)3.3節 変分近似法(前半)
3.3節 変分近似法(前半)tn1031
 
EEG analysis (nonlinear)
EEG analysis (nonlinear)EEG analysis (nonlinear)
EEG analysis (nonlinear)
Kenyu Uehara
 

What's hot (20)

[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
 
20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則20130716 はじパタ3章前半 ベイズの識別規則
20130716 はじパタ3章前半 ベイズの識別規則
 
大規模凸最適化問題に対する勾配法
大規模凸最適化問題に対する勾配法大規模凸最適化問題に対する勾配法
大規模凸最適化問題に対する勾配法
 
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
 
無限関係モデル (続・わかりやすいパターン認識 13章)
無限関係モデル (続・わかりやすいパターン認識 13章)無限関係モデル (続・わかりやすいパターン認識 13章)
無限関係モデル (続・わかりやすいパターン認識 13章)
 
はじめてのパターン認識 第11章 11.1-11.2
はじめてのパターン認識 第11章 11.1-11.2はじめてのパターン認識 第11章 11.1-11.2
はじめてのパターン認識 第11章 11.1-11.2
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
 
深層強化学習でマルチエージェント学習(前篇)
深層強化学習でマルチエージェント学習(前篇)深層強化学習でマルチエージェント学習(前篇)
深層強化学習でマルチエージェント学習(前篇)
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
バンディット問題について
バンディット問題についてバンディット問題について
バンディット問題について
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
 
TalkingData AdTracking Fraud Detection Challenge (1st place solution)
TalkingData AdTracking  Fraud Detection Challenge (1st place solution)TalkingData AdTracking  Fraud Detection Challenge (1st place solution)
TalkingData AdTracking Fraud Detection Challenge (1st place solution)
 
DeepLearning 14章 自己符号化器
DeepLearning 14章 自己符号化器DeepLearning 14章 自己符号化器
DeepLearning 14章 自己符号化器
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
 
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
パターン認識と機械学習(PRML)第2章 確率分布 2.3 ガウス分布
 
「これからの強化学習」勉強会#1
「これからの強化学習」勉強会#1「これからの強化学習」勉強会#1
「これからの強化学習」勉強会#1
 
「統計的学習理論」第1章
「統計的学習理論」第1章「統計的学習理論」第1章
「統計的学習理論」第1章
 
3.3節 変分近似法(前半)
3.3節 変分近似法(前半)3.3節 変分近似法(前半)
3.3節 変分近似法(前半)
 
EEG analysis (nonlinear)
EEG analysis (nonlinear)EEG analysis (nonlinear)
EEG analysis (nonlinear)
 

Recently uploaded

Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
Osaka University
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
Toru Tamaki
 
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMMハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
osamut
 
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライドHumanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
tazaki1
 
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
嶋 是一 (Yoshikazu SHIMA)
 
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobodyロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
azuma satoshi
 

Recently uploaded (7)

Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
 
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
 
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMMハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
 
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライドHumanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
 
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
 
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobodyロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
 

MLP輪読会 バンディット問題の理論とアルゴリズム 第3章