Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
EN
TU
Uploaded by
takashi usami
PPTX, PDF
1,655 views
MLP輪読会 バンディット問題の理論とアルゴリズム 第3章
MPL輪読会21回目 バンディット問題の理論とアルゴリズム 第3章 確率的バンディット問題の方策
Technology
◦
Read more
2
Save
Share
Embed
Embed presentation
Download
Download to read offline
1
/ 30
2
/ 30
3
/ 30
4
/ 30
5
/ 30
6
/ 30
7
/ 30
8
/ 30
9
/ 30
10
/ 30
11
/ 30
12
/ 30
13
/ 30
14
/ 30
15
/ 30
16
/ 30
17
/ 30
18
/ 30
19
/ 30
20
/ 30
21
/ 30
22
/ 30
23
/ 30
24
/ 30
25
/ 30
26
/ 30
27
/ 30
28
/ 30
29
/ 30
30
/ 30
More Related Content
PDF
スパース推定法による統計モデリング(入門)
by
Hidetoshi Matsui
PDF
DSIRNLP#1 ランキング学習ことはじめ
by
sleepy_yoshi
PDF
Newman アルゴリズムによるソーシャルグラフのクラスタリング
by
Atsushi KOMIYA
PPTX
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
by
RyuichiKanoh
PDF
バンディットアルゴリズム入門と実践
by
智之 村上
PDF
これからの仮説検証・モデル評価
by
daiki hojo
PDF
関数データ解析の概要とその方法
by
Hidetoshi Matsui
PDF
因果探索: 基本から最近の発展までを概説
by
Shiga University, RIKEN
スパース推定法による統計モデリング(入門)
by
Hidetoshi Matsui
DSIRNLP#1 ランキング学習ことはじめ
by
sleepy_yoshi
Newman アルゴリズムによるソーシャルグラフのクラスタリング
by
Atsushi KOMIYA
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
by
RyuichiKanoh
バンディットアルゴリズム入門と実践
by
智之 村上
これからの仮説検証・モデル評価
by
daiki hojo
関数データ解析の概要とその方法
by
Hidetoshi Matsui
因果探索: 基本から最近の発展までを概説
by
Shiga University, RIKEN
What's hot
PDF
階層モデルの分散パラメータの事前分布について
by
hoxo_m
PPTX
金融時系列のための深層t過程回帰モデル
by
Kei Nakagawa
PDF
Ml professional bandit_chapter2
by
Takeru Maehara
PPTX
ベイズファクターとモデル選択
by
kazutantan
PPTX
勾配降下法の最適化アルゴリズム
by
nishio
PDF
負の二項分布について
by
Hiroshi Shimizu
PDF
[DL輪読会]近年のエネルギーベースモデルの進展
by
Deep Learning JP
PDF
PRML輪読#1
by
matsuolab
PDF
計量経済学と 機械学習の交差点入り口 (公開用)
by
Shota Yasui
PDF
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
by
Ken'ichi Matsui
PDF
バンディット問題の理論とアルゴリズムとその実装
by
EinosukeIida
PDF
適切なクラスタ数を機械的に求める手法の紹介
by
Takeshi Mikami
PDF
2 6.ゼロ切断・過剰モデル
by
logics-of-blue
PDF
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
by
Megagon Labs
PPTX
[DL輪読会]Neural Ordinary Differential Equations
by
Deep Learning JP
PDF
統計的因果推論勉強会 第1回
by
Hikaru GOTO
PDF
変分推論と Normalizing Flow
by
Akihiro Nitta
PDF
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
by
Deep Learning JP
PPTX
5分でわかるベイズ確率
by
hoxo_m
PDF
グラフニューラルネットワークとグラフ組合せ問題
by
joisino
階層モデルの分散パラメータの事前分布について
by
hoxo_m
金融時系列のための深層t過程回帰モデル
by
Kei Nakagawa
Ml professional bandit_chapter2
by
Takeru Maehara
ベイズファクターとモデル選択
by
kazutantan
勾配降下法の最適化アルゴリズム
by
nishio
負の二項分布について
by
Hiroshi Shimizu
[DL輪読会]近年のエネルギーベースモデルの進展
by
Deep Learning JP
PRML輪読#1
by
matsuolab
計量経済学と 機械学習の交差点入り口 (公開用)
by
Shota Yasui
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
by
Ken'ichi Matsui
バンディット問題の理論とアルゴリズムとその実装
by
EinosukeIida
適切なクラスタ数を機械的に求める手法の紹介
by
Takeshi Mikami
2 6.ゼロ切断・過剰モデル
by
logics-of-blue
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
by
Megagon Labs
[DL輪読会]Neural Ordinary Differential Equations
by
Deep Learning JP
統計的因果推論勉強会 第1回
by
Hikaru GOTO
変分推論と Normalizing Flow
by
Akihiro Nitta
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
by
Deep Learning JP
5分でわかるベイズ確率
by
hoxo_m
グラフニューラルネットワークとグラフ組合せ問題
by
joisino
Similar to MLP輪読会 バンディット問題の理論とアルゴリズム 第3章
PDF
Ml professional bandit_chapter1
by
Takeru Maehara
PPTX
確率的バンディット問題
by
jkomiyama
PPTX
バンディット問題について
by
jkomiyama
PDF
バンディットアルゴリズム概論
by
Yoshinori Fukushima
PDF
Asymptotically optimal policies in multiarmed bandit problems
by
j_honda
PDF
finite time analysis of the multiarmed bandit problem
by
shima o
Ml professional bandit_chapter1
by
Takeru Maehara
確率的バンディット問題
by
jkomiyama
バンディット問題について
by
jkomiyama
バンディットアルゴリズム概論
by
Yoshinori Fukushima
Asymptotically optimal policies in multiarmed bandit problems
by
j_honda
finite time analysis of the multiarmed bandit problem
by
shima o
MLP輪読会 バンディット問題の理論とアルゴリズム 第3章
1.
DATUMSTUDIO株式会社 宇佐見崇 MLP輪読会 バンディット問題の理論とアルゴリズム 第3章 確率的バンディット問題の方策 ©
2016 DATUM STUDIO Co. Ltd. PROPRIETARY & 1
2.
自己紹介 • 宇佐見崇 • Y!(開発)
-> ソシャゲ(開発・分析) -> ソシャゲ(分析) -> DATUMSTUDIO株式会社(分析・コンサル) • 大学時代は生物統計専攻 • オープンセミナーで高校生のクジラやマグロをやりたいという夢を潰す • 2週間ほど東シナ海で実習経験あり • 趣味 : ゲーム 2
3.
この章でやること • 確率的バンディット(報酬が何らかの確率分布に従って生成) の定式化と理論限界について • 理論限界を達成可能な代表的な方策の紹介(≠証明) 3
4.
3.1 定式化 • 前提条件 •
K : スロットマシンのアームの本数 • i : アームの番号 • t : 時刻 • 𝜇𝑖 : 報酬の期待値 • P𝑖 = 𝑃(𝜇𝑖) : 報酬の確率分布 • : 最大期待値(つまりできるだけこれをあて続けたい) • : 最大期待値となるアーム • μ* T : 最大期待値となるアームを引き続けたときの累積報酬最大期待値 • : 1回毎の最大期待値と実際の期待値との差 4
5.
3.1 定式化 • N𝑖(𝑡)
: 時刻tの開始時点までにアームiを引いた回数 確率的バンディットでのリグレット • : リグレットの期待値 ※このリグレットは確率的バンディットでのみ用いられる 5 時間ベースでの総和 回数ベースでの総和
6.
3.2 理論限界 • リグレットを小さくするという問題は期待値最大ではない アームに対して選択数を小さくする問題と同等になる •
その選択数はどこまで小さくすることが出来るか、が理論限 界にあたる • 理論限界は以下のように定義される • 一貫性を持つとリグレットは多項式オーダーより小さくなる • O(logT)オーダーまで小さくした方策を紹介する 6 誤植あり 𝑜 𝑇 𝑎 => 𝑂(𝑇 𝑎 )
7.
3.2 理論限界 • 一貫性を持つ方策のリグレット下界 7
8.
3.3 ε-貪欲法 • アルゴリズム 8
9.
3.3 ε-貪欲法 • アルゴリズムの例 1.
全体のアームの選択数を100回、アームの本数を5本とする 2. ε=0.2とする 3. すべてのアームを0.2 * 100 / 5 = 4回ずつ引く 4. 残りの80回は一番期待値の高かったアームを引く • なんとなる分かること • εの値をどれくらいに設定すればいいか分からない • 活用期間に一番期待値の高いアームの選択を誤ると… 9
10.
3.3 ε-貪欲法 • リグレット上界 10
11.
3.3 ε-貪欲法 • εの調整に非常に敏感 •
O(logT)のリグレットを達成するためにはε= O((logT)/T)としてやる必要があ る • 係数部分は(未知である) に依存して決められる必要もある • 期待値が最大に近いアームも劣っているアームも同じ回数の 探索が必要 11
12.
3.4 尤度に基づく方法 • 理論限界から期待値最大でないそれぞれのアームをΩ(logt) 回程度は選択しなければいけない •
ある時刻tにおいてそのアームを1/t(logtをtで微分)程度は必 要となる • 逆説的に考えると各時刻に1/t程度の確率で期待値最大ではな いアームを選ぶことができれば理論限界と同じオーダーのリ グレットが見込める 12
13.
3.4.1 UCB方策 • Upper
Confidence Boundの略 • 報酬最大化のためには報酬期待値が高いアームを引くことが 必要 • 報酬期待値が高いアームの選択数は多くなりがち • 選択数が低いアームについては標本平均が真の期待値に収束 しない可能性がある • これらのバランスを取って、各時刻に1/t程度の確率で確率最 大でないアームも選ぶようにする 13
14.
3.4.1 UCB方策 • アルゴリズム 14
15.
3.4.1 UCB方策 • はじめに全部1回ずつ引き、その後は1回ずつスコアを計算し て探索期間と活用期間を兼ねながら進めていく •
スコアは以下の式で算出 ※導出はヘフディングの不等式から 15
16.
3.4.1 UCB方策 • リグレット上界 ※証明は4章で行うとのこと 16
17.
3.4.1 UCB方策 • UCB方策
: スコアはヘフディングの不等式に基づく • KL-UCB方策 : スコアはチェルノフ・ヘフディングの不等式 に基づく • より精密な確率の上界を与えるKLダイバージェンスを用いて いる 17
18.
3.4.1 UCB方策 • リグレット上界 ※UCB方策の証明に基づく •
理論限界を達成することは可能だが、KLダイバージェンスの μに対する逆関数を計算する必要あり 18
19.
3.4.2 MED方策 • Minimum
Empirical Divergenceの略 • 期待値最大ではないアームの選択率が1/t程度になるように選 択率を直接操作する • 直感的理解が容易なものとしてDMED方策(Deterministic Minimum Empirical Divergence policy)を例に挙げている 19
20.
3.4.2 MED方策 • アルゴリズム 20
21.
3.4.2 MED方策 • 現在のループで引くべきアームのリストを実行する •
実行途中で次のループで引くべきアームのリストを作成する • アームのリストは以下のどちらかの式(同値)で決定される • 「期待値最大である尤度が1/t以上のアームを引く」方策であ る 21
22.
3.4.2 MED方策 • 先程の式を変形すると が得られて、論理限界が示す最低限必要な回数だけ探索を行 うことをDMED方策が目指していることを言える •
リグレット上界 22 ≦
23.
3.5 確率一致法とトンプソン抽出 • 確率一致法 •
「それぞれのアームが期待値最大である確率」を定式化し、引くアームをその 確率に従いランダムに選択する • 例としてソフトマックス法が挙げられる 23
24.
3.5.1 確率一致法の特徴と解釈 • バッチ更新に対して頑健である •
計算量や運用上の都合により遅延を含んでデータが与えられることがしばしば ある • そういった場合、データが送られてくるまで、同じアームを引き続ける可能性 がある • 乱数によって引くアームが決定されるため、各アームの選択回数がある程度は 保証される 24
25.
3.5.2 トンプソン抽出 • 確率一致法をベイズ統計の枠組みで定式化したもの •
ベイズ更新を行うため、共役事前分布が仮定できると計算が 容易になる • 今回はベルヌーイ分布モデルを仮定する(つまりアームが2本 の場合) 25
26.
3.5.2 トンプソン抽出 • アルゴリズム 26
27.
3.5.2 トンプソン抽出 • 事前分布が不明ならばα=β=1といった無情報事前分布を仮 定する •
指数型分布族以外の確率モデルでは近似計算により事後分布 を推定する必要がある(この部分についてはバンディット問題 に限ったことではない) 27
28.
3.5.2 トンプソン抽出 • リグレット上界 ※こちらも証明については4章で行う 28
29.
3.5.3 トンプソン抽出とUCB方策の関係 • トンプソン抽出
: 乱数アルゴリズムで事後確率を計算 • UCB方策 : ヘフディングの不等式などからの確率の上界式か ら計算 • 事後確率と尤度という方針は違うかもしれないが、どちらも 「期待値最大でいある確率が1/t以上のアームを選ぶ」という 方策として見なすことが出来る 29
30.
3.6 最悪時の評価 • UCB方策のリグレット上界を例に取ると、Tが十分に大きい 場合はO(logT)オーダーとして見なすことが出来る •
逆にΔがTに対して非常に小さい(もしくはKが非常に大きい) 場合は分布のパラメータである{𝜇𝑖}について依存しない形の リグレット上界を考えることがある • Tを固定して{𝜇𝑖}について最悪の場合を考えるということで再 悪事リグレット上界と呼ばれる 30
Download