Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
智文 中野
PPTX, PDF
1,684 views
6章 最適腕識別とA/Bテスト
MLPシリーズ「バンディット問題の理論とアルゴリズム」の勉強会、6章の発表資料です。
Science
◦
Read more
0
Save
Share
Embed
Embed presentation
Download
Download to read offline
1
/ 19
2
/ 19
3
/ 19
4
/ 19
5
/ 19
6
/ 19
7
/ 19
8
/ 19
9
/ 19
10
/ 19
11
/ 19
12
/ 19
13
/ 19
14
/ 19
15
/ 19
16
/ 19
17
/ 19
18
/ 19
19
/ 19
More Related Content
PPTX
最適腕識別と多重検定
by
Masa Kato
PDF
最適腕識別
by
貴之 八木
PDF
Ml professional bandit_chapter2
by
Takeru Maehara
PDF
アンサンブル木モデル解釈のためのモデル簡略化法
by
Satoshi Hara
PDF
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
by
takehikoihayashi
PPTX
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
by
Deep Learning JP
PDF
「統計的学習理論」第1章
by
Kota Matsui
PDF
Stanコードの書き方 中級編
by
Hiroshi Shimizu
最適腕識別と多重検定
by
Masa Kato
最適腕識別
by
貴之 八木
Ml professional bandit_chapter2
by
Takeru Maehara
アンサンブル木モデル解釈のためのモデル簡略化法
by
Satoshi Hara
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
by
takehikoihayashi
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
by
Deep Learning JP
「統計的学習理論」第1章
by
Kota Matsui
Stanコードの書き方 中級編
by
Hiroshi Shimizu
What's hot
PDF
バンディットアルゴリズム入門と実践
by
智之 村上
ODP
音声認識の基礎
by
Akinori Ito
PDF
時系列分析による異常検知入門
by
Yohei Sato
PDF
Deep Learning Lab 異常検知入門
by
Shohei Hido
PDF
確率的主成分分析
by
Mika Yoshimura
PDF
探索と活用の戦略 ベイズ最適化と多腕バンディット
by
H Okazaki
PDF
ベイズ統計入門
by
Miyoshi Yuya
PPTX
マルコフ連鎖モンテカルロ法
by
Masafumi Enomoto
PDF
Stan超初心者入門
by
Hiroshi Shimizu
PPTX
[DL輪読会]モデルベース強化学習とEnergy Based Model
by
Deep Learning JP
PDF
Control as Inference (強化学習とベイズ統計)
by
Shohei Taniguchi
PDF
機械学習システムのアーキテクチャアラカルト
by
BrainPad Inc.
ZIP
今さら聞けないカーネル法とサポートベクターマシン
by
Shinya Shimizu
PDF
学振特別研究員になるために~知っておくべき10のTips~[平成29年度申請版]
by
Masahito Ohue
PDF
最適化計算の概要まとめ
by
Yuichiro MInato
PDF
ノンパラベイズ入門の入門
by
Shuyo Nakatani
PDF
Recent Advances on Transfer Learning and Related Topics Ver.2
by
Kota Matsui
PPTX
確率的バンディット問題
by
jkomiyama
PPTX
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
by
nocchi_airport
PPTX
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
by
Daichi Kitamura
バンディットアルゴリズム入門と実践
by
智之 村上
音声認識の基礎
by
Akinori Ito
時系列分析による異常検知入門
by
Yohei Sato
Deep Learning Lab 異常検知入門
by
Shohei Hido
確率的主成分分析
by
Mika Yoshimura
探索と活用の戦略 ベイズ最適化と多腕バンディット
by
H Okazaki
ベイズ統計入門
by
Miyoshi Yuya
マルコフ連鎖モンテカルロ法
by
Masafumi Enomoto
Stan超初心者入門
by
Hiroshi Shimizu
[DL輪読会]モデルベース強化学習とEnergy Based Model
by
Deep Learning JP
Control as Inference (強化学習とベイズ統計)
by
Shohei Taniguchi
機械学習システムのアーキテクチャアラカルト
by
BrainPad Inc.
今さら聞けないカーネル法とサポートベクターマシン
by
Shinya Shimizu
学振特別研究員になるために~知っておくべき10のTips~[平成29年度申請版]
by
Masahito Ohue
最適化計算の概要まとめ
by
Yuichiro MInato
ノンパラベイズ入門の入門
by
Shuyo Nakatani
Recent Advances on Transfer Learning and Related Topics Ver.2
by
Kota Matsui
確率的バンディット問題
by
jkomiyama
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
by
nocchi_airport
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
by
Daichi Kitamura
Viewers also liked
PPTX
Wilson score intervalを使った信頼区間の応用
by
智文 中野
PPTX
ベルヌーイ分布における超パラメータ推定のための経験ベイズ法
by
智文 中野
PPTX
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
by
智文 中野
PPTX
ノンパラメトリックベイズ4章クラスタリング
by
智文 中野
PDF
p5.js について
by
reona396
PDF
MLaPP 5章 「ベイズ統計学」
by
moterech
PPTX
異常検知と変化検知 7章方向データの異常検知
by
智文 中野
PPTX
What to Upload to SlideShare
by
Slideshare
PDF
Getting Started With SlideShare
by
Slideshare
Wilson score intervalを使った信頼区間の応用
by
智文 中野
ベルヌーイ分布における超パラメータ推定のための経験ベイズ法
by
智文 中野
ブートストラップ手法を用いた学習不用語の除去(言語と統計2015)
by
智文 中野
ノンパラメトリックベイズ4章クラスタリング
by
智文 中野
p5.js について
by
reona396
MLaPP 5章 「ベイズ統計学」
by
moterech
異常検知と変化検知 7章方向データの異常検知
by
智文 中野
What to Upload to SlideShare
by
Slideshare
Getting Started With SlideShare
by
Slideshare
6章 最適腕識別とA/Bテスト
1.
6章 最適腕識別と A/Bテスト 機械学習プロフェッショナルシリーズ勉強会 「バンディット問題の理論とアルゴリズム」 発表担当 VOYAGE
GROUP 中野智文
2.
自己紹介 • 中野智文 • VOYAGE
GROUP • 広告データの分析 • その前は • 質問応答システム • 検索ランキングアルゴリズム • 教育のための機械学習・統計 • 将棋
3.
最適腕識別とA/Bテスト • 最適腕識別(best arm
identification) • 累積報酬の最大化ではなく、(将来の)報 酬が最大の腕を識別すること • 最適腕識別において、K=2 (腕の数が2)のと き、 • A/Bテストとよぶ • ただし一般の「バンディット問題」では最適腕 識別を含むことがある
4.
6.1 A/Bテスト定式化 腕の番号: 報酬の期待値: 期待値最大の腕: 最大と二番手の差:
5.
固定予算 時刻: 報酬: (最大腕)推定: 誤り確率 (誤識別率): 時刻tに引いた腕:
6.
固定信頼度 誤識別率が δ 以内であると確信できるまで。 を満たしつつ を最小化する 次を満たす停止規則を設定する必要がある
7.
6.1.1 累積報酬最大化との違い • 累積報酬最大化: •
選択の殆どが期待大と推定される腕に • 誤識別率はTに対して多項式オーダー • A/Bテスト: • 全ての腕に同程度 • 誤識別率はTに対して指数オーダー 例6.1参照
8.
例6.1 メモ 腕を均等に引く場合の 誤識別率: →多項式的な減衰 KL-UCBの誤識別率: →指数的な減衰
9.
6.1.2 ε-最適腕識別 • 本質的に解決不可能 •
例: μ = 0.501, 0.5 • ε最適腕識別: • 期待値が↓以上の腕を識別する
10.
μ = 0.501,
0.5, 0.1 の例 メモ 0.501 と 0.5の誤識別率 0.5 と 0.1のサンプルサイズ n3は全体の
11.
標本複雑度 必要なサンプルサイズ (本にはサンプル数とありますが…)
12.
メモ • 偶然 になる確率 •
ヘフディングの不等式によると、サンプルサ イズが少なくとも • ないと、 未満という仮説を棄却でき ない • それ以外も同様な話
13.
6.3 最適腕識別の方策 • 信頼上限(UCB;
upper confidence bound) • 信頼下限(LCB; lower confidence bound)も使 う • 最も期待値の高い腕の信頼下限 • よりそれ以外の全ての(信頼上限―ε) が小さければ終了 • より信頼上限が小さい腕は排除 • 探索候補腕全試し
14.
信頼上限と信頼下限 信頼上限 信頼下限
16.
6.3.2 スコアに基づく方法 • 1番手の下限と、2番手の上限の差が広がる ように、1番手と2番手のみを引く。
17.
UGapE方策では、期待値が大きい方 ばかり選ばれる可能性があるので、サ ンプルサイズの小さい方を選ぶ。
18.
6.4 固定予算の設定 もし ならば、誤識別率を で抑えることが出来るが、Hεを知らない。 つまり固定予算は未解決
19.
雑感 • LUCB方策で用いる信頼区間を変えたい • 上下対称なので、修正Wald法や、Wilson score
interval などにした方が良さそう • 動的なABテストは現実的に厳しい • 前の報酬が判明する前に次の腕を引く • ログの問題。広告であれば表示からク リックまでもタイムラグがある。 • 開発コスト。Webであればクッキーを使っ たL7スイッチで実現したい。
Editor's Notes
#5
i = 1,2,...K \mu_i i^* = \arg\max_{i\in\{1,2,...,K\}}\mu_{i} \mu_{1} \geq \mu_{2} \geq \cdots \geq \mu_{K} \Delta_i = \mu_1 - \mu_i
#6
t=1,2,... i(t) X_{i(t)} i^{\hat{*}}(T) P_{e} = \mathbb{P} \bigl[ i^{\hat{*}}(T) \ne i^{*} \bigr]
#7
\delta \mathbb{P} \bigl[ i^{\hat{*}}(\tau) \ne i^{*} \bigr] \leq \delta \mathbb{E} \bigl[ \tau \bigr]
#8
e^{-O(T)}
#9
e^{-\frac{T(\mu_1-\mu_2)^{2}}{8\sigma}} T^{-1}
#10
\mu^{*}-\epsilon
#11
e^{\frac{T(\mu_1-\mu_2)^{2}}{8\sigma}} e^{-\frac{0.000001}{8}T} n_3 \geq \frac{0.0001}{64}T \frac{0.0001}{64} \approx 0.0000156 \approx 0.0016 \%
#12
H_\epsilon = \frac{1}{2(\mu_1-\mu_2+\epsilon)^2} + \sum_{i=2}^{K}\frac{1}{2(\mu_1-\mu_i+\epsilon)^2} H_\epsilon \log(1/\delta)
#13
\hat{\mu}_1 = \mu n_1 = \frac{1}{2(\mu_1 - \mu_2+\epsilon)^2}\log(1/\delta) \mu_1 + \epsilon
#15
\overline{\mu}_{i,n} = \hat{\mu}_{i,n}+\sqrt{\frac{\beta(n,\delta)}{2n}} \underline{\mu}_{i,n} = \hat{\mu}_{i,n}-\sqrt{\frac{\beta(n,\delta)}{2n}}
#19
H_\epsilon \leq C/b \beta^\prime(t,T) = bT = \log \frac{1}{e^{-bT}} O(e^{-bT})
Download