Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
貴八
Uploaded by
貴之 八木
PDF, PPTX
1,241 views
最適腕識別
株式会社Albertにて行われた輪読会の資料です. MLP(機械学習プロフェッショナルシリーズ)の「バンディット問題の理論とアルゴリズム」の第6章をまとめました.
Data & Analytics
◦
Read more
0
Save
Share
Embed
Embed presentation
Download
Download as PDF, PPTX
1
/ 36
2
/ 36
3
/ 36
4
/ 36
5
/ 36
6
/ 36
7
/ 36
8
/ 36
9
/ 36
10
/ 36
11
/ 36
12
/ 36
13
/ 36
14
/ 36
15
/ 36
16
/ 36
17
/ 36
18
/ 36
19
/ 36
20
/ 36
21
/ 36
22
/ 36
23
/ 36
24
/ 36
25
/ 36
26
/ 36
27
/ 36
28
/ 36
29
/ 36
30
/ 36
31
/ 36
32
/ 36
33
/ 36
34
/ 36
35
/ 36
36
/ 36
More Related Content
PPTX
バンディット問題について
by
jkomiyama
PPTX
最適腕識別と多重検定
by
Masa Kato
PDF
Ml professional bandit_chapter2
by
Takeru Maehara
PDF
混合ガウスモデルとEMアルゴリスム
by
貴之 八木
PDF
ベイズ推定の概要@広島ベイズ塾
by
Yoshitake Takebayashi
PDF
不均衡データのクラス分類
by
Shintaro Fukushima
PDF
統計的因果推論への招待 -因果構造探索を中心に-
by
Shiga University, RIKEN
PPTX
劣モジュラ最適化と機械学習1章
by
Hakky St
バンディット問題について
by
jkomiyama
最適腕識別と多重検定
by
Masa Kato
Ml professional bandit_chapter2
by
Takeru Maehara
混合ガウスモデルとEMアルゴリスム
by
貴之 八木
ベイズ推定の概要@広島ベイズ塾
by
Yoshitake Takebayashi
不均衡データのクラス分類
by
Shintaro Fukushima
統計的因果推論への招待 -因果構造探索を中心に-
by
Shiga University, RIKEN
劣モジュラ最適化と機械学習1章
by
Hakky St
What's hot
PDF
道具としての機械学習:直感的概要とその実際
by
Ichigaku Takigawa
PDF
ブラックボックス最適化とその応用
by
gree_tech
PDF
方策勾配型強化学習の基礎と応用
by
Ryo Iwaki
PDF
モンテカルロサンプリング
by
Kosei ABE
PDF
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
by
Kenyu Uehara
PDF
[DL輪読会]Deep Learning 第5章 機械学習の基礎
by
Deep Learning JP
PDF
機械学習におけるオンライン確率的最適化の理論
by
Taiji Suzuki
PDF
階層ベイズとWAIC
by
Hiroshi Shimizu
PDF
PRML輪読#1
by
matsuolab
PDF
比例ハザードモデルはとってもtricky!
by
takehikoihayashi
PPTX
新しい推薦方式 知識ベース型推薦についての解説
by
Takahiro Kubo
PDF
混合モデルとEMアルゴリズム(PRML第9章)
by
Takao Yamanaka
PDF
計算論的学習理論入門 -PAC学習とかVC次元とか-
by
sleepy_yoshi
PDF
変分推論法(変分ベイズ法)(PRML第10章)
by
Takao Yamanaka
PPTX
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
by
Deep Learning JP
PDF
自動微分変分ベイズ法の紹介
by
Taku Yoshioka
PDF
ノンパラベイズ入門の入門
by
Shuyo Nakatani
PDF
2 3.GLMの基礎
by
logics-of-blue
PPTX
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
by
Yoshitake Takebayashi
PDF
負の二項分布について
by
Hiroshi Shimizu
道具としての機械学習:直感的概要とその実際
by
Ichigaku Takigawa
ブラックボックス最適化とその応用
by
gree_tech
方策勾配型強化学習の基礎と応用
by
Ryo Iwaki
モンテカルロサンプリング
by
Kosei ABE
サポートベクターマシン(SVM)の数学をみんなに説明したいだけの会
by
Kenyu Uehara
[DL輪読会]Deep Learning 第5章 機械学習の基礎
by
Deep Learning JP
機械学習におけるオンライン確率的最適化の理論
by
Taiji Suzuki
階層ベイズとWAIC
by
Hiroshi Shimizu
PRML輪読#1
by
matsuolab
比例ハザードモデルはとってもtricky!
by
takehikoihayashi
新しい推薦方式 知識ベース型推薦についての解説
by
Takahiro Kubo
混合モデルとEMアルゴリズム(PRML第9章)
by
Takao Yamanaka
計算論的学習理論入門 -PAC学習とかVC次元とか-
by
sleepy_yoshi
変分推論法(変分ベイズ法)(PRML第10章)
by
Takao Yamanaka
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
by
Deep Learning JP
自動微分変分ベイズ法の紹介
by
Taku Yoshioka
ノンパラベイズ入門の入門
by
Shuyo Nakatani
2 3.GLMの基礎
by
logics-of-blue
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
by
Yoshitake Takebayashi
負の二項分布について
by
Hiroshi Shimizu
Viewers also liked
PPTX
6章 最適腕識別とA/Bテスト
by
智文 中野
PPTX
fastTextの実装を見てみた
by
Yoshihiko Shiraki
PDF
主成分分析
by
貴之 八木
PDF
トピックモデル
by
貴之 八木
PPTX
MLP輪読会 バンディット問題の理論とアルゴリズム 第3章
by
takashi usami
PDF
線形識別モデル
by
貴之 八木
PDF
Visualizing Data Using t-SNE
by
David Khosid
PDF
t-SNE
by
貴之 八木
PDF
High Dimensional Data Visualization using t-SNE
by
Kai-Wen Zhao
PDF
11 ak45b5 5
by
crom68
PDF
word2vec - From theory to practice
by
hen_drik
PPTX
Step by Stepで学ぶ自然言語処理における深層学習の勘所
by
Ogushi Masaya
PDF
勾配法
by
貴之 八木
PDF
最近の機械学習テクノロジーとビジネスの応用先 自然言語処理を中心に
by
tmprcd12345
PDF
新事業で目指す自然言語処理ビジネス、その未来 Machine Learning 15minutes! 発表資料
by
tmprcd12345
PDF
線形回帰モデル
by
貴之 八木
PDF
Data Visualization at codetalks 2016
by
Stefan Kühn
PDF
自然言語処理システムに想像力を与える試み
by
tm_2648
PDF
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
by
STAIR Lab, Chiba Institute of Technology
PDF
自然言語処理@春の情報処理祭
by
Yuya Unno
6章 最適腕識別とA/Bテスト
by
智文 中野
fastTextの実装を見てみた
by
Yoshihiko Shiraki
主成分分析
by
貴之 八木
トピックモデル
by
貴之 八木
MLP輪読会 バンディット問題の理論とアルゴリズム 第3章
by
takashi usami
線形識別モデル
by
貴之 八木
Visualizing Data Using t-SNE
by
David Khosid
t-SNE
by
貴之 八木
High Dimensional Data Visualization using t-SNE
by
Kai-Wen Zhao
11 ak45b5 5
by
crom68
word2vec - From theory to practice
by
hen_drik
Step by Stepで学ぶ自然言語処理における深層学習の勘所
by
Ogushi Masaya
勾配法
by
貴之 八木
最近の機械学習テクノロジーとビジネスの応用先 自然言語処理を中心に
by
tmprcd12345
新事業で目指す自然言語処理ビジネス、その未来 Machine Learning 15minutes! 発表資料
by
tmprcd12345
線形回帰モデル
by
貴之 八木
Data Visualization at codetalks 2016
by
Stefan Kühn
自然言語処理システムに想像力を与える試み
by
tm_2648
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
by
STAIR Lab, Chiba Institute of Technology
自然言語処理@春の情報処理祭
by
Yuya Unno
Similar to 最適腕識別
PPTX
確率的バンディット問題
by
jkomiyama
PDF
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
by
STAIR Lab, Chiba Institute of Technology
PDF
PRML 4.1 Discriminant Function
by
Shintaro Takemura
PDF
わかりやすいパターン認識 4章
by
Motokawa Tetsuya
PDF
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
by
Preferred Networks
PDF
はじめてのパターン認識 第6章 後半
by
Prunus 1350
PDF
PRML 第4章
by
Akira Miyazawa
PDF
はじパタ6章前半
by
T T
PDF
コンピュータ先端ガイド2巻3章勉強会(SVM)
by
Masaya Kaneko
PDF
はじめてのパターン認識 第8章 サポートベクトルマシン
by
Motoya Wakiyama
PDF
PRML 4.1 輪講スライド
by
KawaAkimune
PDF
PRML勉強会@長岡 第4章線形識別モデル
by
Shohei Okada
PPTX
わかりやすいパターン認識6章.pptx
by
KOKIFUJIWARA2
PDF
NLPforml5
by
Hidekazu Oiwa
PDF
Large-Scale Bandit Problems and KWIK Learning
by
Junya Saito
PPTX
強化学習 sutton本 2章
by
ssuseraf8536
PPT
130425 discrete choiceseminar_no.2
by
隆浩 安
PDF
Casual learning machine learning with_excel_no4
by
KazuhiroSato8
PDF
Coactive learning
by
Shunichi Mochizuki
PDF
サポートベクトルマシン入門
by
Wakamatz
確率的バンディット問題
by
jkomiyama
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
by
STAIR Lab, Chiba Institute of Technology
PRML 4.1 Discriminant Function
by
Shintaro Takemura
わかりやすいパターン認識 4章
by
Motokawa Tetsuya
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
by
Preferred Networks
はじめてのパターン認識 第6章 後半
by
Prunus 1350
PRML 第4章
by
Akira Miyazawa
はじパタ6章前半
by
T T
コンピュータ先端ガイド2巻3章勉強会(SVM)
by
Masaya Kaneko
はじめてのパターン認識 第8章 サポートベクトルマシン
by
Motoya Wakiyama
PRML 4.1 輪講スライド
by
KawaAkimune
PRML勉強会@長岡 第4章線形識別モデル
by
Shohei Okada
わかりやすいパターン認識6章.pptx
by
KOKIFUJIWARA2
NLPforml5
by
Hidekazu Oiwa
Large-Scale Bandit Problems and KWIK Learning
by
Junya Saito
強化学習 sutton本 2章
by
ssuseraf8536
130425 discrete choiceseminar_no.2
by
隆浩 安
Casual learning machine learning with_excel_no4
by
KazuhiroSato8
Coactive learning
by
Shunichi Mochizuki
サポートベクトルマシン入門
by
Wakamatz
最適腕識別
1.
バンディット問題の理論とアルゴリズム 第6章 最適腕識別とA/Bテスト
2.
今日おさえたいこと 最適腕識別の問題設定 累積報酬最大化との違い -最適腕識別の概要 最適腕識別の方策 ϵ
3.
今日までの話 「スロットマシンの期待値を推定しつつ累積報酬を最大化したい」 -> UCB, MED,
トンプソン抽出
4.
今日の話 「ある期間内で期待値最大のアームを高確率で識別したい」 -> UCB, MED,
トンプソン抽出??
5.
「期間内に期待値最大のアームを高確率で識別する問題」を最適腕識別と言います. どんな時に使うの?? 例えば,新製品や新たなウェブサイトの開発は試用期間と本稼働期間に分けられます. 試用期間の目的は累積報酬最大化ではなく,売上最大の製品やクリック率最大のデザイン識別です.
6.
最適腕識別(定式化) 各アーム からの報酬の確率分布をi =
1, 2, …, K ,その期待値をPi , 期待値最大のアーム(最適腕)を μi とします. 加えて, = argi ∗ maxi∈{1,2,…,K} μi と定義します.= −Δ i μ1 μi ここで簡単のため としています. (※ 勿論プレイヤーはこの事実を知りません.) ≥ ≥ ⋯ ≥μ1 μ2 μK
7.
プレイヤーは各時刻 にいずれかのアームt =
1, 2, … を引き, 確率分布 i = i(t) に独立に従う報酬Pi を観測します.(t)Xi そして,計 回アームを引いた後にT の推定値i ∗ を回答し, その誤認識別率 (T)i ̂ ∗ の最小化を目指します.= ℙ[ (T) ≠ ]Pe i ̂ ∗ i ∗
8.
いくつかの設定 固定予算 総選択数 が固定 固定信頼度 総選択数をプレイヤーが可変で決定 誤識別率が 以内となるまで選択し続ける. 期待値の高い上位
個のアームを列挙 これまでの設定は の場合 T δ δ ∈ (0, 1) m m = 1
9.
最適腕識別の方針 「期待値最大である可能性が高いアームに多くの選択数を割り振り, その可能性の低そうなアームについては早めに探索を打ち切る」 直感的な方針は累積報酬最大化と同じですが,UBCやトンプソン抽出を そのまま適用してもうまくいきません.(良い結果は得られません)
10.
正規分布のA/Bテスト に置ける固定予算K = 2
での最適腕識別を考えます. 報酬はそれぞれ正規分布 T に従い,N( , )μi σ2 , 分散>μ1 μ2 は既知とします.σ2 この問題の最適方策は,両方のアームを 回ずつ引いた後に標本平均T/2 が 大きいアーム û i を最適腕の推定値にすることです.(T) = argi ̂ ∗ maxi û i
11.
= 1 −
Φ ( ) ≈Pe ( − )T‾‾√ μ1 μ2 2σ e − T( −μ1 μ2 ) 2 8σ2 この場合,標本平均の差 は正規分布−û 2 û 1 に従うため, この方策の誤識別率 N( − , 4 /T)μ2 μ1 σ2 は以下のようになります.Pe ※ 誤識別率は に対して指数関数的に減少します.T 一方で,累積報酬は期待値最大でないアームを必ず 回引くため,T/2 となります.regret = ( − )T/2μ1 μ2 ※ のリグレットが発生します.O(T ) 誤識別率は良いですが,累積報酬は良くありません.
12.
(t) = +μi¯
μ̂ i 2 log t ni ‾ ‾‾‾‾‾‾ √ KL-UCBを適用した場合 正規分布におけるKL-UCB方策は以下のスコアが最大のアームを引く方策です. ※ の導出にはμ̂ i を利用します.D(N( , )||N( , )) =μ1 σ2 μ2 σ2 ( −μ2 μ1 ) 2 2σ2
13.
この方策のもとで,最適腕に比べて期待値が だけ小さいアームΔ >
0 を引く回数は,i 程度で抑えられることが示されます.(??)(T) =Ni 2 log Tσ2 Δ 2 この結果は, 回程度引いた時点で期待値が最大のものより2 log Tσ2 Δ 2 以上小さいこと が見込まれるアームはそれ以降引かれないことを意味しています. Δ > 0
14.
P[ ≈ −
Δ] ≈μ̂ 1 μ2 T − ( − +Δμ1 μ2 ) 2 Δ 2 アーム2からの標本平均が となり,アーム1からの≈μ̂ 2 μ2 個のサンプルの 標本平均が =T0 2 log Tσ2 Δ 2 となった場合にはアーム2を最適腕だと誤認識してしまいます.≈ − Δμ̂ 1 μ2 このような事象は以下の確率で起こり, 精密な下限をとると,誤識別率が となります. 累積報酬は良いですが,誤認識率は良くありません. (※ リグレットは >Pe T −1 を実現するため優れています.)O(log T)
15.
累積報酬最大化の方策では,選択数のほとんどが期待値最大と推定されるアームに費やさ れるため, 最適腕とそれ以外のアームで隔たりが非常に大きくなりうまくいきません. (多項式オーダー の誤識別率が限界です)exp(−O(log
T )) 一方で, 各アームの選択数を同程度のオーダーにする ことで, の誤識別率が達成可能となります. 累積報酬最大化と最適腕識別は両立できません. e −O(T)
16.
最適腕識別の理想的な目標は, 「期待値が のアームを発見する」 ですが,これに基づいた手法は必ずしも有効ではありません. =μ ∗ maxi
μi (※ 本質的に解決不可能な問題を含んでいます.)
17.
そこで,許容幅 を事前に定めて, 「期待値が ϵ ≥
0 以上のアームを1つ以上発見する」 という問題を考えることで現実的な性能を得られることがあります. − ϵμ ∗ このように許容幅 を設定する定式化をϵ ≥ 0 -最適腕識別と呼び, 期待値が ϵ 以上のアームを− ϵμ∗ -最適腕と呼びます.ϵ
18.
例として,それぞれの報酬が分散 の正規分布に従う3本のアームがあり, 期待報酬がそれぞれ = 1σ2 である場合を考えます.=
0.501, 0.5, 0.1μi
19.
この場合,アーム1とアーム2の期待値は非常に近いため, どちらが真に期待値が大きいかを判断するには大量のサンプルが必要になります. 結果として誤識別を最小にするには,アーム3を引く割合を0.00017%程度に抑えて, 残りをアーム1とアーム2の期待値比較にために引くことになります.
20.
ただし,仮に期待値0.001だけ劣ったものを誤識別したとしても, ある程度の誤差であれば許容する場合がほとんどです. したがって,先ほどの例ではアーム2の誤識別率を抑えることよりも, アーム3の誤識別率を抑えることのほうが重要です.
21.
そこで, に対してϵ >
0.001 -最適腕識別の方策を考えます.ϵ すると,総選択数の大部分を似通ったアームの比較に費やすことがなくなり, アーム3(大きく劣ったアーム)を誤識別する確率を小さく抑えることができます.
22.
ところで,最適腕識別にも達成可能な理論限界が 存在することはある程度知られています. 所定の誤識別率を達成するのに必要な試行回数の指標を標本複雑度と呼び, -最適腕識別における難しさとして用いることができます.ϵ
23.
= +Hϵ 1 2( −
+ ϵμ1 μ2 ) 2 ∑ i=2 K 1 2( − + ϵμ1 μ2 ) 2 各アームからの報酬が区間 上に分布している場合を考えます.[0, 1] このモデルにおける -最適腕識別における問題の難しさϵ を ここでは次の量により定義し,標本複雑度として用います. Hϵ
24.
log (1/δ)Hϵ 標本複雑度 の問題Hϵ
に対して, 誤識別率 ≥ ≥ ⋯ ≥μ1 μ2 μK でδ > 0 -最適腕識別を行うためには一般にϵ 程度のサンプル数が必要となります. この量は かつϵ = 0 をμ2 に近づけた時発散しますが,μ1 では高々ϵ > 0 と有限で抑えられるため,K/(2 )ϵ2 -最適腕識別を考える利点の1つとなります.ϵ
25.
事前に定めた に対して,ϵ ≥
0 -最適腕識別を行う方策について考えます.ϵ リグレット最小化の場合と同様に,信頼区間の考え方が重要です. ただし,最適腕識別では信頼上限だけでなく信頼下限も考える点が異なります.
26.
累積報酬最大化の場合,UCBスコア とμi ̂ ∗¯ を比較することは, 真値 μi¯ と信頼区間の上限μi ̂ ∗
を比較することとほとんど同値でした.μ¯ i その結果として,UCBスコアの比較により が 真に期待値最大かどうかを検証することができました. i ̂ ∗
27.
一方で,最適腕識別では が真の最適腕であるか検証するには, 「 = argi ̂ ∗ maxi
μ̂ i が偶然大きくなった」 「 μ̂ i ̂ ∗ でi ≠ i ̂ ∗ が偶然小さくなった」 という2つの可能性を考慮する必要があります. μ̂ i そこで,前者の寄与を割り引くためにアーム の期待値についての信頼下限を考えることで,i ̂ ∗ が真の最適腕かを高精度で検証します.i ̂ ∗
28.
-最適腕識別を行う方策として逐次削除方策があります. これは,最適腕である可能性が残っているアームを一様に選択していく方策です. ϵ
29.
逐次削除方策では -最適腕である可能性が残っているアームのリストを用意しておき, 各反復 ϵ においてそのリスト内のアームを1回ずつ引きます.n =
1, 2, … その際,基準1を満たしていれば探索候補から外し, 基準2を満たしていればそれを -最適腕として出力します. (※ 基準1と基準2に関しては次のスライドで説明します) ϵ
30.
= + ,
= −μ¯ i,n μ̂ i,n β(n, δ) 2n ‾ ‾‾‾‾‾‾ √ μ ⎯⎯i,n μ̂ i,n β(n, δ) 2n ‾ ‾‾‾‾‾‾ √ 基準1と基準2を説明するために, 各アームの期待値 の信頼度μi での上界と下界をそれぞれe −β(n,δ) とします.
31.
基準1 期待値の上界 が最適腕の期待値の下界μ¯ i,n より小さいアームは, 最適腕である見込みがないとみなして探索候補から除外します. μ ⎯⎯
,ni ̂ ∗ この例では青い分布に対応するアームが探索候補から除外されます.
32.
基準2 最適腕の期待値の現時点での下界 に許容幅μ ⎯⎯i ̂ ∗ を加えたものが, それ以外のアームの期待値の上界 ϵ を上回った時点で,それをμ¯ i ̂ ∗
-最適腕として出力します.ϵ この例では赤い分布に対応するアームが -最適腕として出力されます.ϵ
33.
逐次削除方策は探索範囲を狭めながら, 各アーム満遍なく探索するアルゴリズムと言えます. この方策は全てのアームを同オーダーの回数で引くべきという直感に合っており, 実装も解析も比較的容易ですが,経験的な性能がやや悪くなる場合があります.
34.
最適腕の候補として残っているアームを一様に選択するのではなく, 最適腕の推定に役立つアームを適応的に選択する方策としてLUCB方策があります. LUCB方策では探索が終了しなかった場合に,最適腕の期待値の下限 とそれ以外の アームの期待値の上限 (t)μ ⎯⎯i ̂ ∗ の差が広がるように,アーム(t)μ¯ i ̂ ∗∗ とアームi
̂ ∗ を引きます.i ̂ ∗∗
35.
LUCB方策では推定された最適腕 を各反復ごとに選択するため, 最適腕の選択数が過度に多くなってしまいます. i ̂ ∗ そこで,反復ごとにアーム
とアームi ̂ ∗ のうちサンプル数が小さいもの のみを選択する方策として,UGapE方策が提案されています. i ̂ ∗∗
36.
おしまい
Download