6章最適腕識別とA/Bテスト

6章最適腕識別と
A/Bテスト
機械学習プロフェッショナルシリーズ勉強会
「バンディット問題の理論とアルゴリズム」
発表担当 VOYAGE GROUP 中野智文

自己紹介
• 中野智文
• VOYAGE GROUP
• 広告データの分析
• その前は
• 質問応答システム
• 検索ランキングアルゴリズム
• 教育のための機械学習・統計
• 将棋

最適腕識別とA/Bテスト
• 最適腕識別(best arm identification)
• 累積報酬の最大化ではなく、（将来の）報
酬が最大の腕を識別すること
• 最適腕識別において、K=2 (腕の数が2)のと
き、
• A/Bテストとよぶ
• ただし一般の「バンディット問題」では最適腕
識別を含むことがある

6.1 A/Bテスト定式化
腕の番号:
報酬の期待値:
期待値最大の腕:
最大と二番手の差:

固定予算
時刻：
報酬：
(最大腕)推定：
誤り確率
(誤識別率)：
時刻tに引いた腕：

固定信頼度
誤識別率が δ 以内であると確信できるまで。
を満たしつつ
を最小化する
次を満たす停止規則を設定する必要がある

6.1.1 累積報酬最大化との違い
• 累積報酬最大化：
• 選択の殆どが期待大と推定される腕に
• 誤識別率はTに対して多項式オーダー
• A/Bテスト：
• 全ての腕に同程度
• 誤識別率はTに対して指数オーダー
例6.1参照

例6.1 メモ
腕を均等に引く場合の
誤識別率：
→多項式的な減衰
KL-UCBの誤識別率:
→指数的な減衰

6.1.2 ε-最適腕識別
• 本質的に解決不可能
• 例: μ = 0.501, 0.5
• ε最適腕識別:
• 期待値が↓以上の腕を識別する

μ = 0.501, 0.5, 0.1 の例メモ
0.501 と 0.5の誤識別率
0.5 と 0.1のサンプルサイズ
n3は全体の

標本複雑度
必要なサンプルサイズ
（本にはサンプル数とありますが…）

メモ
• 偶然になる確率
• ヘフディングの不等式によると、サンプルサ
イズが少なくとも
• ないと、未満という仮説を棄却でき
ない
• それ以外も同様な話

6.3 最適腕識別の方策
• 信頼上限(UCB; upper confidence bound)
• 信頼下限(LCB; lower confidence bound)も使
う
• 最も期待値の高い腕の信頼下限
• よりそれ以外の全ての（信頼上限―ε）
が小さければ終了
• より信頼上限が小さい腕は排除
• 探索候補腕全試し

信頼上限と信頼下限
信頼上限
信頼下限

6.3.2 スコアに基づく方法
• 1番手の下限と、2番手の上限の差が広がる
ように、1番手と2番手のみを引く。

UGapE方策では、期待値が大きい方
ばかり選ばれる可能性があるので、サ
ンプルサイズの小さい方を選ぶ。

6.4 固定予算の設定
もしならば、誤識別率を
で抑えることが出来るが、Hεを知らない。
つまり固定予算は未解決

雑感
• LUCB方策で用いる信頼区間を変えたい
• 上下対称なので、修正Wald法や、Wilson
score interval などにした方が良さそう
• 動的なABテストは現実的に厳しい
• 前の報酬が判明する前に次の腕を引く
• ログの問題。広告であれば表示からク
リックまでもタイムラグがある。
• 開発コスト。Webであればクッキーを使っ
たL7スイッチで実現したい。

6章 最適腕識別とA/Bテスト

More Related Content

What's hot

Viewers also liked