Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

6章 最適腕識別とA/Bテスト

795 views

Published on

MLPシリーズ「バンディット問題の理論とアルゴリズム」の勉強会、6章の発表資料です。

Published in: Science
  • Be the first to comment

  • Be the first to like this

6章 最適腕識別とA/Bテスト

  1. 1. 6章 最適腕識別と A/Bテスト 機械学習プロフェッショナルシリーズ勉強会 「バンディット問題の理論とアルゴリズム」 発表担当 VOYAGE GROUP 中野智文
  2. 2. 自己紹介 • 中野智文 • VOYAGE GROUP • 広告データの分析 • その前は • 質問応答システム • 検索ランキングアルゴリズム • 教育のための機械学習・統計 • 将棋
  3. 3. 最適腕識別とA/Bテスト • 最適腕識別(best arm identification) • 累積報酬の最大化ではなく、(将来の)報 酬が最大の腕を識別すること • 最適腕識別において、K=2 (腕の数が2)のと き、 • A/Bテストとよぶ • ただし一般の「バンディット問題」では最適腕 識別を含むことがある
  4. 4. 6.1 A/Bテスト定式化 腕の番号: 報酬の期待値: 期待値最大の腕: 最大と二番手の差:
  5. 5. 固定予算 時刻: 報酬: (最大腕)推定: 誤り確率 (誤識別率): 時刻tに引いた腕:
  6. 6. 固定信頼度 誤識別率が δ 以内であると確信できるまで。 を満たしつつ を最小化する 次を満たす停止規則を設定する必要がある
  7. 7. 6.1.1 累積報酬最大化との違い • 累積報酬最大化: • 選択の殆どが期待大と推定される腕に • 誤識別率はTに対して多項式オーダー • A/Bテスト: • 全ての腕に同程度 • 誤識別率はTに対して指数オーダー 例6.1参照
  8. 8. 例6.1 メモ 腕を均等に引く場合の 誤識別率: →多項式的な減衰 KL-UCBの誤識別率: →指数的な減衰
  9. 9. 6.1.2 ε-最適腕識別 • 本質的に解決不可能 • 例: μ = 0.501, 0.5 • ε最適腕識別: • 期待値が↓以上の腕を識別する
  10. 10. μ = 0.501, 0.5, 0.1 の例 メモ 0.501 と 0.5の誤識別率 0.5 と 0.1のサンプルサイズ n3は全体の
  11. 11. 標本複雑度 必要なサンプルサイズ (本にはサンプル数とありますが…)
  12. 12. メモ • 偶然 になる確率 • ヘフディングの不等式によると、サンプルサ イズが少なくとも • ないと、 未満という仮説を棄却でき ない • それ以外も同様な話
  13. 13. 6.3 最適腕識別の方策 • 信頼上限(UCB; upper confidence bound) • 信頼下限(LCB; lower confidence bound)も使 う • 最も期待値の高い腕の信頼下限 • よりそれ以外の全ての(信頼上限―ε) が小さければ終了 • より信頼上限が小さい腕は排除 • 探索候補腕全試し
  14. 14. 信頼上限と信頼下限 信頼上限 信頼下限
  15. 15. 6.3.2 スコアに基づく方法 • 1番手の下限と、2番手の上限の差が広がる ように、1番手と2番手のみを引く。
  16. 16. UGapE方策では、期待値が大きい方 ばかり選ばれる可能性があるので、サ ンプルサイズの小さい方を選ぶ。
  17. 17. 6.4 固定予算の設定 もし ならば、誤識別率を で抑えることが出来るが、Hεを知らない。 つまり固定予算は未解決
  18. 18. 雑感 • LUCB方策で用いる信頼区間を変えたい • 上下対称なので、修正Wald法や、Wilson score interval などにした方が良さそう • 動的なABテストは現実的に厳しい • 前の報酬が判明する前に次の腕を引く • ログの問題。広告であれば表示からク リックまでもタイムラグがある。 • 開発コスト。Webであればクッキーを使っ たL7スイッチで実現したい。

×