最適腕識別と多重検定

多腕バンディット問題と処置効果の推定:
最適腕識別と多重検定
情報理工学系研究科コンピュータ科学専攻
修士課程2年加藤真大
Aug. 21th, 2019
1

発表の概要
多腕バンディット問題（Multi-armed Bandit Problem; MAB）と処置効果（Treatment Effect）
の推定に関する代表的な手法と最近の知見の紹介．
 本発表では因果効果をある２つの処置に対する効果の差として定義（詳細は後述）．
問題：逐次的に得られる情報からどのように「筋のいい」推論を行うか．
今回の発表のトピック
• ２つの問題設定：期待報酬最大化と最適腕識別．
• 最適腕識別の代表的な手法．
• 最適腕識別と多重検定．
※ 時間の都合上，理論的詳細は可能な限り省略します．
2

多腕バンディット問題
Aug. 21th, 2019 @CFML勉強会
3

多腕バンディット問題
多腕バンディット問題（Multi-armed Bandit Problem; MAB）：
 期間𝑡 = 1,2, … .と𝐾個のスロット（腕）が与えらている状況を考える．
 各期において𝐾個の腕のなかから一個を選ぶことができる．
 その腕はある確率分布に従ってプレイヤーに報酬を与える．
最善の腕を探すためには各腕を適当に選んで探索（パラメータの推定）する必要がある．
探索（exploration）と最善の腕を引き続けること（exploitation）のバランスを最適化．
4

MABにおける２つの問題設定
 各腕𝑖 = 1,2, … , 𝐾からの報酬の確率分布𝑃𝑖とし，報酬の期待値を𝜇𝑖で表す．
 期待値最大の腕：𝑖∗ = arg max
𝑖∈ 1,2,…,𝐾
𝜇𝑖．
 MABにおける２つの問題設定．
累積報酬最大化（累積損失最小化）：
• ナイーブな設定では，期待値最大の腕𝑖∗
，もしくは期待値最大の腕に限りなく近い期待値
の腕をできる限り多く引いて累積報酬を最大化することに関心がある．
最適腕識別：
• なるべく少ない総選択数で期待値最大の腕𝑖∗を高確率で識別することに関心がある．
5

最適腕識別
固定予算の最適腕識別問題
• 総選択数（腕を引ける回数）が𝑇回までと固定されている．
• プレイヤーの目的：合計𝑇回腕を引いた後に𝑖∗の推定値 𝑖∗(𝑇)を回答し，その誤り確率（誤
識別率）𝑃𝑒 = ℙ[ 𝑖∗
𝑇 ≠ 𝑖∗
]を最小化すること．
固定信頼度の最適腕識別問題
• 総選択数をプレイヤーが可変で決められる．
• 事前に定められた𝛿 ∈ (0,1)に対して，誤識別率が𝛿以内になるまで選択を続ける．
• 探索を終了するための停止時刻を適切に設定する必要がある．
• プレイヤーの目的：設定した停止規則のもとでの停止時刻を𝜏とする時，ℙ 𝑖∗ 𝜏 ≠ 𝑖∗ ≤
𝛿を満たしつつ，𝔼[𝜏]を小さくする方策を構成すること．
6

累積報酬最大化との違い
 𝐾 = 2本の腕からの報酬がそれぞれ分散既知の正規分布𝒩 𝜇𝑖, 𝜎2 に従うとし，固定予算𝑇
での最適腕識別を考える．𝜇1 > 𝜇2と仮定する．
 最適方策：両方の腕を𝑇/2回ずつ引いた後に標本平均 𝜇𝑖が大きい腕を最適腕とする．
 誤識別率𝑃𝑒 = 𝑃 𝑋∼𝒩 𝜇2−𝜇1,4𝜎2/𝑇 𝑋 ≥ 0 = 1 − Φ
𝑇 𝜇1−𝜇2
2𝜎
≈ exp −
𝑇 𝜇1−𝜇2
2
8𝜎2 .
 誤識別率の指数関数的な減衰 ↔ 累積報酬のregret = 𝜇1 − 𝜇2 𝑇/2: 線形オーダー
↔ 累積報酬のリグレットではlog 𝑇のオーダーになるアルゴリズムが知られている．
語弊を恐れずに言えば，この違いは一番いい腕を発見するための努力に起因する．
累積報酬最大化の場合には，二番目以下の腕と僅差の一番いい腕を発見するために多くの
施行を必要とするぐらいなら，早々に切り上げて現状良さそうな腕を選んだ方がいい．
7

固定信頼度の最適腕識別の手法
8

最適腕識別の問題設定
 𝑛 個の処置（腕）と各期𝑡においてそれらから1つを選ぶ．
• プレイヤーは各期𝑡において𝑖 ∈ 𝑛 ≔ 1, … , 𝑛 を選び，報酬𝑋𝑖,𝑡 ∼ 𝑝𝑖(𝑥)を観測する．
• 𝑋𝑖,𝑡 ∈ [0,1] かつ𝔼 𝑋𝑖,𝑡 = 𝜇𝑖とする．
• 𝑇𝑖(𝑡): 𝑡期までに腕𝑖が引かれた回数．
 期待報酬の差をΔ𝑖 = 𝜇𝑖∗ − 𝜇𝑖とする．
• 文脈によってはこの差を処置効果や因果効果と呼ぶこともできる．
 厳密に最適腕argmax
𝑖
𝜇𝑖を発見することは難しいので，「期待値が𝜇∗ = max
𝑖
𝜇𝑖 − 𝜖以上
の腕を１つ以上発見する」という𝝐-最適腕識別の問題を考えることにする．
したがって，全てのアルゴリズムで信頼度𝛿（ ℙ 𝑖∗
𝜏 ≠ 𝑖∗
≤ 𝛿 ）と𝜖をハイパーパラ
メータとして事前に定める必要がある．
9

固定信頼度の最適腕識別の手法
 固定信頼度の手法．
ある一定の誤識別率を達成する腕が1本になるまで引き続ける．
• 一様選択に基づく方法：逐次削除方策
• スコアに基づく方法：LUCB方策，UGapEc方策， lil’UCB方策
↔ 固定予算の手法
ある与えられた予算の範囲内で誤識別率を最小化する．
10

一様選択
 腕の数が２本あり，２本の報酬の分散が等しい時には一様に（同じ確率で）腕を選ぶこ
とが最適になる．
• 無作為化比較実験と同じ．
• 分散が異なる場合，標準偏差の比で重みづけて，より分散の大きい腕を選ぶ方が良い．
（分散を推定して腕を選ぶ方法を後述する）
よって，最適腕である可能性が残っている腕を一様に選択していく方式が考えられる．
• 最適腕である可能性の低いものから順に削除していく．
→ 逐次削除方策．
11

逐次削除方策のアルゴリズム
 入力：許容幅𝜖 ≥ 0, 誤識別率𝛿 > 0.
 パラメータ：𝛽 𝑛, 𝛿 : ℕ × 0,1 → 0, ∞ .
• ℛ ← 1,2, … , 𝐾 , 𝑛 ← 1.
• loop
ℛに含まれるすべての腕を1回ずつ引く．
各腕𝑖 ∈ ℛのUCB⋅LCBスコア 𝜇𝑖,𝑛 = 𝜇𝑖,𝑛 +
𝛽 𝑛,𝛿
2𝑛
, 𝜇𝑖,𝑛 = 𝜇𝑖,𝑛 −
𝛽 𝑛,𝛿
2𝑛
を計算．
𝑖 ∗ ← arg max
𝑖∈ℛ
𝜇𝑖,𝑛 .
if 𝜇𝑖 ∗,𝑛 + 𝜖 > max
𝑖≠ 𝑖 ∗
𝜇𝑖,𝑛 then
𝑖 ∗を出力して終了．
else if 𝜇𝑖 ∗,𝑛 > 𝜇𝑖,𝑛なる𝑖 ≠ 𝑖 が存在 then
そのような𝑖を全てℛから削除
𝑛 ← 𝑛 + 1. 12

SR方策の実験１
 候補として残っている腕の数の減少の挙動を確認した．
Qiita: https://qiita.com/MasaKat0/items/9cc8ba8ff2117f45427e
13
サンプル数
擬似データの作成候
補
と
し
て
残
っ
て
い
る
腕
の
数

SR方策の実験２
 候補として残っている腕の数の減少の挙動を確認した．
14
候
補
と
し
て
残
っ
て
い
る
腕
の
数
サンプル数
擬似データの作成

UCB・LCB
前ページで現れたUCB (Upper Confidence Bound) ・LCB (Lower Confidence Bound)とは．
 多腕バンディット問題でよく現れる概念．
 引かれた回数の少ない腕の報酬の推定量を楽観的（悲観的）に見積もる．
 どのように見積もるのか？
• 確率集中不等式
Hoeffdingの不等式：確率変数の区間．
Bernsteinの不等式：分散．
• KLダイバージェンス（Chernoff・ Hoeffdingの不等式）：分布の情報が必要．
• 繰り返し対数の法則（law of the iterated logarithm, LIL）．
15

腕へのスコアリング
 一様選択を行うと無駄に多くの腕を引く可能性がある．
そこでまず最適腕を予想し，ついで最適腕の候補の腕のLCBとそれ以外の腕のUCBとの差
が早く広がるように腕を選ぶ方策を考える．
推定された最適腕の期待値の下限：𝜇𝑖 ∗(𝑡)，それ以外の腕の期待値の上限： 𝜇𝑖 ∗∗ 𝑡
• 𝑑𝑖𝑓𝑓 = 𝜇𝑖 ∗ 𝑡 − 𝜇𝑖 ∗∗ 𝑡 が早く大きくなってほしい．
• 𝑑𝑖𝑓𝑓が𝜖より大きくなれば良い．
16
最適腕
報
酬
腕
LCB
UCB
ここの差を広げていく．
現時点での最有力候補と
その次の候補を引き続ける．

LUCB方策のアルゴリズム
 パラメータ：𝛽 𝑡, 𝛿 : ℕ × 0,1 → 0, ∞ .
• すべての腕を1回ずつ選択．𝑡 ← 𝐾.
• loop
各腕𝑖のUCB⋅LCBスコア 𝜇𝑖(𝑡) = 𝜇𝑖(𝑡) +
𝛽 𝑡,𝛿
2𝑁 𝑖 𝑡
, 𝜇𝑖(𝑡) = 𝜇𝑖(𝑡) −
𝛽 𝑡,𝛿
2𝑁 𝑖 𝑡
を計算．
𝑖 ∗ ← arg max 𝜇𝑖,𝑛 , 𝑖 ∗∗ ← arg max
𝑖≠ 𝑖 ∗
𝜇𝑖(𝑡) .
if 𝜇𝑖 ∗∗ 𝑡 < 𝜇𝑖 ∗(𝑡) + 𝜖 then
𝑖 ∗を出力して終了．
else
腕 𝑖 ∗ と腕 𝑖 ∗∗ を引く． 𝑡 ← 𝑡 + 2.
17

より効率的なスコアリングに基づく方策
 LUCB方策はスコアリングによって一様選択で発生する余分な施行を減らそうとした．
 しかし，「腕 𝑖 ∗ と腕 𝑖 ∗∗ を引く」というプロセスが入っているために，逐次削除方策とは
逆に最適腕の選択数が過度に多くなってしまうという問題が生じる．
 UGapE方策では，反復ごとに腕 𝑖 ∗
と腕 𝑖 ∗∗
のうちサンプル数が小さい（期待値の不確かさ
が大きい）もののみを選択する．
V. Gabillon, M. Ghavamzadeh, and A. Lazaric. Best arm identification: a unified approach to fixed
budget and fixed confidence. NeuIPS, 2012.
18

UGapEc方策のアルゴリズム
 パラメータ：信頼度𝛽𝑖 𝑡, 𝛿 : ℕ × 0,1 → 0, ∞ .
• すべての腕を1回ずつ選択．𝑡 ← 𝐾.
• loop
各腕𝑖のUCB⋅LCBスコア 𝜇𝑖(𝑡) = 𝜇𝑖(𝑡) +
𝛽𝑖 𝑡,𝛿
2𝑁 𝑖 𝑡
, 𝜇𝑖(𝑡) = 𝜇𝑖(𝑡) −
𝛽𝑖 𝑡,𝛿
2𝑁 𝑖 𝑡
を計算．
𝐽 𝑡 ∈ arg min
𝑘∈ 1,2,…,𝑛
max
𝑖≠𝑘
𝜇𝑖(𝑡) − 𝜇 𝑘(𝑡)
Pull 𝑖 ∗
←. arg max 𝛽 𝑢 𝑡, 𝛿 , 𝛽𝑙 𝑡, 𝛿 ，ただし𝑢 = arg max
𝑗≠𝐽 𝑡
𝜇 𝑗(𝑡)， 𝑙 = arg max
𝑖∈𝐽 𝑡
𝜇𝑖(𝑡)．
if max
𝑖≠𝑘
𝜇𝑖(𝑡) − 𝜇 𝑘 𝑡 ≥ 𝜖 for 𝑘 ∈ 𝐽(𝑡) then
𝐽 𝑡 を出力して終了．
else
𝑡 ← 𝑡 + 1.
19

LUCB方策とUGapEc方策の実験１
 𝑑𝑖𝑓𝑓がどのくらいの速さで小さくなるか実験した．
20
𝑑𝑖𝑓𝑓
サンプル数
擬似データの作成

LUCB方策とUGapEc方策の実験１
 LUCB方策とUGapEc方策とで腕が停止するまでどの腕がどの程度引かれるかを示した．
LUCB方策では最適腕である腕0を（余分に）引きすぎていることがわかる．
21
腕
を
引
い
た
回
数
腕の番号
LUCB方策 UgapEc方策

標本複雑度からみた最適腕識別
 標本複雑度：最適腕を発見するまでに必要なサンプルサイズ．
 標本複雑度が小さいアルゴリズムほどいいアルゴリズム（早く最適腕を見つけられる）．
 最適腕𝑖∗の報酬の期待値𝜇∗とそれ以外の腕𝑖の報酬の期待値𝜇𝑖との差をΔ𝑖とする．
 これまでに述べた方策はおおよそ 𝑖≠𝑖∗ Δ𝑖
−2
log Δ𝑖
−2
程度のオーダーを持つ．
 つまり，最適腕とそれ以外の腕の報酬の期待値の差が小さくなるにつれて，以下のよう
に標本複雑度が増大する．
22

タイトなConfidence Bound: LIL
 その後の研究でアルゴリズムを改善すれば 𝑖≠𝑖∗ Δ𝑖
−2
log log Δ𝑖
−2
ぐらいのオーダーを達成
できることが分かった．これは 𝑖≠𝑖∗ Δ𝑖
−2
log Δ𝑖
−2
との比較で以下のような図で表せる．
 この結果，UCBやLCBのバウンドが緩い（楽観的or悲観的すぎる）可能性が指摘された．
 Hoeffdingの不等式よりもタイトなバウンドとして繰り返し対数の法則（law of the iterated
logarithm, LIL）を用いたものが以下の論文で提案された．
Kevin Jamieson, Matthew Malloy, Robert Nowak, and Sébastien Bubeck. lil’ucb: An optimal
exploration algorithm for multi-armed bandits. COLT, 2014.
23
Δ𝑖
−2
が大きくなってもlog log であれば
サンプルサイズの増加は緩やか．

繰り返し対数の法則
 {𝑋ℓ}を平均0と時間を通じて均一な分散𝜎2の分布からのi.i.d.なサンプルとする．
𝑆𝑡 = ℓ=1
𝑡
𝑋ℓに対して，lim
𝑡→∞
sup
±𝑆𝑡
2𝜎2 𝑡 log log 𝑡
= 1, a. s.
24
標準正規分布に従うサンプルを3000期間生成．
→
𝑆3
2𝜎23 log log 3
, … ,
𝑆3000
2𝜎23000 log log 3000
をプロット．
以上の確率過程を30個表示．
（左図の異なる色の確率過程）

標本複雑度の下界
 報酬の差がΔの２つの腕を比較するとき，それぞれ等確率で引いて２つの腕の累積和の差
を確率変数とするとドリフトΔの確率過程を構築できる．
• この確率過程の分散を1とする．
• 𝑡Δ = 2𝑡 log log 𝑡 の時，LILのバウンドを破る．𝑡について解くと𝑡 ≈ 2Δ−2 log log Δ−2．
25
2𝑡 log log 𝑡
平均1，分散1の正規分布に従うサンプルを1000期間生成．
→
𝑆3
2𝜎23 log log 3
, … ,
𝑆1000
2𝜎23000 log log 1000
をプロット．
以上の確率過程を10個表示．
（左図の異なる色の確率過程）
ここでΔ = 1であり，もしΔ = 0であるならば確率変数の
和が（漸近的には）超えないはずの黒線 2𝑡 log log 𝑡 を，
およそ2Δ−2
log log Δ−2
サンプルぐらいで破る．
→ 効果の有無を2Δ−2
log log Δ−2
サンプルほどで発見．
2Δ−2 log log Δ−2

lil’UCB方策の直観的説明
 lim
𝑡→∞
sup
±𝑆𝑡
2𝜎2 𝑡 log log 𝑡
= 1の式から，平均𝜇のある腕𝑖の𝑡期までの報酬の和𝑆𝑖,𝑡 = 𝑠=1
𝑡
𝑋𝑖,𝑠に
対して，直観的かつ漸近的に次のような式が成り立つ．
𝑆𝑖,𝑡
𝑡
≥ 𝜇 −
2𝜎2 log log 𝑡
𝑡
⟺ 𝜇 ≤
𝑆𝑖,𝑡
𝑡
+
2𝜎2 log log 𝑡
𝑡
 つまり，
𝑆𝑖,𝑡
𝑡
+ 2𝜎2 𝑡 log log 𝑡 ぐらいに見積もっておけば，平均𝜇はそれ以下になる．
 この性質を用いてUCBを構築することができる．
 lil’UCB方策には以下の優れた性質がある．
• 通常の（期待報酬最大化の）アルゴリズムでΔ−2
log log Δ−2
のオーダーの標本複雑度を達
成できる．
• さらに期待報酬最大化のregretもlog 𝑇のオーダーに従う．
つまり，最適腕識別としても高性能であり，かつ，期待報酬最大化にも使える（非推奨）．
26

lil’UCB方策のアルゴリズム
 𝜇𝑖,𝑇 𝑖 𝑡
≔
1
𝑇 𝑖 𝑡 𝑠=1
𝑇 𝑖 𝑡
𝑋𝑖,𝑠
 lil’ UCB algorithm:
• 入力：信頼度𝛿 > 0，パラメーター𝜀, 𝑎, 𝛽 > 0．
• 初期化：それぞれの腕を一回サンプルする．𝑇𝑖(𝑡) = 1とする．𝑡 = 𝑛とする．
• while 𝑇𝑖 𝑡 < 1 + 𝑎 𝑗≠i 𝑇𝑗(𝑡) for all 𝑖
𝑖 ∗ = arg max
𝑖∈ 1,…,𝑛
𝜇𝑖,𝑇 𝑖 𝑡 + 1 + 𝛽 1 + 𝜀
2𝜎2 1 + 𝜀 log
log 1 + 𝜀 𝑇𝑖 𝑡
𝛿
𝑇𝑖(𝑡)
.
腕 𝑖 ∗
を引く． 𝑇𝑖 ∗ 𝑡 ← 𝑇𝑖 ∗ 𝑡 + 1． 𝑡 ← 𝑡 + 1．
• else arg max
𝑖∈ 1,…,𝑛
𝑇𝑖(𝑡)を出力．
27

方策の比較
 一様選択に基づく方法とスコアに基づく方法の比較
• 全ての腕で分散が等しく，腕の数が少ないときには一様選択の手法は有効．
• 腕の数が多い時に一様選択すると無駄に色々な腕を引くので，早めにスコアに基づいて
（ざっくりと）腕の候補を絞り込む必要がある．
 一様選択に基づく方法の問題点
• 腕ごとに報酬の分散が違う場合は？→ 次のスライド．
 スコアに基づく方法
• LUCB方策では推定された最適腕 𝑖∗
を毎回引く→最適っぽい腕を多く引きすぎる．
• UGapE方策ではLUCB方策を改善し，最適腕の候補を複数選び，よりサンプル数が少ない
ものから腕を選択する．
• lil’UCBでは理論的に可能なギリギリのバウンドを作ってUCBアルゴリズムを動かすことで，
理論的に優れた性能を発揮する．
 個人的には逐次削除方策が実装が簡単かつそこそこの性能なのでそれで十分な気も．
 最適腕識別が失敗しても逐次削除方策は無作為化実験として機能する？ 28

適応的実験計画
 最適腕識別のバンディットは，A/Bテストの他に，医療系で用いられる適応的実験計画と
も関係が深い．
適応的実験計画とは「試験の妥当性と完全性を損なうことなく，試験開始後に，そのいく
つかの特性を変更または修正することを許容する（実験の）デザイン」である．
 前述した腕の分散が異なる場合の一様選択の議論も行われている．
• このような適当的実験は適当に行うとi.i.d.の仮定が崩れるので注意が必要．
• バンディットの例で言えば，前に引いた腕によって次に引く腕が影響を受ける．
Efficient Counterfactual Learning from Bandit Feedback, Narita, Yasui, and Yata, AAAI 2019もこの
辺を回避しようと頑張っている．
i.i.d.の問題をうまく回避して分散と腕を引く重みを調整する手法が経済学の分野で提案さ
れている．
29

漸近効率な適応的実験計画
Hahn, Hirano, and Karlan. Adaptive Experimental Design Using the Propensity Score, Journal of
Business and Economic Statistics, 2009.
 HIR推定量（IPWとしばしば混同される）を用いて処置効果を処置効果を推定する．
𝜃 𝑇
HIR
=
1
𝑇
𝑡=1
𝑇
𝐼 𝐷𝑡 = 1 𝑌𝑡
𝑝 𝐷𝑡 = 1|𝑋𝑡
−
𝐼 𝐷𝑡 = 0 𝑌𝑡
𝑝 𝐷𝑡 = 0|𝑋𝑡
.
• この時， 𝑝 𝐷𝑡 = 1|𝑋𝑡 を以下の値にすると 𝜃 𝑇
HIR
の分散を小さくできる．
𝑝OPT 𝐷𝑡 = 1 𝑋𝑡 =
𝑉𝑎𝑟(𝑌𝑡
2
1 |𝑋𝑡)
𝑉𝑎𝑟(𝑌𝑡
2
1 |𝑋𝑡) + 𝑉𝑎𝑟(𝑌𝑡
2
0 |𝑋𝑡)
.
 ただし， 𝑉𝑎𝑟(𝑌𝑡
2
1 |𝑋𝑡)と𝑉𝑎𝑟(𝑌𝑡
2
0 |𝑋𝑡)は未知．
• 𝑛個のサンプルを２つに分ける．
１つ目のサンプルで𝑝OPT
𝐷𝑡 = 1 𝑋𝑡 を無視して𝑉𝑎𝑟(𝑌𝑡
2
1 |𝑋𝑡)と𝑉𝑎𝑟(𝑌𝑡
2
0 |𝑋𝑡)を推定.
２つ目のサンプルで𝑝OPT 𝐷𝑡 = 1 𝑋𝑡 に基づいて処置を割り振る（一様選択ではない）．
30

31

Jamieson, Kevin G and Jain, Lalit, A Bandit Approach to Sequential Experimental Design with False
Discovery Control, NeuIPS, 2018.
 最適腕識別の多腕バンディット問題の手法と多重検定の手法を統合．
• 最適腕識別の多腕バンディット問題を統計的仮説検定の枠組みに拡張．
• 検定によって生じる多重検定の問題を考慮したアルゴリズムを提案．
アイデア：有意でない処置を有意であるとしてしまう割合（false alarm, false positive, 偽陰性，
第一種の過誤）を制御しつつ，少ないサンプルで処置効果が有意そうな腕を検出．
32

問題設定と仮説
 𝑛 個の処置（腕）と各期𝑡においてそれらから1つを選ぶ．
• プレイヤーは各期𝑡において𝑖 ∈ 𝑛 ≔ 1, … , 𝑛 を選び，報酬𝑋𝑖,𝑡 ∼ 𝑝𝑖(𝑥)を観測する．
• 𝑋𝑖,𝑡 ∈ [0,1] かつ𝔼 𝑋𝑖,𝑡 = 𝜇𝑖とする．
• 𝑇𝑖(𝑡): 𝑡期までに腕𝑖が引かれた回数．
 既知の𝜇0に対して以下の集合を定義する．
ℋ1 = 𝑖 ∈ 𝑛 : 𝜇𝑖 > 𝜇0 , ℋ0 = 𝑖 ∈ 𝑛 : 𝜇𝑖 = 𝜇0 = 𝑛 ∖ ℋ1
• 処置𝑖 ∈ [𝑛]に対する期待値𝜇𝑖 と集合ℋ1のサイズは未知である.
集合ℋ1に属する腕: 𝜇0より大きい期待値を持つ．
集合ℋ0に属する腕: 𝜇0と等しい期待値を持つ＝帰無仮説．
各期𝑡においてプレイヤーは腕を要素とする集合𝑆𝑡 ⊆ [𝑛]を返す．これは帰無仮説を棄却し
た腕の集合である（𝑖 ∈ 𝑆𝑡 ならプレイヤーは𝑖 ∈ ℋ1と考えている）．
33

具体例 広告の種類が𝑛種類ある．
 期待クリック率が𝜇0 = 0である広告と，そうでない広告とに分けたい．
ℋ1 = 期待クリック率が0より大きい広告 , ℋ0 = 期待クリック率が0の広告
 期待クリック率が0より大きい広告がどのくらいあるか分からない（ ℋ1 が未知）．
 有意水準𝛿で１つ１つの広告𝑖にℋ0𝑖 ∶ 𝜇𝑖 = 𝜇0検定しても，期待クリック率が0の広告が沢
山あると，誤ってℋ0𝑖 を棄却する確率は𝛿よりも大きくなる．
ナイーブに最適腕識別を用いて期待クリック率が0より大きい広告を発見しようとすると，
期待クリック率が0の広告を期待クリック率が0より大きい広告とする確率が高くなる．
→ 第1種の過誤
 一方で，保守的すぎると期待クリック率が0より大きい広告を発見できないので，一定の
偽陰性を超えないように広告を期待クリック率が0より大きいと判断することが必要．
34
帰無仮説を保留帰無仮説を棄却
真の帰無仮説 𝑆𝑡 ∩ ℋ0 𝑆𝑡 ∩ ℋ0
偽の帰無仮説 𝑆𝑡 ∩ ℋ1 𝑆𝑡 ∩ ℋ1
合計 𝑛 − 𝑆𝑡 = 𝑆𝑡 𝑆𝑡
第1種の過誤

前章までの最適腕識別との違い
 前章までの固定信頼度の最適腕識別：最適な腕は1個．
 Jamieson and Jain (2018): 最適な腕は複数存在する．
↔ 最適な腕が𝑘本存在する場合，トップk多腕バンディット問題と呼ばれる．
トップk多腕バンディット問題では最適な腕が𝑘個あることを知っている（𝑘 = ℋ1 ）．
Jamieson and Jain (2018)では最適な腕の本数も分からない．
35

多重検定
 全ての𝑖 = 1,2, … , 𝑚, 𝑚 < 𝑛に対して，
ℋ0: 𝜇1 = 𝜇2 = ⋯ = 𝜇 𝑛 = 𝜇0.
が成り立つとする．
 ℋ0を有意水準𝛼で検定したいとする．
 そのために𝜇𝑖 = 𝜇0を𝑖 = 1,2, … , 𝑛に対して個別に検定することを考える．
 帰無仮説ℋ0,𝑖: 𝜇𝑖 = 𝜇0を個別に有意水準𝛿の検定をした場合，１つ以上の帰無仮説ℋ0,𝑖が
棄却される確率は𝛿以上になる．
36

多重検定の例
 比較対象が３群以上存在して，検定の多重性の問題が生じる事例．
• 3群（𝐴,𝐵,𝐶）を比較するとき「全体としての有意水準」を 5%で検定したいとする．
• 𝐴と𝐶，𝐵と𝐶について有意水準5%の2標本t検定を2回繰り返す．
• 母平均をそれぞれa, b, cとする．
• 𝑎 = 𝑏 and 𝑏 = 𝑐，つまり𝑎 = 𝑏 = 𝑐を満たしているなら，2つの帰無仮説のうちどちらか
一方が棄却されると𝑎 = 𝑏 = 𝑐という帰無仮説は棄却されることになる．
• このとき，帰無仮説が棄却される確率は約9%であり，設定した5%より大きい．
• 多重検定：このようなことが起こらないように「全体としての有意水準」をあらかじめ
宣言した値に制御できるように一回一回の検定における個々の有意水準を調整．
37

統計的検定と偽陰性
 可能な限り小さな𝜏 ∈ ℕに対して，偽陰|𝑆𝑡 ∩ ℋ0 | の数を全ての期間t ∈ ℕで一定の値以下
に保ったまま，全ての𝑡≥𝜏において|𝑆𝑡 ∩ ℋ1 | のサイズが|ℋ1|と近似的に等しくなるような
アルゴリズムを構築することを目指す．
• 「偽陰|𝑆𝑡 ∩ ℋ0 | の数を全ての期間t ∈ ℕで一定の値以下に保つ」ことの「一定の値」と，
• 「全ての𝑡 ≥ 𝜏において|𝑆𝑡 ∩ ℋ1 | のサイズが|ℋ1 |と近似的に等しくなる」ことの「近似」
について以下に述べるような指標が知られている．
38
𝑆𝑡：アルゴリズムが帰無仮説を
棄却した選択肢の集合．
ℋ0：効果のない選択肢の集合．ℋ1：効果のある選択肢の集合．

偽陰性の制御
 偽陰性を制御する指標について説明する．
39
𝛿 ∈ (0,1)は固定された値である．あるアルゴリズムにおいて全ての問題( 𝑝𝑖 𝑖=1
𝑛
, 𝜇0)と全て
の𝑡 ∈ ℕに対して𝔼
𝑆𝑡∩ℋ0
𝑆𝑡 ∨1
≤ 𝛿が成立するとき，そのアルゴリズムはFDR-𝛿である．
𝛿 ∈ (0,1)は固定された値である．あるアルゴリズムにおいて全ての問題( 𝑝𝑖 𝑖=1
𝑛
, 𝜇0)に対し
てℙ ∪ 𝑡=1
∞
𝑆𝑡 ∩ ℋ0 ≠ ∅ ≤ 𝛿が成立するとき，そのアルゴリズムをFWER-𝛿である．
定義1 （False Discovery Rate, FDR-𝛿）
定義2 （Family-wise Error Rate, FWER-𝛿）

指標の解釈
Family-wise Probability of Detection （FWER）: ℙ ∪ 𝑡=1
∞
𝑆𝑡 ∩ ℋ0 ≠ ∅ ≤ 𝛿
 腕が何本あっても第1種の過誤が１つでも起こる確率が𝛿を超えない．
• 非常に保守的 → 有意な腕を棄却しない第2種の過誤が起こりやすくなる．
False Discovery Rate（FDR）: 𝔼
𝑆𝑡∩ℋ0
𝑆𝑡 ∨1
≤ 𝛿
 棄却された全ての腕に対して第1種の過誤が起こる数の比率の期待値が𝛿を超えない．
※ FWERの方がFDRよりも厳しい．
40
帰無仮説を保留帰無仮説を棄却
真の帰無仮説 𝑆𝑡 ∩ ℋ0 𝑆𝑡 ∩ ℋ0
偽の帰無仮説 𝑆𝑡 ∩ ℋ1 𝑆𝑡 ∩ ℋ1
合計 𝑛 − 𝑆𝑡 = 𝑆𝑡 𝑆𝑡
𝑆𝑡：アルゴリズムが帰無仮
説を棄却した選択肢の集合．
ℋ0：効果のない選択肢の集合．ℋ1：効果のある選択肢の集合．
𝑆𝑡 ∩ ℋ0
𝑆𝑡

FWERとBonferroni法
 Bonferroni法はFWER制御のための手法の１つ．
• 個々の検定の有意水準を仮説の数で割る．
• 例えば全体の有意水準が𝛿で仮説の数が𝑚なら𝛿/𝑚．
 原始的な実装の例として，腕に対し均一に処置を振り，それぞれの腕のp値𝑃𝑖を調べる．
𝑃𝑖: 全ての𝑥 ∈ (0,1]と𝑖 ∈ ℋ0 に対してℙ0 𝑃𝑖 ≤ 𝑥 ≤ 𝑥．
ℙ0は帰無仮説が正しい時の腕の報酬に関数する確率分布．
 ここで，p値𝑃𝑖を用いて帰無仮説を棄却するルールを考える．
• Bonferroni法: p値𝑃1 ≤ 𝑃2 ≤ ⋯ ≤ 𝑃𝑛の集合に対して次のような𝑖の帰無仮説を棄却する．
𝒮 𝐵𝐹 = 𝑖: 𝑃𝑖 ≤ 𝛿/𝑛 .
41

FWERとFDR
 FWER（ ℙ ∪ 𝑡=1
∞
𝑆𝑡 ∩ ℋ0 ≠ ∅ ≤ 𝛿 ）はFDR（ 𝔼
𝑆𝑡∩ℋ0
𝑆𝑡 ∨1
≤ 𝛿 ）も制御する．
𝔼
𝒮 𝐵𝐹 ∩ ℋ0
𝒮 𝐵𝐹 ∨ 1
≤ 𝔼 𝒮 𝐵𝐹 ∩ ℋ0 ≤ ℙ ∪𝑖∈ℋ0
𝑃𝑖 ≤ 𝛿/𝑛 ≤ 𝛿
ℋ0
𝑛
≤ 𝛿.
→ FDRの方が条件が緩いので，FDRだけ考える時にはFDRに焦点を当てた手法を考えること
で，より高い検出力を達成しうる．
• FWERは保守的すぎる可能性がある．
• もう少し偽陰性の基準をゆるくすれば，より有意な腕を発見しやすくなる．
42

FDRとBenjamini-Hochberg法
1995年にBenjaminiとHochbergがfalse discovery rateを調整する方法（BH法）を発表．
 𝑡期における腕𝑖のp値を𝑃𝑖,𝑇 𝑖(𝑡)とする．𝑇𝑖(𝑡)は腕𝑖を𝑡期までに引いた回数．
1. 𝑛個の帰無仮説をp値の昇順に並べる．
𝑃(1),𝑇 1 (𝑡) ≤ 𝑃 2 ,𝑇 2 𝑡 ≤ ⋯ ≤ 𝑃 𝑛 ,𝑇 𝑛 𝑡 .
2. 𝑘 = max 𝑘: 𝑃(𝑘),𝑇 𝑘 (𝑡) ≤ 𝛿
𝑘
𝑛
,
3. 次の集合の腕を棄却する．𝒮 𝐵𝐻 = 𝑖: 𝑃𝑖,𝑇 𝑖(𝑡) ≤ 𝛿
𝑘
𝑛
.
FDRは腕の数が多くて，帰無仮説が棄却される数（ 𝑆𝑡 ）が多い場合に有用．
• 𝔼
𝑆 𝑡∩ℋ0
𝑆 𝑡 ∨1
の値はq値とも呼ばれる．
• 直観：𝑃(𝑘),𝑇 𝑘 (𝑡) ≤ 𝛿
𝑘
𝑛
⟺ 𝛿 ≤
𝑃(𝑘),𝑇 𝑘 (𝑡)×𝑛
𝑘
．𝑃(𝑘),𝑇 𝑘 (𝑡) × 𝑛 ≈ 𝑆𝑡 ∩ ℋ0 ， 𝑘 ≈ 𝑆𝑡 ∨ 1．
• 問題点：p値の分布に一様分布を仮定する必要などがある．
43

lil’UCB方策+BH法のアルゴリズム
• lil’IUCBアルゴリズムに基づいて棄却されていない腕の中（ 𝑛 ∖ 𝒮𝑡）から腕を引く．
• BH法を適用して検定する．
実際のアルゴリズムは以下のように理論に基づいて細かくパラメータが設定されている．
44

全体のまとめ
 多腕バンディット問題を用いて最適な腕（もっとも良いアイテム）を発見する．
 最適腕識別の代表的手法
• 腕の数が多いと，一様に選択するアルゴリズム（SR方策）は余分に引く腕が多くなる．
• スコアリングを行なって引く腕の候補を絞っていく場合，最適腕と次善の腕の差を縮め
ることで効率的に腕を発見する（LUCB方策，UGapEc方策）．
• スコアリングをする際の信頼区間をLILに従って設定すると理論的に最小限のサンプルサ
イズで最適腕を発見できる（lil’UCB方策）．
 最適腕の数が複数ある場合：最適腕の数を知っている場合
• トップk最適腕識別の手法
 最適腕の数が複数ある場合：最適腕の数を知らない場合
• 統計的検定と組み合わせる必要がある．
• 検定の多重性の問題が生じる．
• 偽陰性の制御方法を決めてその制御のもとでlil’UCBを動かす．
45

参考和書
- 「バンディット問題の理論とアルゴリズム」本多・中村，2014年
- 「現代数理統計学の基礎」，久保川，2017年
- 「多重比較法の理論と数値計算」，白石・杉浦，2018年
- 大阪大学大学院医学系研究科の資料：
http://www.med.osaka-u.ac.jp/pub/kid/clinicaljournalclub1.html
46

参考洋書
- V. Gabillon, M. Ghavamzadeh, and A. Lazaric. Best arm identification: a unified approach to fixed
budget and fixed confidence. In Advances in Neural Information Processing Systems (NIPS), 2012.
- K. Jamieson, M. Malloy, R. Nowak, and S. Bubeck. lil’UCB: an optimal exploration algorithm for
multi-armed bandits. In Conference on Learning Theory (COLT), 2014.
- Jamieson, Kevin G and Jain, Lalit, A Bandit Approach to Sequential Experimental Design with
False Discovery Control, NeuIPS, 2018.
- Hahn, Hirano, and Karlan. Adaptive Experimental Design Using the Propensity Score, Journal of
Business and Economic Statistics, 2009.
- Efficient Counterfactual Learning from Bandit Feedback, Yusuke Narita, Shota Yasui, and Kohei
Yata, AAAI 2019
47

最適腕識別と多重検定

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Masa Kato

More from Masa Kato (13)

最適腕識別と多重検定