

➢
➢

➢
 𝐾

(image from
http://www.directgamesroom.com )
➢
➢
➢
𝑡 = 1,2, … , 𝑇
𝐼 𝑡 ∈ 𝐾 =
1, … , 𝐾
෠𝑋𝐼 𝑡 𝑡

➢
➢
➢
Bernoulli: 1= ,
0= )
𝑡 = 1,2, … , 𝑇
𝐼 𝑡 ∈ 𝐾 =
1, … , 𝐾
෠𝑋𝐼 𝑡 𝑡
𝑡 = 1,2, … , 𝑇
𝐼 𝑡 ∈ 𝐾 =
1, … , 𝐾
෠𝑋𝐼 𝑡 𝑡
ベイズ的 確率的 敵対的
モデル ベイズ 頻度論 任意
未来の報酬は? 割引 今と同じ 今と同じ
アルゴリズム Gittins指数 UCB/TS/MED Exp3 (指数重み)
https://www.slideshare.net
/JohnTyndall
/an-introduction-to-bayesian-statistics
より
ベイズ的 確率的 敵対的
モデル ベイズ 頻度論 任意
未来の報酬は? 割引 今と同じ 今と同じ
アルゴリズム Gittins指数 UCB/TS/MED Exp3 (指数重み)
https://www.slideshare.net
/JohnTyndall
/an-introduction-to-bayesian-statistics
より
ベイズ的 確率的 敵対的
モデル ベイズ 頻度論 任意
未来の報酬は? 割引 今と同じ 今と同じ
アルゴリズム Gittins指数 UCB/TS/MED Exp3 (指数重み)
https://www.slideshare.net
/JohnTyndall
/an-introduction-to-bayesian-statistics
より
•
𝛽 ∈ (0,1) 𝝁𝒊(𝟎) 𝒊
𝑡 = 1,2, … , 𝑇
𝐼 𝑡 ∈ 𝐾
෠𝑋𝐼 𝑡 𝜇𝐼 𝑡 (𝑡)
•
𝛽 ∈ (0,1) 𝝁𝒊(𝟎) 𝒊
𝑡 = 1,2, … , 𝑇
𝐼 𝑡 ∈ 𝐾
෠𝑋𝐼 𝑡 𝜇𝐼 𝑡 (𝑡)
•
𝛽 ∈ (0,1) 𝝁𝒊(𝟎) 𝒊
𝑡 = 1,2, … , 𝑇
𝐼 𝑡 ∈ 𝐾
෠𝑋𝐼 𝑡 𝜇𝐼 𝑡 (𝑡)

𝐺𝑖 𝑡
𝑖

😁
😁
😣
😣 𝛽
😣
•
𝑡 = 1,2, … , 𝑇
𝐼 𝑡 ∈ 𝐾
෠𝑋𝐼 𝑡 𝑡 ~𝑃(𝜇𝐼 𝑡 )
E σ 𝑡=1
𝑇 ෠𝑋𝐼 𝑡 𝑡
•
𝑡 = 1,2, … , 𝑇
𝐼 𝑡 ∈ 𝐾
෠𝑋𝐼 𝑡 𝑡 ~𝑃(𝜇𝐼 𝑡 )
E σ 𝑡=1
𝑇 ෠𝑋𝐼 𝑡 𝑡

Regret 𝑇 = ෍
𝑡=1
𝑇
max
𝑖
𝜇𝑖 − ෍
𝑡=1
𝑇
𝜇𝐼 𝑡 .


➢ lim
𝑇→∞
Regret(𝑇)
log 𝑇
→ 𝐶∗ w. p. 1
➢ 𝐶∗
𝜇𝑖 𝑖

Regret 𝑇 = ෍
𝑡=1
𝑇
max
𝑖
𝜇𝑖 − ෍
𝑡=1
𝑇
𝜇𝐼 𝑡 .


➢ lim
𝑇→∞
Regret(𝑇)
log 𝑇
→ 𝐶∗ w. p. 1
➢ 𝐶∗
𝜇𝑖 𝑖

Regret 𝑇 = ෍
𝑡=1
𝑇
max
𝑖
𝜇𝑖 − ෍
𝑡=1
𝑇
𝜇𝐼 𝑡 .


➢ lim
𝑇→∞
Regret(𝑇)
log 𝑇
→ 𝐶∗ w. p. 1
➢ 𝐶∗
𝜇𝑖 𝑖
 𝐵UCB1 𝑖, 𝑡
𝐵UCB1 𝑖, 𝑡 = ො𝜇𝑖(𝑡) +
log(𝑡)
𝑁𝑖(𝑡)
ො𝜇𝑖
𝐵UCB1 𝑖, 𝑡
 𝐵UCB1 𝑖, 𝑡
𝐵UCB1 𝑖, 𝑡 = ො𝜇𝑖(𝑡) +
log(𝑡)
𝑁𝑖(𝑡)
ො𝜇𝑖
𝐵UCB1 𝑖, 𝑡
😁
😁
😣
•
𝑡 = 1,2, … , 𝑇
{ ෠𝑋𝑖 𝑡 }
𝐼 𝑡 ∈ 𝐾
෠𝑋𝐼 𝑡 ∈ [0,1]
E σ 𝑡=1
𝑇 ෠𝑋𝐼 𝑡 𝑡
 Regret 𝑇 = max
𝑖
σ 𝑡=1
𝑇 ෠𝑋𝑖 𝑡 −
σ 𝑡=1
𝑇 ෠𝑋𝐼(𝑡) 𝑡 .

Ω(𝑇)
 𝑜(𝑇)
➢
 𝑝𝑖(𝑡)
• 𝛾 𝜂 ෨𝑂( 𝐾𝑇)
総報酬の不偏推定量:
総報酬に対して指数的に高い
確率でアームを引く
😁
😣


➢
➢


➢
➢


➢
➢

➢
𝑡 = 1,2, … , 𝑇
𝑐(𝑡)
𝐼 𝑡 ∈ 𝐾
෠𝑋𝐼 𝑡 𝑡

➢
➢
𝜋: C → [𝐾]







➢
➢
Leaf
node


➢
➢
➢


➢

➢
➢



➢
➢


https://ambervincent.wordpress.com/2015/01/15/this-is-an-a-b-
conversation-so-c-your-way-out-ab-testing/

➢
➢

➢
➢

•
•

•
•
https://people.duke.edu/~rnau/411rand.htm






➢
➢


多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)