Successfully reported this slideshow.
Your SlideShare is downloading. ×

多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Loading in …3
×

Check these out next

1 of 53 Ad

多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)

Download to read offline

講演者: 小宮山純平 先生 (東京大学生産技術研究所)

概要: 多腕バンディット問題は、情報の探索と活用のトレードオフを解決するための最も単純なモデルである。 この問題は1930年代から統計家によって扱われてきたが、近年オンライン広告配置などへの応用を契機として機械学習分野で研究が加速している。 本発表では、前半で多腕バンディット問題の定式化について説明した後、後半でオンライン広告配置、A/Bテスト、囲碁アルゴリズムなどの応用について解説する。

講演者: 小宮山純平 先生 (東京大学生産技術研究所)

概要: 多腕バンディット問題は、情報の探索と活用のトレードオフを解決するための最も単純なモデルである。 この問題は1930年代から統計家によって扱われてきたが、近年オンライン広告配置などへの応用を契機として機械学習分野で研究が加速している。 本発表では、前半で多腕バンディット問題の定式化について説明した後、後半でオンライン広告配置、A/Bテスト、囲碁アルゴリズムなどの応用について解説する。

Advertisement
Advertisement

More Related Content

Slideshows for you (20)

Viewers also liked (17)

Advertisement

Similar to 多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー) (20)

More from STAIR Lab, Chiba Institute of Technology (20)

Advertisement

Recently uploaded (20)

多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)

  1. 1.   ➢ ➢  ➢
  2. 2.  𝐾  (image from http://www.directgamesroom.com )
  3. 3. ➢ ➢ ➢
  4. 4. 𝑡 = 1,2, … , 𝑇 𝐼 𝑡 ∈ 𝐾 = 1, … , 𝐾 ෠𝑋𝐼 𝑡 𝑡
  5. 5.  ➢ ➢ ➢
  6. 6. Bernoulli: 1= , 0= )
  7. 7. 𝑡 = 1,2, … , 𝑇 𝐼 𝑡 ∈ 𝐾 = 1, … , 𝐾 ෠𝑋𝐼 𝑡 𝑡
  8. 8. 𝑡 = 1,2, … , 𝑇 𝐼 𝑡 ∈ 𝐾 = 1, … , 𝐾 ෠𝑋𝐼 𝑡 𝑡
  9. 9. ベイズ的 確率的 敵対的 モデル ベイズ 頻度論 任意 未来の報酬は? 割引 今と同じ 今と同じ アルゴリズム Gittins指数 UCB/TS/MED Exp3 (指数重み) https://www.slideshare.net /JohnTyndall /an-introduction-to-bayesian-statistics より
  10. 10. ベイズ的 確率的 敵対的 モデル ベイズ 頻度論 任意 未来の報酬は? 割引 今と同じ 今と同じ アルゴリズム Gittins指数 UCB/TS/MED Exp3 (指数重み) https://www.slideshare.net /JohnTyndall /an-introduction-to-bayesian-statistics より
  11. 11. ベイズ的 確率的 敵対的 モデル ベイズ 頻度論 任意 未来の報酬は? 割引 今と同じ 今と同じ アルゴリズム Gittins指数 UCB/TS/MED Exp3 (指数重み) https://www.slideshare.net /JohnTyndall /an-introduction-to-bayesian-statistics より
  12. 12. • 𝛽 ∈ (0,1) 𝝁𝒊(𝟎) 𝒊 𝑡 = 1,2, … , 𝑇 𝐼 𝑡 ∈ 𝐾 ෠𝑋𝐼 𝑡 𝜇𝐼 𝑡 (𝑡)
  13. 13. • 𝛽 ∈ (0,1) 𝝁𝒊(𝟎) 𝒊 𝑡 = 1,2, … , 𝑇 𝐼 𝑡 ∈ 𝐾 ෠𝑋𝐼 𝑡 𝜇𝐼 𝑡 (𝑡)
  14. 14. • 𝛽 ∈ (0,1) 𝝁𝒊(𝟎) 𝒊 𝑡 = 1,2, … , 𝑇 𝐼 𝑡 ∈ 𝐾 ෠𝑋𝐼 𝑡 𝜇𝐼 𝑡 (𝑡)
  15. 15.  𝐺𝑖 𝑡 𝑖 
  16. 16. 😁 😁 😣 😣 𝛽 😣
  17. 17. • 𝑡 = 1,2, … , 𝑇 𝐼 𝑡 ∈ 𝐾 ෠𝑋𝐼 𝑡 𝑡 ~𝑃(𝜇𝐼 𝑡 ) E σ 𝑡=1 𝑇 ෠𝑋𝐼 𝑡 𝑡
  18. 18. • 𝑡 = 1,2, … , 𝑇 𝐼 𝑡 ∈ 𝐾 ෠𝑋𝐼 𝑡 𝑡 ~𝑃(𝜇𝐼 𝑡 ) E σ 𝑡=1 𝑇 ෠𝑋𝐼 𝑡 𝑡
  19. 19.  Regret 𝑇 = ෍ 𝑡=1 𝑇 max 𝑖 𝜇𝑖 − ෍ 𝑡=1 𝑇 𝜇𝐼 𝑡 .   ➢ lim 𝑇→∞ Regret(𝑇) log 𝑇 → 𝐶∗ w. p. 1 ➢ 𝐶∗ 𝜇𝑖 𝑖
  20. 20.  Regret 𝑇 = ෍ 𝑡=1 𝑇 max 𝑖 𝜇𝑖 − ෍ 𝑡=1 𝑇 𝜇𝐼 𝑡 .   ➢ lim 𝑇→∞ Regret(𝑇) log 𝑇 → 𝐶∗ w. p. 1 ➢ 𝐶∗ 𝜇𝑖 𝑖
  21. 21.  Regret 𝑇 = ෍ 𝑡=1 𝑇 max 𝑖 𝜇𝑖 − ෍ 𝑡=1 𝑇 𝜇𝐼 𝑡 .   ➢ lim 𝑇→∞ Regret(𝑇) log 𝑇 → 𝐶∗ w. p. 1 ➢ 𝐶∗ 𝜇𝑖 𝑖
  22. 22.  𝐵UCB1 𝑖, 𝑡 𝐵UCB1 𝑖, 𝑡 = ො𝜇𝑖(𝑡) + log(𝑡) 𝑁𝑖(𝑡) ො𝜇𝑖 𝐵UCB1 𝑖, 𝑡
  23. 23.  𝐵UCB1 𝑖, 𝑡 𝐵UCB1 𝑖, 𝑡 = ො𝜇𝑖(𝑡) + log(𝑡) 𝑁𝑖(𝑡) ො𝜇𝑖 𝐵UCB1 𝑖, 𝑡
  24. 24. 😁 😁 😣
  25. 25. • 𝑡 = 1,2, … , 𝑇 { ෠𝑋𝑖 𝑡 } 𝐼 𝑡 ∈ 𝐾 ෠𝑋𝐼 𝑡 ∈ [0,1] E σ 𝑡=1 𝑇 ෠𝑋𝐼 𝑡 𝑡
  26. 26.  Regret 𝑇 = max 𝑖 σ 𝑡=1 𝑇 ෠𝑋𝑖 𝑡 − σ 𝑡=1 𝑇 ෠𝑋𝐼(𝑡) 𝑡 .  Ω(𝑇)  𝑜(𝑇) ➢
  27. 27.  𝑝𝑖(𝑡) • 𝛾 𝜂 ෨𝑂( 𝐾𝑇) 総報酬の不偏推定量: 総報酬に対して指数的に高い 確率でアームを引く
  28. 28. 😁 😣
  29. 29.   ➢ ➢
  30. 30.   ➢ ➢
  31. 31.   ➢ ➢  ➢
  32. 32. 𝑡 = 1,2, … , 𝑇 𝑐(𝑡) 𝐼 𝑡 ∈ 𝐾 ෠𝑋𝐼 𝑡 𝑡
  33. 33.  ➢ ➢ 𝜋: C → [𝐾] 
  34. 34.   
  35. 35.    ➢ ➢ Leaf node
  36. 36.   ➢ ➢ ➢ 
  37. 37.  ➢  ➢ ➢ 
  38. 38.   ➢ ➢
  39. 39.   https://ambervincent.wordpress.com/2015/01/15/this-is-an-a-b- conversation-so-c-your-way-out-ab-testing/
  40. 40.  ➢ ➢  ➢ ➢
  41. 41.  • • 
  42. 42.
  43. 43.
  44. 44. https://people.duke.edu/~rnau/411rand.htm
  45. 45.     
  46. 46.  ➢ ➢ 

×