Home
Explore
Submit Search
Upload
Login
Signup
Advertisement
バンディット問題について
Report
jkomiyama
Follow
Jul. 31, 2019
•
0 likes
1 likes
×
Be the first to like this
Show More
•
4,328 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Check these out next
最適輸送入門
joisino
確率的バンディット問題
jkomiyama
機械学習による統計的実験計画(ベイズ最適化を中心に)
Kota Matsui
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
STAIR Lab, Chiba Institute of Technology
多様な強化学習の概念と課題認識
佑 甲野
機械学習におけるオンライン確率的最適化の理論
Taiji Suzuki
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
coordinate descent 法について
京都大学大学院情報学研究科数理工学専攻
1
of
49
Top clipped slide
バンディット問題について
Jul. 31, 2019
•
0 likes
1 likes
×
Be the first to like this
Show More
•
4,328 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Download Now
Download to read offline
Report
Technology
2019/07/22 本郷で発表
jkomiyama
Follow
Advertisement
Advertisement
Advertisement
Recommended
グラフニューラルネットワーク入門
ryosuke-kojima
46.8K views
•
65 slides
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
24.1K views
•
173 slides
ようやく分かった!最尤推定とベイズ推定
Akira Masuda
95.8K views
•
31 slides
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
9.7K views
•
137 slides
不均衡データのクラス分類
Shintaro Fukushima
58.3K views
•
34 slides
SMO徹底入門 - SVMをちゃんと実装する
sleepy_yoshi
31K views
•
49 slides
More Related Content
Slideshows for you
(20)
最適輸送入門
joisino
•
8.2K views
確率的バンディット問題
jkomiyama
•
12.8K views
機械学習による統計的実験計画(ベイズ最適化を中心に)
Kota Matsui
•
11.1K views
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
STAIR Lab, Chiba Institute of Technology
•
4.6K views
多様な強化学習の概念と課題認識
佑 甲野
•
57.6K views
機械学習におけるオンライン確率的最適化の理論
Taiji Suzuki
•
23.8K views
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
•
13.9K views
coordinate descent 法について
京都大学大学院情報学研究科数理工学専攻
•
17.2K views
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
Takami Sato
•
38.4K views
深層学習の数理
Taiji Suzuki
•
78.3K views
グラフニューラルネットワークとグラフ組合せ問題
joisino
•
4K views
密度比推定による時系列データの異常検知
- Core Concept Technologies
•
3.9K views
最適輸送の計算アルゴリズムの研究動向
ohken
•
7.3K views
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
•
56K views
最適輸送の解き方
joisino
•
18.9K views
科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性
Ichigaku Takigawa
•
14K views
機械学習モデルのハイパパラメータ最適化
gree_tech
•
27.3K views
グラフィカル Lasso を用いた異常検知
Yuya Takashina
•
14.7K views
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP
•
6.5K views
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
mlm_kansai
•
65K views
More from jkomiyama
(6)
暴れまわるティラノサウルス
jkomiyama
•
516 views
Optimal Regret Analysis of Thompson Sampling in Stochastic Multi-armed Bandit...
jkomiyama
•
3.3K views
ICML2015概要
jkomiyama
•
2.2K views
Annals of Statistics読み回 第一回
jkomiyama
•
1.3K views
20150331annstat preview
jkomiyama
•
773 views
WWW2014勉強会発表
jkomiyama
•
1.8K views
Advertisement
Recently uploaded
(20)
【DL輪読会】Flow Matching for Generative Modeling
Deep Learning JP
•
681 views
Kubernetes超入門
Takashi Suzuki
•
4 views
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Deep Learning JP
•
1.1K views
☀️【卡尔顿大学毕业证成绩单留学生首选】
15sad
•
2 views
《杨百翰大学毕业证|学位证书校内仿真版本》
d520dasw12
•
2 views
留信网认证可查【皇家霍洛威学院文凭证书毕业证购买】
32lkhng
•
2 views
ペンタエリスリトール市場.pdf
HinaMiyazu
•
3 views
モバイル・クラウド・コンピューティング-データを如何に格納し、組み合わせ、情報として引き出すか
Masahiko Funaki
•
2 views
論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques
Toru Tamaki
•
54 views
①【阳光海岸大学毕业证文凭学位证书|工艺完美复刻】
vgh215w
•
2 views
ネットワークパケットブローカー市場.pdf
HinaMiyazu
•
3 views
☀️【中央兰开夏大学毕业证成绩单留学生首选】
25mjhd12
•
4 views
UAV写真・レーザー測量test.pptx
ssuserb48d2b1
•
13 views
Omnis
DaisukeFujita10
•
11 views
MT,STautomation
ssuserf8ea02
•
108 views
☀️【杜兰大学毕业证成绩单留学生首选】
2125nuh
•
2 views
①【威斯康星大学麦迪逊分校毕业证文凭学位证书|工艺完美复刻】
C25lokh12
•
3 views
Üslup ve tercüme.pdf
1Hmmtks
•
2 views
☀️【麦吉尔大学毕业证成绩单留学生首选】
15sad
•
3 views
PCベース制御による集中制御.pdf
ssusercd9928
•
19 views
バンディット問題について
バンディット問題について 小宮山 純平 (東大生研) 2019/07/22
研究 バンディット問題 メイン、博士課程→現在
今回の発表内容 パターンマイニング+多重検定 2017年ごろ(KDD2017で発表) 公平性配慮アルゴリズム 2018年ごろ(ICML2018で発表) 2
バンディット問題 3 … 𝐾 個のスロットマシン(アーム)、引くと報酬が得ら れる
最も期待報酬の高いアームはどれか アーム (image from http://www.directgamesroom.com )
難しさ:部分フィードバック 4 … アーム2を引くと、アーム2の報酬がわかる →アーム1やアーム3を引いた場合にどれぐらいの報酬が 貰えたかは一切わからない アーム
テーマ:探索と活用のトレードオフ 探索:全アームを均等に調べる 各アームの期待報酬を正確に推定したい 活用:一番良いアームを選びたい 現時点の情報で最も報酬の高そうなアームを引 く
高い確率で真に良いアームを選べるが、情報が 不足していると悪いアームが一見良く見えるこ とがある 良いアルゴリズム=探索と活用をバランスできる アルゴリズム 5
バンディット問題の構造 6 … 例えば:アーム1が最も良いアームとして アーム𝑖 ∈ [2
… 𝐾]をどれぐらい調べれば、 アーム1 > アーム𝑖であると確信できるか? アーム
最もシンプルなバンディット問題の定式化 各ラウンド 𝑡 =
1,2, … , 𝑇に, 1. アルゴリズムがアーム𝐼 𝑡 ∈ 𝐾 = 1, … , 𝐾 を選択し、 2. 報酬 𝑋𝐼 𝑡 𝑡 を受け取る. 目的:総報酬の最大化 7
例:オンライン広告 検索エンジン「レンタカーについてのクエリを出した ユーザに、関連した広告を出したい」 広告を出したいレンタカー・旅行代理店はたくさ んある:代理店A-Zのどの広告を出せばいいか? 最もユーザが興味を持つもの
Implicit feedback: ユーザの興味は直接はわからない が、ユーザがクリックして閲覧する広告は良い 検索エンジンはクリックから収益を得る(pay-per- click) 8
オンライン広告を バンディット問題としてモデル化 対応関係: 9 バンディット問題 オンライン広告 ラウンド ユーザの来訪 アーム
広告 報酬 広告がクリックされた かどうか (Bernoulli: 1=クリック, 0=非クリック) 報酬の最大化 クリック数の最大化
バンディット問題:定式化 各ラウンド 𝑡 =
1,2, … , 𝑇に, 1. アルゴリズムがアーム𝐼 𝑡 ∈ 𝐾 = 1, … , 𝐾 を選択し、 2. 報酬 𝑋𝐼 𝑡 𝑡 を受け取る. 目的:総報酬の最大化 10 報酬に対する仮定で おもに3つの異なる 定式化
バンディット問題:定式化 各ラウンド 𝑡 =
1,2, … , 𝑇に, 1. アルゴリズムがアーム𝐼 𝑡 ∈ 𝐾 = 1, … , 𝐾 を選択し、 2. 報酬 𝑋𝐼 𝑡 𝑡 を受け取る. 目的:総報酬の最大化 11 アルゴリズム=過去の報酬情報を見て 次に選ぶアームを決定 (オンラインアルゴリズム)
3つの定式化 ベイズ的 確率的 敵対的 モデル
ベイズ 頻度論 任意 未来の報酬は? 割引 今と同じ 今と同じ アルゴリズム Gittins指数 UCB/TS/MED Exp3 (指数重み) 12 https://www.slideshare.net /JohnTyndall /an-introduction-to-bayesian-statistics より
3つの定式化 ベイズ的 確率的 敵対的 モデル
ベイズ 頻度論 任意 未来の報酬は? 割引 今と同じ 今と同じ アルゴリズム Gittins指数 UCB/TS/MED Exp3 (指数重み) 13 https://www.slideshare.net /JohnTyndall /an-introduction-to-bayesian-statistics より 僕の研究分野 (頻度論者?…)
3つの定式化 ベイズ的 確率的 敵対的 モデル
ベイズ 頻度論 任意 未来の報酬は? 割引 今と同じ 今と同じ アルゴリズム Gittins指数 UCB/TS/MED Exp3 (指数重み) 14 https://www.slideshare.net /JohnTyndall /an-introduction-to-bayesian-statistics より 3つの定式化を順番に説明
1.ベイズ的バンディット問題 • アーム =
マルコフ決定過程 (MDP) - 状態マシン 入力: 割引因子 𝛽 ∈ (0,1), 事前分布 𝝁𝒊(𝟎) 𝒊 各ラウンド 𝑡 = 1,2, … , 𝑇に, 1. アルゴリズムがアーム𝐼 𝑡 ∈ 𝐾 を選び 2. 報酬 𝑋𝐼 𝑡 𝜇𝐼 𝑡 (𝑡) を受け取る 3. 状態がMDP上で変化 目的:事前分布のもとで期待報酬を最大化(ベイズ的!) 15 事後確率を更新
1.ベイズ的バンディット問題 • アーム =
マルコフ決定過程 (MDP) 入力: 割引因子 𝛽 ∈ (0,1), 事前分布 𝝁𝒊(𝟎) 𝒊 各ラウンド 𝑡 = 1,2, … , 𝑇に, 1. アルゴリズムがアーム𝐼 𝑡 ∈ 𝐾 を選び 2. 報酬 𝑋𝐼 𝑡 𝜇𝐼 𝑡 (𝑡) を受け取る 3. 状態がMDP上で変化 目的:事前分布のもとで期待報酬を最大化 16 事後確率を更新 Informalに:各アームの状態(報酬高いアームか 低いアームか)の事前分布を知っている、 どう状態変化するか(あるいはしないか)も知っている →どのアームを引くのがいいか?
1.ベイズ的バンディット問題 • アーム =
マルコフ決定過程 (MDP) 入力: 割引因子 𝛽 ∈ (0,1), 事前分布 𝝁𝒊(𝟎) 𝒊 各ラウンド 𝑡 = 1,2, … , 𝑇に, 1. アルゴリズムがアーム𝐼 𝑡 ∈ 𝐾 を選び 2. 報酬 𝑋𝐼 𝑡 𝜇𝐼 𝑡 (𝑡) を受け取る 3. 状態がMDP上で変化 目的:事前分布のもとで期待報酬を最大化 17 事後確率を更新事後確率を更新 未来の報酬は今の報酬より価値が低い (強化学習と同様)
Gittins指数 [Gittins ’73]
最適なアルゴリズム:以下のGittins指数を 最大化するアームを引く 𝐺𝑖 𝑡 = 「アルゴリズム がアーム𝑖を引き続けて報酬をもらえる権利」 はいくらか? 証明は例えば [Weber ’92]. 18
ベイズ的定式化: pros/cons 😁 最適アルゴリズム
(Gittins指数). 😁 アームの(既知な)変化を扱えるー例えば、 広告を見せ続けると価値が下がるなど) 😣 性能が事前分布に依存(欠点でもない?) 😣 性能が割引因子𝛽に依存 😣 計算が大変(強化学習と同じく未来の報酬計 算に関するベルマン方程式を解く必要がある) 所感:最後の項がオンライン広告やA/Bテストで 近年は使われない原因なのでは… 19
確率的 バンディット問題 [Robbins 1952] •
アーム=確率分布 各ラウンド𝑡 = 1,2, … , 𝑇に, 1. アルゴリズムがアーム𝐼 𝑡 ∈ 𝐾 を選択し 2. 報酬 𝑋𝐼 𝑡 𝑡 ~𝑃(𝜇𝐼 𝑡 )を受け取る. 目的:期待報酬E 𝑡=1 𝑇 𝑋𝐼 𝑡 𝑡 を最大化. 20
確率的 バンディット問題 [Robbins 1952] •
アーム=確率分布 各ラウンド𝑡 = 1,2, … , 𝑇に, 1. アルゴリズムがアーム𝐼 𝑡 ∈ 𝐾 を選択し 2. 報酬 𝑋𝐼 𝑡 𝑡 ~𝑃(𝜇𝐼 𝑡 )を受け取る. 目的:期待報酬E 𝑡=1 𝑇 𝑋𝐼 𝑡 𝑡 を最大化. 21 報酬は各アームに対応した 確率分布からのサンプル 要するに…これまでのサンプルをもとに、 最も期待値の高い確率分布を推定
Regretと漸近最適性 以下のRegretを定義 Regret 𝑇
= 𝑡=1 𝑇 max 𝑖 𝜇𝑖 − 𝑡=1 𝑇 𝜇𝐼 𝑡 . 報酬最大化=Regret最小化 漸近最適アルゴリズム [Lai&Robbins ‘85] lim 𝑇→∞ Regret(𝑇) log 𝑇 → 𝐶∗ w. p. 1 𝐶∗: 一番良い分布を決定するための 最低限のサンプル数 𝜇𝑖 𝑖. 22
Regretと漸近最適性 以下のRegretを定義 Regret 𝑇
= 𝑡=1 𝑇 max 𝑖 𝜇𝑖 − 𝑡=1 𝑇 𝜇𝐼 𝑡 . 報酬最大化=Regret最小化 漸近最適アルゴリズム [Lai&Robbins ‘85] lim 𝑇→∞ Regret(𝑇) log 𝑇 → 𝐶∗ w. p. 1 𝐶∗: 一番良い分布を決定するための 最低限のサンプル数 𝜇𝑖 𝑖. 23 最も良いアームを知っていたら、 どれだけ報酬を多くもらえたか
Regretと漸近最適性 以下のRegretを定義 Regret 𝑇
= 𝑡=1 𝑇 max 𝑖 𝜇𝑖 − 𝑡=1 𝑇 𝜇𝐼 𝑡 . 報酬最大化=Regret最小化 漸近最適アルゴリズム [Lai&Robbins ‘85] lim 𝑇→∞ Regret(𝑇) log 𝑇 → 𝐶∗ w. p. 1 𝐶∗: 一番良い分布を決定するための 最低限のサンプル数 𝜇𝑖 𝑖. 24 いくつのサンプルがあれば、 一番良いアーム(確率分布) を決定できるか?
Upper Confidence Bound
1 (UCB1) アルゴ リズム [Auer+ 2002] 各ラウンドに、以下のUCB1指数 𝐵UCB1 𝑖, 𝑡 を最大化するアームを選択 𝐵UCB1 𝑖, 𝑡 = 𝜇𝑖(𝑡) + log(𝑡) 𝑁𝑖(𝑡) 25 𝜇𝑖 𝐵UCB1 𝑖, 𝑡 期待報酬 サンプル数 経験期待報酬
Upper Confidence Bound
1 (UCB1) アルゴ リズム [Auer+ 2002] 各ラウンドに、以下のUCB1指数 𝐵UCB1 𝑖, 𝑡 を最大化するアームを選択 𝐵UCB1 𝑖, 𝑡 = 𝜇𝑖(𝑡) + log(𝑡) 𝑁𝑖(𝑡) 26 𝜇𝑖 𝐵UCB1 𝑖, 𝑡 経験期待報酬 期待報酬 探索活用
確率的定式化: pros/cons 😁 漸近最適フレームワーク[Lai&Robbins
’85]. 😁 効率的なアルゴリズム(UCB, Thomspon sampling, MED, etc.) 😣報酬分布の変化が扱いにくい(例えば、昼と 夜で広告のクリック率が異なる場合、自明では ないアルゴリズムの改良が必要) 27
敵対的バンディット問題 [Auer+ 2002] • 敵
(adversary)が不利な報酬を設定 各ラウンド 𝑡 = 1,2, … , 𝑇に 1. 敵が各アームの報酬を決定{ 𝑋𝑖 𝑡 } 2. アルゴリズムがアーム𝐼 𝑡 ∈ 𝐾 を選択し 3. 報酬 𝑋𝐼 𝑡 ∈ [0,1]を受け取る 目的:最悪の敵に対する報酬E 𝑡=1 𝑇 𝑋𝐼 𝑡 𝑡 を大きくする 28
敵対的バンディット問題 [Auer+ 2002] Regret
𝑇 = max 𝑖 𝑡=1 𝑇 𝑋𝑖 𝑡 − 𝑡=1 𝑇 𝑋𝐼(𝑡) 𝑡 . 「敵」はとても強い:任意の 決定的アルゴリズムはΩ(𝑇)の Regret(一番いいアームを選べない) 乱択すると𝑜(𝑇) のRegret(一番いい アームを選べる) Exp3 [Auer+2002], Inf [Garivier+2009]. 29 最も報酬の高いアーム の総報酬 アルゴリズムの 総報酬
Exp3アルゴリズム: 指数的重みづけ 各アームを次の確率𝑝𝑖(𝑡)で選択 where
is an estimator of • パラメータ 𝛾と𝜂をチューニングし、 𝑂( 𝐾𝑇)の Regret(=最も良いアームを決められる) 30 総報酬の不偏推定量: 総報酬に対して指数的に高い 確率でアームを引く
敵対的定式化: pros/cons 😁 仮定が弱い:報酬分布は任意の分布、定 常でもよいし、時間変化があってもOK 😣
実際の性能は低いことが多い 仮定が弱すぎる(最悪の場合に対応するため、 探索が大きすぎる)傾向→例えば、広告のク リック率は「ほぼ定常」だとすると、その構 造をどうにか活かしたい 31
3つのアプローチ:どれが使われている か? 機械学習の論文を見ると→確率的と敵 対的が大半 ベイズ的なアプローチはなぜあまり見 ないか?
計算が重い(主にどのぐらい先のラウン ドを見るかー割引因子依存の2乗) 機械学習の人は計算効率より、「学習で きるか」に興味がある?(機械学習です し…) 32
3つのアプローチ:どれが使われている か? バンディット問題の3つの定式化について説 明した どんな問題を扱える?
報酬の仮定が適切で 目的が報酬の最大化なら バンディット問題によるモデル化はうまく いく印象 後半は代表的な応用事例を紹介 33
これ以降、バンディット問題の応用事例 を説明 34
オンライン広告 35
オンライン広告 検索エンジン広告:検索クエリとキーワードの マッチング(ブロードマッチ)後、どの広告を 選択するか? 検索エンジン広告はpay-per-click
広告=アーム, クリック=報酬 収益最大化=報酬最大化 ユーザ個別の素性はどうやって考慮するか? 同じ「レンタカー」検索でも、若者と家族 持ち世代では反応が変わるかもしれない 36
コンテキストありバンディット問題 [Langford&Zhang ’07] 各ラウンド𝑡 =
1,2, … , 𝑇に、アルゴリズムは 1. コンテキスト 𝑐(𝑡)を受け取り 2. アームを選択し 𝐼 𝑡 ∈ 𝐾 3. 報酬を受け取る 𝑋𝐼 𝑡 𝑡 . 目的:総報酬の最大化 37
コンテキストありバンディット問題 パーソナリゼーション:あるユーザにとっては広 告1のほうが良いし、別のユーザにとっては広告2 のほうが良い コンテキスト=広告とユーザ間の関係を(ベ クトル素性など)で表現
最適なアルゴリズム:コンテキストから広告 への写像𝜋: C → [𝐾]を学習 敵対的定式化[Langford&Zhang ’07], および確率的定式 化[Lai+ ’82, Abe&Long ’03, Chu ‘11]. 38
モンテカルロ木探索 (MCTS) Chess,
囲碁, etc. 複数人、ターン制のゲーム(展開型ゲーム) ゲーム木で表現 → 39
UCTアルゴリズム 目的:次の一手の発見 難しい点:木のサイズは深さに対し て指数的に増大
途中局面の「評価」が非常に難しい 将棋などと違い、評価関数が(そこ まで)うまくいかない UCTは評価フリーアプローチ 40 Leaf node
Bandit-based Monte Carlo
planning [Kocsis+ ’06] 41 UCT = UCB over Tree ランダムプレイ 黒勝ち→ reward 1 白勝ち→ reward 0 各局面の次の手が バンディットアーム 報酬を backpropagation
UCTアルゴリズム 42 評価数が一定回を超え たら次のノードを展開 次の手をUCBで選択
UCTは本当に必要なのか? MCTS (UCT)の良さ:ツリーの重点探索
普通のUCTは低性能 [Yoshimoto+ ’06] → ゲーム知識の 折り込みは必須 Progressive widening: 低品質な評価関数で事前 に手の優先順位を決める AMAF (手順前後-どちらを先に打っても価値は 同じ) 多くの(囲碁の性質を利用した)ヒューリス ティック 2007-2015はモンテカルロ囲碁が最強時代 43
アルファ後[Silver+ ’15] とUCT
AlphaGo [Silver+ ’15]. UCT + 評価関数(局面の評価) 深層学習を用いた4つの評価関数. Rollouts / Supervised learning (SL) → 次の着 手予測 (棋譜からトレーニング). Reinforcement learning (RL) / Value network → 評価値で有力な手から順にソート. UCTを利用した木の探索はやはり利用 44
推薦システム ユーザの望むアイテムを推薦 (e.g.,
ECサイト) コールドスタート: 新しい商品 or 新しいユーザに どうやって推薦するか(データがない) 探索 (データ収集)と活用 (これまでのデータか らよさそうな商品を推薦)のトレードオフは、 普通のバッチ学習では考慮できない バンディットベースの推薦システムが推薦シ ステムの学会(e.g., [Tang+ Recsys’14])や機械学 習の学会(e.g., [Kawale+ NIPS‘15])でいろいろ 提案されている 45
A/Bテスト 案Aと案B、どちらがいいか? アクセスログ→継続率/クリック率が観測可能 46 https://ambervincent.wordpress.com/2015/01/15/this-is-an-a-b- conversation-so-c-your-way-out-ab-testing/
A/Bテスト A/Bテストはバンディット問題か? バンディット問題は総報酬を最大化したい
A/Bテストではこれまでのユーザの総報酬(ユーザ が継続したか離脱したか)も重要だが、テスト終了 時にどちらが良いかを検定(決定)したい ではA/Bテストは(普通の意味での)検定か? 普通の検定はデータ数固定:「100人にテストして みたところ、p値=0.03で案Aのほうが良かった」 A/Bテスト:与えた水準を満たすまで実験を追加 「p=0.05でどちらかが良いか検定できるまで案Aと 案Bをユーザに交互に見せる」 47
検定とp値 p値:帰無仮説からデータが生成されるとしたときの 偏り具合 • 帰無仮説「案Aと案Bの効果は同程度」 •
p値が一定以下→帰無仮説を棄却し、対立仮設 を支持「帰無仮説が正しとしたら、こんなに案 Aが案Bよりうまく見えることは通常起きない。 よって、案Aは案Bより優れている」 Best arm identification(最適腕識別) • バンディット問題の技術を応用可能 48
まとめ バンディット問題を紹介した 3つの定式化(報酬の仮定) 応用事例(オンライン広告、モンテカルロ 木探索、推薦システム、A/Bテスト)
バンディット問題をやっていて良かった点 シンプルな問題設定、多い応用例 49
Advertisement