バンディットアルゴリズム概論

バンディットアルゴリズム概論
@ Gunosy研究会
Gunosy Inc. 福島良典

今日の内容
←これ
1. バンディットの思想
2. 具体的なアルゴリズム
3. デバッグ方法

1. バンディットアルゴリズムの思想
バンディットアルゴリズムとは
● よりよい選択肢を素早く(=より少ない試行で)見つける
● 無駄な実験を少なくする
● 実験をコストととらえ、「活用」と「探求」のトレードオフに応え
る

「活用」と「探求」とは
一方は確率50%であたりをかえすくじ、一方は確
率30%であたりをかえすくじがあるとする。どっちを
引く??

くじ1

くじ2

あたりの確率がわからないくじが2箱ある。2000回このくじを引
いていいとする。あたりを報酬1、はずれを報酬0としたとき報酬
を最大化するにはどうしますか?

くじ1

くじ2

パターン１: ワイルド野郎
-> くじ1の方があたりが出る確率が高い方にかけるぜ！全部1
を引くぜ
<問題点>
再現性がない。選択肢が増えるにつれてどんどん勝てなくなる

パターン2: 優柔不断野郎
-> きめられないから1/2ずつひきます><
<問題点>
勝てない

一見糞野郎に見える２人にもヒントがある。
ワイルド野郎の用に張らないと勝てない。つまり勝つにはより良いくじをたくさんひか
ないといけない。
優柔不断野郎のように調べないと情報が集まらない。勝つためにはくじのあたりの確
率をより正確に知らないといけない。

一見糞野郎に見える２人にもヒントがある。
ワイルド野郎の用に張らないと勝てない。つまり勝つにはより良いくじをたくさんひか
ないといけない。(活用)
優柔不断野郎のように調べないと情報が集まらない。勝つためにはくじのあたりの確
率をより正確に知らないといけない。(探求)

活用とは「良い選択肢」を多く利用すること
探求とは「良い選択肢」がどれか調べること
活用と探求につかえるリソース(この場合くじ引き
回数)は同じ。なのでこの2つはトレードオフにあ
る。

2. 具体的なアルゴリズム
● Epsilion-Greedy アルゴリズム
● Softmax アルゴリズム
● UCB アルゴリズム

先ほどの問題を例に考えてみる
あたりの確率がわからないくじが2箱ある。2000回このくじを引
いていいとする。あたりを報酬1、はずれを報酬0としたとき報酬
を最大化するにはどうしますか?

くじ1

くじ2

Epsilion-Greedy アルゴリズム
ちょっと賢い人の発想。
-> くじはそれぞれ100回引けばそれなりに確率はわかるだろう。なので200回くじの
確率を調べるのに利用し、残りの1800回をいいくじを引くのに利用しよう(いわゆる
ABテストの発想に近い)
<問題点>
それでも確率の揺らぎはおこる。

局所解におちいらないように適度に探求を混ぜる。(ε=0.2とした
ら0.2は探求、0.8は活用に利用するみたいなイメージ)
くじ1
探求
くじ2

活用

活用に仕方 -> 現時点でわかってる最善の選択
探求の仕方 -> 単純にランダム
<問題点>
- どこまで試行を繰り返しても、探求に一定のリソースを使ってしまう(=>無駄な実験)
- (上と似ているが)探索の際完全にランダムなので、あきらかに悪い選択しでも一定
の確率で選択してしまう(=>無駄な実験)
- 探索にせよ、活用にせよ試行回数を気にしていない。100回試して50あたりのもの
も2回ためして1回あたりのものも同じに扱われる

Softmaxアルゴリズム
Epsilion-Greedyアルゴリズムの探求の無駄を改
善する
-> 探求の際、より良い選択肢をより高い確率で試
し、良くない選択肢は低い確率で試す

primitiveに考えると
確率の加重平均
-> rA / (rA + rB)
ただしこの場合報酬が負とかだとうまくうごかない

推定値をべき乗して
exp(rA) / (exp(rA) + exp(rB))
とすると報酬負でもOK

温度パラメーターをいれる。
exp(rA / tau) / (exp(rA / tau) + exp(rB / tau))
tauパラメータが古典物理における温度が与える影響に似ているからそう呼ばれる(ら
しい)
低温では秩序だった動きをし、高温ではランダムに動く
tau=0では活用を、tau=無限大で完全にランダム(探求)

Softmaxアルゴリズムのアニール
時間の経過とともに探求の数を減らす(=温度を小さくしていく)ことをアニールする、ア
ニーリングと呼ぶ
これによって十分に試行した選択肢で無駄なものは探求には利用しなくなる
例えば温度を
tau = 1 /log(t + 0.0001) (t:時間)
のようにするとtの増加とともに緩やかに温度が下がっていく

UCBアルゴリズム
前述2点のアルゴリズムの弱点=試行回数を考慮していない
(つまり100回引いた結果の確率50%も2回だけひいた確率
50%も同じ価値)
=> より確信度の高い腕を活用すべき + 確信度の低い腕が探
求されるべき

UCBアルゴリズムの特徴
● サイコロを振らない(ある評価式に基づき腕を引
く。評価式に活用と探求のトレードオフを再現さ
せる)
● 具体的には(期待値) + (試行回数に応じたボー
ナス)で評価

UCBアルゴリズムの評価式一例
rA + (sqrt(2 * log(total_count)) / A_count)
rA: Aの期待値
total_count: 今までの全試行回数
A_count: Aを引いた回数

UCBアルゴリズムのいい点悪い点
<いい点>
パラメータの設定の必要がない
最終的にはいい腕に収束する
<悪い点>
好奇心が強い(無駄な探索をしてしまう)

3.デバッグ方法
● オフラインで試す(シミュレーション)
● オンラインで試す(A/Aテスト)

オフラインで試す
例えば適当に腕(選択肢)をきめる。[0.9 0.1 0.1 0.1]といった腕を仮定する。この際、
腕は確率xで報酬を与える腕とする。
実際のアルゴリズムにたいしてこの腕を試す。
評価方法は例えば
●
●
●

正しい選択肢までの学習の早さ(時間軸と正しい腕を選ぶ確率)
平均報酬をみる(時間軸と平均報酬)
累計の報酬(時間軸と累計報酬)

オンラインで試す
A/Aテスト
テストしたいアルゴリズムに対して、複数の同じ腕
を用意する。
-> もしこの腕の選択に大きく差異がある場合、ア
ルゴリズムに欠陥がある可能性がある

まとめ
●
●
●

バンディットは不確実性のある中でより良い選択肢を素早く発見する方法であ
る。その仮定で無駄な実験を減らせる
今日紹介した方法はprimitiveであり、研究はもっと進んでいる。キャッチアップし
たい
今後多くのサービスが直面するであろう問題。既存ユーザーの不満を最小限に
しつつ新しい手法を試していく、より素早く答えに近づくためのテストフレーム
ワークとしてバンディットはすごく重要になってきそうだと感じた

備考: 改良点
適当な初期値を与えることでより早く学習することが出来る
●
●

事前情報を利用(いまある腕に関してある程度知識がある場合、その知識に基
づき初期値を与える)
例えば、平均値と実測値を適当に重み付けした値を加えるなど

備考: 関連論文
●

●

●

Trustworthy Online Controlled Experiments: Five Puzzling Outcomes
Explained
○ オンラインでの実験でよく起こるミスなどに関する論文
○ バンディットの適用での注意もここにのってるらしい
A Contextual-Bandit Approach to Personalized News Article
Recommendation
○ バンディットを使ったニュース推薦。よんでみたい
Prametric Bandits: The Generalized Linear Case
○ 一般線形モデルをつかったバンディット
○ モデルの更新にオンライン学習が使えるものはバンディットと相性がいい

バンディットアルゴリズム概論

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (20)

Recently uploaded

Recently uploaded (10)

バンディットアルゴリズム概論