SlideShare a Scribd company logo
1 of 31
Download to read offline
バンディットアルゴリズム概論
@ Gunosy研究会
Gunosy Inc. 福島良典
今日の内容
←これ
1. バンディットの思想
2. 具体的なアルゴリズム
3. デバッグ方法
1. バンディットアルゴリズムの思想
バンディットアルゴリズムとは
● よりよい選択肢を素早く(=より少ない試行で)見つける
● 無駄な実験を少なくする
● 実験をコストととらえ、「活用」と「探求」のトレードオフに応え
る
「活用」と「探求」とは
一方は確率50%であたりをかえすくじ、一方は確
率30%であたりをかえすくじがあるとする。どっちを
引く??

くじ1

くじ2
ぬるげー
「活用」と「探求」とは
あたりの確率がわからないくじが2箱ある。2000回このくじを引
いていいとする。あたりを報酬1、はずれを報酬0としたとき報酬
を最大化するにはどうしますか?

くじ1

くじ2
「活用」と「探求」とは
パターン1: ワイルド野郎
-> くじ1の方があたりが出る確率が高い方にかけるぜ!全部1
を引くぜ
<問題点>
再現性がない。選択肢が増えるにつれてどんどん勝てなくなる
「活用」と「探求」とは
パターン2: 優柔不断野郎
-> きめられないから1/2ずつひきます><
<問題点>
勝てない
「活用」と「探求」とは
一見糞野郎に見える2人にもヒントがある。
ワイルド野郎の用に張らないと勝てない。つまり勝つにはより良いくじをたくさんひか
ないといけない。
優柔不断野郎のように調べないと情報が集まらない。勝つためにはくじのあたりの確
率をより正確に知らないといけない。
「活用」と「探求」とは
一見糞野郎に見える2人にもヒントがある。
ワイルド野郎の用に張らないと勝てない。つまり勝つにはより良いくじをたくさんひか
ないといけない。(活用)
優柔不断野郎のように調べないと情報が集まらない。勝つためにはくじのあたりの確
率をより正確に知らないといけない。(探求)
「活用」と「探求」とは
活用とは「良い選択肢」を多く利用すること
探求とは「良い選択肢」がどれか調べること
活用と探求につかえるリソース(この場合くじ引き
回数)は同じ。なのでこの2つはトレードオフにあ
る。
2. 具体的なアルゴリズム
● Epsilion-Greedy アルゴリズム
● Softmax アルゴリズム
● UCB アルゴリズム
先ほどの問題を例に考えてみる
あたりの確率がわからないくじが2箱ある。2000回このくじを引
いていいとする。あたりを報酬1、はずれを報酬0としたとき報酬
を最大化するにはどうしますか?

くじ1

くじ2
Epsilion-Greedy アルゴリズム
ちょっと賢い人の発想。
-> くじはそれぞれ100回引けばそれなりに確率はわかるだろう。なので200回くじの
確率を調べるのに利用し、残りの1800回をいいくじを引くのに利用しよう(いわゆる
ABテストの発想に近い)
<問題点>
それでも確率の揺らぎはおこる。
Epsilion-Greedy アルゴリズム
局所解におちいらないように適度に探求を混ぜる。(ε=0.2とした
ら0.2は探求、0.8は活用に利用するみたいなイメージ)
くじ1
探求
くじ2

活用
Epsilion-Greedy アルゴリズム
活用に仕方 -> 現時点でわかってる最善の選択
探求の仕方 -> 単純にランダム
<問題点>
- どこまで試行を繰り返しても、探求に一定のリソースを使ってしまう(=>無駄な実験)
- (上と似ているが)探索の際完全にランダムなので、あきらかに悪い選択しでも一定
の確率で選択してしまう(=>無駄な実験)
- 探索にせよ、活用にせよ試行回数を気にしていない。100回試して50あたりのもの
も2回ためして1回あたりのものも同じに扱われる
Softmaxアルゴリズム
Epsilion-Greedyアルゴリズムの探求の無駄を改
善する
-> 探求の際、より良い選択肢をより高い確率で試
し、良くない選択肢は低い確率で試す
primitiveに考えると
確率の加重平均
-> rA / (rA + rB)
ただしこの場合報酬が負とかだとうまくうごかない
Softmaxアルゴリズム
推定値をべき乗して
exp(rA) / (exp(rA) + exp(rB))
とすると報酬負でもOK
Softmaxアルゴリズム
温度パラメーターをいれる。
exp(rA / tau) / (exp(rA / tau) + exp(rB / tau))
tauパラメータが古典物理における温度が与える影響に似ているからそう呼ばれる(ら
しい)
低温では秩序だった動きをし、高温ではランダムに動く
tau=0では活用を、tau=無限大で完全にランダム(探求)
Softmaxアルゴリズムのアニール
時間の経過とともに探求の数を減らす(=温度を小さくしていく)ことをアニールする、ア
ニーリングと呼ぶ
これによって十分に試行した選択肢で無駄なものは探求には利用しなくなる
例えば温度を
tau = 1 /log(t + 0.0001) (t:時間)
のようにするとtの増加とともに緩やかに温度が下がっていく
UCBアルゴリズム
前述2点のアルゴリズムの弱点=試行回数を考慮していない
(つまり100回引いた結果の確率50%も2回だけひいた確率
50%も同じ価値)
=> より確信度の高い腕を活用すべき + 確信度の低い腕が探
求されるべき
UCBアルゴリズムの特徴
● サイコロを振らない(ある評価式に基づき腕を引
く。評価式に活用と探求のトレードオフを再現さ
せる)
● 具体的には(期待値) + (試行回数に応じたボー
ナス)で評価
UCBアルゴリズムの評価式一例
rA + (sqrt(2 * log(total_count)) / A_count)
rA: Aの期待値
total_count: 今までの全試行回数
A_count: Aを引いた回数
UCBアルゴリズムのいい点悪い点
<いい点>
パラメータの設定の必要がない
最終的にはいい腕に収束する
<悪い点>
好奇心が強い(無駄な探索をしてしまう)
3.デバッグ方法
● オフラインで試す(シミュレーション)
● オンラインで試す(A/Aテスト)
オフラインで試す
例えば適当に腕(選択肢)をきめる。[0.9 0.1 0.1 0.1]といった腕を仮定する。この際、
腕は確率xで報酬を与える腕とする。
実際のアルゴリズムにたいしてこの腕を試す。
評価方法は例えば
●
●
●

正しい選択肢までの学習の早さ(時間軸と正しい腕を選ぶ確率)
平均報酬をみる(時間軸と平均報酬)
累計の報酬(時間軸と累計報酬)
オンラインで試す
A/Aテスト
テストしたいアルゴリズムに対して、複数の同じ腕
を用意する。
-> もしこの腕の選択に大きく差異がある場合、ア
ルゴリズムに欠陥がある可能性がある
まとめ
●
●
●

バンディットは不確実性のある中でより良い選択肢を素早く発見する方法であ
る。その仮定で無駄な実験を減らせる
今日紹介した方法はprimitiveであり、研究はもっと進んでいる。キャッチアップし
たい
今後多くのサービスが直面するであろう問題。既存ユーザーの不満を最小限に
しつつ新しい手法を試していく、より素早く答えに近づくためのテストフレーム
ワークとしてバンディットはすごく重要になってきそうだと感じた
備考: 改良点
適当な初期値を与えることでより早く学習することが出来る
●
●

事前情報を利用(いまある腕に関してある程度知識がある場合、その知識に基
づき初期値を与える)
例えば、平均値と実測値を適当に重み付けした値を加えるなど
備考: 関連論文
●

●

●

Trustworthy Online Controlled Experiments: Five Puzzling Outcomes
Explained
○ オンラインでの実験でよく起こるミスなどに関する論文
○ バンディットの適用での注意もここにのってるらしい
A Contextual-Bandit Approach to Personalized News Article
Recommendation
○ バンディットを使ったニュース推薦。よんでみたい
Prametric Bandits: The Generalized Linear Case
○ 一般線形モデルをつかったバンディット
○ モデルの更新にオンライン学習が使えるものはバンディットと相性がいい

More Related Content

Viewers also liked

リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みRecruit Technologies
 
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...Insight Technology, Inc.
 
Hadoopカンファレンス20140707
Hadoopカンファレンス20140707Hadoopカンファレンス20140707
Hadoopカンファレンス20140707Recruit Technologies
 
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例Amazon Web Services Japan
 
アドネットワークのデータ解析チームを支える技術
アドネットワークのデータ解析チームを支える技術アドネットワークのデータ解析チームを支える技術
アドネットワークのデータ解析チームを支える技術hagino 3000
 
広告におけるビッグデータの分析事例
広告におけるビッグデータの分析事例広告におけるビッグデータの分析事例
広告におけるビッグデータの分析事例Ken Takao
 
Amebaにおけるレコメンデーションシステムの紹介
Amebaにおけるレコメンデーションシステムの紹介Amebaにおけるレコメンデーションシステムの紹介
Amebaにおけるレコメンデーションシステムの紹介cyberagent
 
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...Recruit Technologies
 
リクルート式ビッグデータ活用術
リクルート式ビッグデータ活用術リクルート式ビッグデータ活用術
リクルート式ビッグデータ活用術Recruit Technologies
 
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けRecruit Technologies
 
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践智之 村上
 
Cookpad TechConf 2016 - DWHに必要なこと
Cookpad TechConf 2016 - DWHに必要なことCookpad TechConf 2016 - DWHに必要なこと
Cookpad TechConf 2016 - DWHに必要なことMinero Aoki
 
5分でわかるブロックチェーンの基本的な仕組み
5分でわかるブロックチェーンの基本的な仕組み5分でわかるブロックチェーンの基本的な仕組み
5分でわかるブロックチェーンの基本的な仕組みRyo Shimamura
 
0528 kanntigai ui_ux
0528 kanntigai ui_ux0528 kanntigai ui_ux
0528 kanntigai ui_uxSaori Matsui
 
アルゴリズム取引のシステムを開発・運用してみて分かったこと
アルゴリズム取引のシステムを開発・運用してみて分かったことアルゴリズム取引のシステムを開発・運用してみて分かったこと
アルゴリズム取引のシステムを開発・運用してみて分かったことSatoshi KOBAYASHI
 
How Do Newcomers Blend into a Group?: Study on a Social Network Game
How Do Newcomers Blend into a Group?: Study on a Social Network GameHow Do Newcomers Blend into a Group?: Study on a Social Network Game
How Do Newcomers Blend into a Group?: Study on a Social Network GameMasanori Takano
 
ソーシャル系Webサービスのデータを用いた社会科学 資料
ソーシャル系Webサービスのデータを用いた社会科学 資料ソーシャル系Webサービスのデータを用いた社会科学 資料
ソーシャル系Webサービスのデータを用いた社会科学 資料Masanori Takano
 
社会関係の強さに基づく社会的グルーミング戦略の適応性
社会関係の強さに基づく社会的グルーミング戦略の適応性社会関係の強さに基づく社会的グルーミング戦略の適応性
社会関係の強さに基づく社会的グルーミング戦略の適応性Masanori Takano
 
データにまつわるWeb業界の仕事について
データにまつわるWeb業界の仕事についてデータにまつわるWeb業界の仕事について
データにまつわるWeb業界の仕事についてMasanori Takano
 
サラリーマンのための計算社会科学
サラリーマンのための計算社会科学サラリーマンのための計算社会科学
サラリーマンのための計算社会科学Masanori Takano
 

Viewers also liked (20)

リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
 
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
 
Hadoopカンファレンス20140707
Hadoopカンファレンス20140707Hadoopカンファレンス20140707
Hadoopカンファレンス20140707
 
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
 
アドネットワークのデータ解析チームを支える技術
アドネットワークのデータ解析チームを支える技術アドネットワークのデータ解析チームを支える技術
アドネットワークのデータ解析チームを支える技術
 
広告におけるビッグデータの分析事例
広告におけるビッグデータの分析事例広告におけるビッグデータの分析事例
広告におけるビッグデータの分析事例
 
Amebaにおけるレコメンデーションシステムの紹介
Amebaにおけるレコメンデーションシステムの紹介Amebaにおけるレコメンデーションシステムの紹介
Amebaにおけるレコメンデーションシステムの紹介
 
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
 
リクルート式ビッグデータ活用術
リクルート式ビッグデータ活用術リクルート式ビッグデータ活用術
リクルート式ビッグデータ活用術
 
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
 
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践
 
Cookpad TechConf 2016 - DWHに必要なこと
Cookpad TechConf 2016 - DWHに必要なことCookpad TechConf 2016 - DWHに必要なこと
Cookpad TechConf 2016 - DWHに必要なこと
 
5分でわかるブロックチェーンの基本的な仕組み
5分でわかるブロックチェーンの基本的な仕組み5分でわかるブロックチェーンの基本的な仕組み
5分でわかるブロックチェーンの基本的な仕組み
 
0528 kanntigai ui_ux
0528 kanntigai ui_ux0528 kanntigai ui_ux
0528 kanntigai ui_ux
 
アルゴリズム取引のシステムを開発・運用してみて分かったこと
アルゴリズム取引のシステムを開発・運用してみて分かったことアルゴリズム取引のシステムを開発・運用してみて分かったこと
アルゴリズム取引のシステムを開発・運用してみて分かったこと
 
How Do Newcomers Blend into a Group?: Study on a Social Network Game
How Do Newcomers Blend into a Group?: Study on a Social Network GameHow Do Newcomers Blend into a Group?: Study on a Social Network Game
How Do Newcomers Blend into a Group?: Study on a Social Network Game
 
ソーシャル系Webサービスのデータを用いた社会科学 資料
ソーシャル系Webサービスのデータを用いた社会科学 資料ソーシャル系Webサービスのデータを用いた社会科学 資料
ソーシャル系Webサービスのデータを用いた社会科学 資料
 
社会関係の強さに基づく社会的グルーミング戦略の適応性
社会関係の強さに基づく社会的グルーミング戦略の適応性社会関係の強さに基づく社会的グルーミング戦略の適応性
社会関係の強さに基づく社会的グルーミング戦略の適応性
 
データにまつわるWeb業界の仕事について
データにまつわるWeb業界の仕事についてデータにまつわるWeb業界の仕事について
データにまつわるWeb業界の仕事について
 
サラリーマンのための計算社会科学
サラリーマンのための計算社会科学サラリーマンのための計算社会科学
サラリーマンのための計算社会科学
 

Recently uploaded

Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 

Recently uploaded (10)

Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 

バンディットアルゴリズム概論