Submit Search
Upload
バンディットアルゴリズム概論
•
30 likes
•
7,382 views
Yoshinori Fukushima
Follow
O'Reillyのバンディット本のまとめ + 自分なりの解釈です。世の中になかなかバンディットの入門がなかったので
Read less
Read more
Technology
Report
Share
Report
Share
1 of 31
Download now
Download to read offline
Recommended
バンディットアルゴリズム勉強会
バンディットアルゴリズム勉強会
Ai Makabi
証券取引所の高速化による 情報技術の導入 スパークス・アセット・マネジメント株式会社 水田孝信 先端的データベースとWeb技術動向講演会 第26回(201...
証券取引所の高速化による 情報技術の導入 スパークス・アセット・マネジメント株式会社 水田孝信 先端的データベースとWeb技術動向講演会 第26回(201...
Takanobu Mizuta
db-tech-showcase-sapporo-b24-20150911p
db-tech-showcase-sapporo-b24-20150911p
Satoru Ishikawa
MapR Hadoop M7 in CyberAgent AdTech Studio
MapR Hadoop M7 in CyberAgent AdTech Studio
Ken Takao
クラウド技術を活用したリアルタイム広告 Logicad の入札・配信・ログ解析 #awssummit
クラウド技術を活用したリアルタイム広告 Logicad の入札・配信・ログ解析 #awssummit
Takahiro Yasuda
サイバーエージェントにおけるデータの品質管理について #cwt2016
サイバーエージェントにおけるデータの品質管理について #cwt2016
cyberagent
データファースト開発
データファースト開発
Katsunori Kanda
How to work Tableau x Google Cloud Platform in CyberAgent AdTech Studio
How to work Tableau x Google Cloud Platform in CyberAgent AdTech Studio
Ken Takao
Recommended
バンディットアルゴリズム勉強会
バンディットアルゴリズム勉強会
Ai Makabi
証券取引所の高速化による 情報技術の導入 スパークス・アセット・マネジメント株式会社 水田孝信 先端的データベースとWeb技術動向講演会 第26回(201...
証券取引所の高速化による 情報技術の導入 スパークス・アセット・マネジメント株式会社 水田孝信 先端的データベースとWeb技術動向講演会 第26回(201...
Takanobu Mizuta
db-tech-showcase-sapporo-b24-20150911p
db-tech-showcase-sapporo-b24-20150911p
Satoru Ishikawa
MapR Hadoop M7 in CyberAgent AdTech Studio
MapR Hadoop M7 in CyberAgent AdTech Studio
Ken Takao
クラウド技術を活用したリアルタイム広告 Logicad の入札・配信・ログ解析 #awssummit
クラウド技術を活用したリアルタイム広告 Logicad の入札・配信・ログ解析 #awssummit
Takahiro Yasuda
サイバーエージェントにおけるデータの品質管理について #cwt2016
サイバーエージェントにおけるデータの品質管理について #cwt2016
cyberagent
データファースト開発
データファースト開発
Katsunori Kanda
How to work Tableau x Google Cloud Platform in CyberAgent AdTech Studio
How to work Tableau x Google Cloud Platform in CyberAgent AdTech Studio
Ken Takao
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
Recruit Technologies
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
Insight Technology, Inc.
Hadoopカンファレンス20140707
Hadoopカンファレンス20140707
Recruit Technologies
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
Amazon Web Services Japan
アドネットワークのデータ解析チームを支える技術
アドネットワークのデータ解析チームを支える技術
hagino 3000
広告におけるビッグデータの分析事例
広告におけるビッグデータの分析事例
Ken Takao
Amebaにおけるレコメンデーションシステムの紹介
Amebaにおけるレコメンデーションシステムの紹介
cyberagent
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
Recruit Technologies
リクルート式ビッグデータ活用術
リクルート式ビッグデータ活用術
Recruit Technologies
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
Recruit Technologies
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践
智之 村上
Cookpad TechConf 2016 - DWHに必要なこと
Cookpad TechConf 2016 - DWHに必要なこと
Minero Aoki
5分でわかるブロックチェーンの基本的な仕組み
5分でわかるブロックチェーンの基本的な仕組み
Ryo Shimamura
0528 kanntigai ui_ux
0528 kanntigai ui_ux
Saori Matsui
アルゴリズム取引のシステムを開発・運用してみて分かったこと
アルゴリズム取引のシステムを開発・運用してみて分かったこと
Satoshi KOBAYASHI
How Do Newcomers Blend into a Group?: Study on a Social Network Game
How Do Newcomers Blend into a Group?: Study on a Social Network Game
Masanori Takano
ソーシャル系Webサービスのデータを用いた社会科学 資料
ソーシャル系Webサービスのデータを用いた社会科学 資料
Masanori Takano
社会関係の強さに基づく社会的グルーミング戦略の適応性
社会関係の強さに基づく社会的グルーミング戦略の適応性
Masanori Takano
データにまつわるWeb業界の仕事について
データにまつわるWeb業界の仕事について
Masanori Takano
サラリーマンのための計算社会科学
サラリーマンのための計算社会科学
Masanori Takano
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
WSO2
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
CRI Japan, Inc.
More Related Content
Viewers also liked
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
Recruit Technologies
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
Insight Technology, Inc.
Hadoopカンファレンス20140707
Hadoopカンファレンス20140707
Recruit Technologies
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
Amazon Web Services Japan
アドネットワークのデータ解析チームを支える技術
アドネットワークのデータ解析チームを支える技術
hagino 3000
広告におけるビッグデータの分析事例
広告におけるビッグデータの分析事例
Ken Takao
Amebaにおけるレコメンデーションシステムの紹介
Amebaにおけるレコメンデーションシステムの紹介
cyberagent
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
Recruit Technologies
リクルート式ビッグデータ活用術
リクルート式ビッグデータ活用術
Recruit Technologies
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
Recruit Technologies
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践
智之 村上
Cookpad TechConf 2016 - DWHに必要なこと
Cookpad TechConf 2016 - DWHに必要なこと
Minero Aoki
5分でわかるブロックチェーンの基本的な仕組み
5分でわかるブロックチェーンの基本的な仕組み
Ryo Shimamura
0528 kanntigai ui_ux
0528 kanntigai ui_ux
Saori Matsui
アルゴリズム取引のシステムを開発・運用してみて分かったこと
アルゴリズム取引のシステムを開発・運用してみて分かったこと
Satoshi KOBAYASHI
How Do Newcomers Blend into a Group?: Study on a Social Network Game
How Do Newcomers Blend into a Group?: Study on a Social Network Game
Masanori Takano
ソーシャル系Webサービスのデータを用いた社会科学 資料
ソーシャル系Webサービスのデータを用いた社会科学 資料
Masanori Takano
社会関係の強さに基づく社会的グルーミング戦略の適応性
社会関係の強さに基づく社会的グルーミング戦略の適応性
Masanori Takano
データにまつわるWeb業界の仕事について
データにまつわるWeb業界の仕事について
Masanori Takano
サラリーマンのための計算社会科学
サラリーマンのための計算社会科学
Masanori Takano
Viewers also liked
(20)
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
Hadoopカンファレンス20140707
Hadoopカンファレンス20140707
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
アドネットワークのデータ解析チームを支える技術
アドネットワークのデータ解析チームを支える技術
広告におけるビッグデータの分析事例
広告におけるビッグデータの分析事例
Amebaにおけるレコメンデーションシステムの紹介
Amebaにおけるレコメンデーションシステムの紹介
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
リクルート式ビッグデータ活用術
リクルート式ビッグデータ活用術
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践
Cookpad TechConf 2016 - DWHに必要なこと
Cookpad TechConf 2016 - DWHに必要なこと
5分でわかるブロックチェーンの基本的な仕組み
5分でわかるブロックチェーンの基本的な仕組み
0528 kanntigai ui_ux
0528 kanntigai ui_ux
アルゴリズム取引のシステムを開発・運用してみて分かったこと
アルゴリズム取引のシステムを開発・運用してみて分かったこと
How Do Newcomers Blend into a Group?: Study on a Social Network Game
How Do Newcomers Blend into a Group?: Study on a Social Network Game
ソーシャル系Webサービスのデータを用いた社会科学 資料
ソーシャル系Webサービスのデータを用いた社会科学 資料
社会関係の強さに基づく社会的グルーミング戦略の適応性
社会関係の強さに基づく社会的グルーミング戦略の適応性
データにまつわるWeb業界の仕事について
データにまつわるWeb業界の仕事について
サラリーマンのための計算社会科学
サラリーマンのための計算社会科学
Recently uploaded
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
WSO2
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
CRI Japan, Inc.
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
Toru Tamaki
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
Toru Tamaki
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
CRI Japan, Inc.
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
sn679259
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
atsushi061452
Recently uploaded
(10)
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
バンディットアルゴリズム概論
1.
バンディットアルゴリズム概論 @ Gunosy研究会 Gunosy Inc.
福島良典
2.
今日の内容 ←これ 1. バンディットの思想 2. 具体的なアルゴリズム 3.
デバッグ方法
3.
1. バンディットアルゴリズムの思想 バンディットアルゴリズムとは ● よりよい選択肢を素早く(=より少ない試行で)見つける ●
無駄な実験を少なくする ● 実験をコストととらえ、「活用」と「探求」のトレードオフに応え る
4.
「活用」と「探求」とは 一方は確率50%であたりをかえすくじ、一方は確 率30%であたりをかえすくじがあるとする。どっちを 引く?? くじ1 くじ2
5.
ぬるげー
6.
「活用」と「探求」とは あたりの確率がわからないくじが2箱ある。2000回このくじを引 いていいとする。あたりを報酬1、はずれを報酬0としたとき報酬 を最大化するにはどうしますか? くじ1 くじ2
7.
「活用」と「探求」とは パターン1: ワイルド野郎 -> くじ1の方があたりが出る確率が高い方にかけるぜ!全部1 を引くぜ <問題点> 再現性がない。選択肢が増えるにつれてどんどん勝てなくなる
8.
「活用」と「探求」とは パターン2: 優柔不断野郎 -> きめられないから1/2ずつひきます>< <問題点> 勝てない
9.
「活用」と「探求」とは 一見糞野郎に見える2人にもヒントがある。 ワイルド野郎の用に張らないと勝てない。つまり勝つにはより良いくじをたくさんひか ないといけない。 優柔不断野郎のように調べないと情報が集まらない。勝つためにはくじのあたりの確 率をより正確に知らないといけない。
10.
「活用」と「探求」とは 一見糞野郎に見える2人にもヒントがある。 ワイルド野郎の用に張らないと勝てない。つまり勝つにはより良いくじをたくさんひか ないといけない。(活用) 優柔不断野郎のように調べないと情報が集まらない。勝つためにはくじのあたりの確 率をより正確に知らないといけない。(探求)
11.
「活用」と「探求」とは 活用とは「良い選択肢」を多く利用すること 探求とは「良い選択肢」がどれか調べること 活用と探求につかえるリソース(この場合くじ引き 回数)は同じ。なのでこの2つはトレードオフにあ る。
12.
2. 具体的なアルゴリズム ● Epsilion-Greedy
アルゴリズム ● Softmax アルゴリズム ● UCB アルゴリズム
13.
先ほどの問題を例に考えてみる あたりの確率がわからないくじが2箱ある。2000回このくじを引 いていいとする。あたりを報酬1、はずれを報酬0としたとき報酬 を最大化するにはどうしますか? くじ1 くじ2
14.
Epsilion-Greedy アルゴリズム ちょっと賢い人の発想。 -> くじはそれぞれ100回引けばそれなりに確率はわかるだろう。なので200回くじの 確率を調べるのに利用し、残りの1800回をいいくじを引くのに利用しよう(いわゆる ABテストの発想に近い) <問題点> それでも確率の揺らぎはおこる。
15.
Epsilion-Greedy アルゴリズム 局所解におちいらないように適度に探求を混ぜる。(ε=0.2とした ら0.2は探求、0.8は活用に利用するみたいなイメージ) くじ1 探求 くじ2 活用
16.
Epsilion-Greedy アルゴリズム 活用に仕方 ->
現時点でわかってる最善の選択 探求の仕方 -> 単純にランダム <問題点> - どこまで試行を繰り返しても、探求に一定のリソースを使ってしまう(=>無駄な実験) - (上と似ているが)探索の際完全にランダムなので、あきらかに悪い選択しでも一定 の確率で選択してしまう(=>無駄な実験) - 探索にせよ、活用にせよ試行回数を気にしていない。100回試して50あたりのもの も2回ためして1回あたりのものも同じに扱われる
17.
Softmaxアルゴリズム Epsilion-Greedyアルゴリズムの探求の無駄を改 善する -> 探求の際、より良い選択肢をより高い確率で試 し、良くない選択肢は低い確率で試す
18.
primitiveに考えると 確率の加重平均 -> rA /
(rA + rB) ただしこの場合報酬が負とかだとうまくうごかない
19.
Softmaxアルゴリズム 推定値をべき乗して exp(rA) / (exp(rA)
+ exp(rB)) とすると報酬負でもOK
20.
Softmaxアルゴリズム 温度パラメーターをいれる。 exp(rA / tau)
/ (exp(rA / tau) + exp(rB / tau)) tauパラメータが古典物理における温度が与える影響に似ているからそう呼ばれる(ら しい) 低温では秩序だった動きをし、高温ではランダムに動く tau=0では活用を、tau=無限大で完全にランダム(探求)
21.
Softmaxアルゴリズムのアニール 時間の経過とともに探求の数を減らす(=温度を小さくしていく)ことをアニールする、ア ニーリングと呼ぶ これによって十分に試行した選択肢で無駄なものは探求には利用しなくなる 例えば温度を tau = 1
/log(t + 0.0001) (t:時間) のようにするとtの増加とともに緩やかに温度が下がっていく
22.
UCBアルゴリズム 前述2点のアルゴリズムの弱点=試行回数を考慮していない (つまり100回引いた結果の確率50%も2回だけひいた確率 50%も同じ価値) => より確信度の高い腕を活用すべき +
確信度の低い腕が探 求されるべき
23.
UCBアルゴリズムの特徴 ● サイコロを振らない(ある評価式に基づき腕を引 く。評価式に活用と探求のトレードオフを再現さ せる) ● 具体的には(期待値)
+ (試行回数に応じたボー ナス)で評価
24.
UCBアルゴリズムの評価式一例 rA + (sqrt(2
* log(total_count)) / A_count) rA: Aの期待値 total_count: 今までの全試行回数 A_count: Aを引いた回数
25.
UCBアルゴリズムのいい点悪い点 <いい点> パラメータの設定の必要がない 最終的にはいい腕に収束する <悪い点> 好奇心が強い(無駄な探索をしてしまう)
26.
3.デバッグ方法 ● オフラインで試す(シミュレーション) ● オンラインで試す(A/Aテスト)
27.
オフラインで試す 例えば適当に腕(選択肢)をきめる。[0.9 0.1 0.1
0.1]といった腕を仮定する。この際、 腕は確率xで報酬を与える腕とする。 実際のアルゴリズムにたいしてこの腕を試す。 評価方法は例えば ● ● ● 正しい選択肢までの学習の早さ(時間軸と正しい腕を選ぶ確率) 平均報酬をみる(時間軸と平均報酬) 累計の報酬(時間軸と累計報酬)
28.
オンラインで試す A/Aテスト テストしたいアルゴリズムに対して、複数の同じ腕 を用意する。 -> もしこの腕の選択に大きく差異がある場合、ア ルゴリズムに欠陥がある可能性がある
29.
まとめ ● ● ● バンディットは不確実性のある中でより良い選択肢を素早く発見する方法であ る。その仮定で無駄な実験を減らせる 今日紹介した方法はprimitiveであり、研究はもっと進んでいる。キャッチアップし たい 今後多くのサービスが直面するであろう問題。既存ユーザーの不満を最小限に しつつ新しい手法を試していく、より素早く答えに近づくためのテストフレーム ワークとしてバンディットはすごく重要になってきそうだと感じた
30.
備考: 改良点 適当な初期値を与えることでより早く学習することが出来る ● ● 事前情報を利用(いまある腕に関してある程度知識がある場合、その知識に基 づき初期値を与える) 例えば、平均値と実測値を適当に重み付けした値を加えるなど
31.
備考: 関連論文 ● ● ● Trustworthy Online
Controlled Experiments: Five Puzzling Outcomes Explained ○ オンラインでの実験でよく起こるミスなどに関する論文 ○ バンディットの適用での注意もここにのってるらしい A Contextual-Bandit Approach to Personalized News Article Recommendation ○ バンディットを使ったニュース推薦。よんでみたい Prametric Bandits: The Generalized Linear Case ○ 一般線形モデルをつかったバンディット ○ モデルの更新にオンライン学習が使えるものはバンディットと相性がいい
Download now