SlideShare a Scribd company logo
世の中に転がってる
強化学習の良記事を
まとめたやつ
伊藤
今日の目標~これを理解したい~
最近深層強化学習も体系だって勉強できるようになったし、概要だけでも勉強しよう。
https://qiita.com/shionhonda/items/ec05aade07b5bea78081
参考
• 良Qiita
https://qiita.com/shionhonda/items/ec05aade07b5bea78081
• PFNの前田さんの良スライド
https://www.slideshare.net/pfi/nlp2018-introduction-of-deep-
reinforcement-learning
• DeepMindの良チュートリアルICML
http://hunch.net/~beygel/deep_rl_tutorial.pdf
• DQNを理解したので、Gopherくんの図を使って説明
https://qiita.com/ishizakiiii/items/5eff79b59bce74fdca0d
• まとめてあるBlog
http://blog.syundo.org/post/20180115-reinforcement-learning/
0. Policy(方策):状況→動作
• Policyとは状況から動作への写像である。
• ある状況に対してAgentが動作をする。
• 確定的な場合は と書ける。
• 確率的な場合は と書ける。
http://hunch.net/~beygel/deep_rl_tutorial.pdf
0. Q関数:状態×動作→rewardの合計
• Q関数とは、
• ある方策πのもとで、
• 状態sと行動aを与えたときに、
• どれだけのrewardを得ることができるのかを与えてくれる関数
ただしγは割引率。
http://hunch.net/~beygel/deep_rl_tutorial.pdf
Atariでの例
http://hunch.net/~beygel/deep_rl_tutorial.pdf
Q(s,a)のイメージ
https://qiita.com/ishizakiiii/items/5eff79b59bce74fdca0d
3つの強化学習
• 価値ベースRL
• 最適な価値関数Q*を学習する
• 適当な方策πを決める
• 方策ベースRL
• 最適な方策π*を直接決める
• モデルベースRL
• 環境に関するモデルをすでに構築できる場合
• 環境に応じてQやπを作る。
1.価値ベース
最適なQ価値関数~こいつだけを信じろ~
・価値ベースの強化学習は、最強のQ*を求めることに尽きる。
・最強のQ*とはゲームの最強のマップみたいなもの(右下)
・最強のQ*を最大化するようなactionを取ることにより
最適なpolicy π*が生成される。(左下)
価値ベースRLの一般的な流れ
https://www.slideshare.net/pfi/nlp2018-introduction-
of-deep-reinforcement-learning
Q-learning
• 最適なQ*は以下のようなベルマン方程式に従う
• よって、右辺の[]内 を目的変数として、
• Q(s,a)を勾配法で近似する。つまり、以下を最小化する。
http://hunch.net/~beygel/deep_rl_tutorial.pdf
Q-learningの問題点とDQNの克服
http://blog.syundo.org/post/20171208-reinforcement-
learning-dqn-and-impl/
DQNを図で。
Experience Replay
クリッピング([-1,1]に)
Q(s,a)
DQNの派生
• Dueling Net Qをsの関数とs,aの関数に分離
• Double DQN w’で得られた行動をwでさらに評価(過大評価を抑止)
• Prioritized replay 驚き度合で前の経験を重点サンプル
Gorilla (General Reinforcement Learning Architecture)
Rainbow(全部乗せ)
2.方策ベース
方策ベース(現在の方策を改善する)
を変更することによってリワードを最大化する。
https://www.slideshare.net/pfi/nlp2018-introduction-of-deep-reinforcement-learning
方策勾配法(の説明2)
勾配の分散をへらすためbでひく
https://qiita.com/shionhonda/items/ec05aade07b5bea
78081
REINFORCE
• Tステップ・Mエピソード行い、その平均で近似する
Actor-Critic
• REINFORCE
• Qは平均で近似するのみ・学習はしない
• Actor-Critic
• Actor:行動をして、環境に働きかける→π
• Critic:Actorの評価をする→Q
• 行動を決めるActor(行動器)を直接改善しながら,
• 方策を評価するCritic(評価器)も同時に学習させる
A3C
https://qiita.com/yuishihara/items/2edad97148f09c282a9a
https://www.slideshare.net/pfi/nlp2018-introduction-of-deep-
reinforcement-learning
よさそうなQiita
DDPG Deep Deterinistic Policy Gradient
https://qiita.com/shionhonda/items/ec05aade07b5bea
78081
DDPG(DQNの連続version)
DDPG
DDPGについては、PFNインターンでいっしょだった石川さんの記事が勉強になるよ~
https://sykwer.hatenablog.jp/entry/2018/03/08/105711
TRPO
• 方策ベース
• 1度方策関数が劣化するとその後で報酬が得られなくなる
• その後の改善が困難になる
• TRPO (trust region policy optimization)
• 更新前後の重みのKLダイバージェンスに制約を設けますtrust region
• NNの重みを慎重に更新していく
PPO Proximal Policy Optimization
• TRPOと方針は同じ
• r(θ,s,a)をクリップすることによって、1-ε,1+εの間に。
• クリップする前の目的関数と比較して最小値を取る
• 大きな報酬につられて大胆な重み更新をしないようにしています.
NAC
• これまでユークリッド距離で定めていた方策勾配として,
• KLダイバージェンス(擬距離)で定めた自然勾配を用いた
• 自然勾配については以下のAmari先生の記事が勉強になる
https://www.jstage.jst.go.jp/article/sicejl1962/40/10/40_10_735/_pdf
https://www.slideshare.net/pfi/nlp2018-introduction-of-deep-reinforcement-learning
価値ベースと方策ベース
価値ベース
方策ベース
最適化の対象 価値関数 方策関数
最適化アルゴリズム Q学習かSARSA 確率的勾配降下法など
利点 任意の方策で探索できる 行動空間が広くても学習できる
欠点
行動空間が広いと学習が難しい.
メモリが必要
モデルが劣化した後の復帰が難
しい
https://qiita.com/shionhonda/items/ec05aade07b5bea78081
3.最近のやつとか
Ape-X
• 優先度付き経験再生を分散処理で高速化した
• DQN版の他に決定方策勾配法(DPG)版もある
• Atariのスコアが人の約4倍
R2D2(Recurrent Experience Replay in
Distributed Reinforcement Learning )
• ICLR under review (スコア:7-6-7)
• LSTMと経験再生と分散学習を組み合わせたアルゴリズム
• 順番を変える経験再生とLSTMは相性が悪いとされる
UNREAL
• 動物が肯定的な、あるいは否定的な報酬に関わる出来事の夢を
頻繁に見るように、
• われわれが作り出したエージェントも報酬に関わる出来事を含
むシーケンスを優先的に再現するようになっている

More Related Content

What's hot

[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
Fumihiko Takahashi
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
hoxo_m
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII
 
CuPy解説
CuPy解説CuPy解説
CuPy解説
Ryosuke Okuta
 
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
 
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
Deep Learning JP
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
nishio
 
強化学習その2
強化学習その2強化学習その2
強化学習その2
nishio
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
harmonylab
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
 
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
Deep Learning JP
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
Shota Imai
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
 
「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット
Ken'ichi Matsui
 
A3C解説
A3C解説A3C解説
A3C解説
harmonylab
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
 

What's hot (20)

[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
CuPy解説
CuPy解説CuPy解説
CuPy解説
 
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
 
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
 
強化学習その2
強化学習その2強化学習その2
強化学習その2
 
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
 
「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット「深層学習」第6章 畳込みニューラルネット
「深層学習」第6章 畳込みニューラルネット
 
A3C解説
A3C解説A3C解説
A3C解説
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 

More from Katsuya Ito

ICML2021の連合学習の論文
ICML2021の連合学習の論文ICML2021の連合学習の論文
ICML2021の連合学習の論文
Katsuya Ito
 
金融時系列解析入門 AAMAS2021 著者発表会
金融時系列解析入門 AAMAS2021 著者発表会金融時系列解析入門 AAMAS2021 著者発表会
金融時系列解析入門 AAMAS2021 著者発表会
Katsuya Ito
 
西山計量経済学第8章 制限従属変数モデル
西山計量経済学第8章 制限従属変数モデル西山計量経済学第8章 制限従属変数モデル
西山計量経済学第8章 制限従属変数モデル
Katsuya Ito
 
CF-FinML 金融時系列予測のための機械学習
CF-FinML 金融時系列予測のための機械学習CF-FinML 金融時系列予測のための機械学習
CF-FinML 金融時系列予測のための機械学習
Katsuya Ito
 
非同期時系列のLead-lag効果推定のための新しい推定量
非同期時系列のLead-lag効果推定のための新しい推定量非同期時系列のLead-lag効果推定のための新しい推定量
非同期時系列のLead-lag効果推定のための新しい推定量
Katsuya Ito
 
表明保証と補償責任
表明保証と補償責任表明保証と補償責任
表明保証と補償責任
Katsuya Ito
 
Gali3章Monetary Policy, Inflation, and the Business Cycle~the basic new keynes...
Gali3章Monetary Policy, Inflation, and the Business Cycle~the basic new keynes...Gali3章Monetary Policy, Inflation, and the Business Cycle~the basic new keynes...
Gali3章Monetary Policy, Inflation, and the Business Cycle~the basic new keynes...
Katsuya Ito
 
新問題研究 要件事実
新問題研究 要件事実新問題研究 要件事実
新問題研究 要件事実
Katsuya Ito
 
Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定
Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定
Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定
Katsuya Ito
 
Convex Analysis and Duality (based on "Functional Analysis and Optimization" ...
Convex Analysis and Duality (based on "Functional Analysis and Optimization" ...Convex Analysis and Duality (based on "Functional Analysis and Optimization" ...
Convex Analysis and Duality (based on "Functional Analysis and Optimization" ...
Katsuya Ito
 
量子プログラミング入門
量子プログラミング入門量子プログラミング入門
量子プログラミング入門
Katsuya Ito
 
異常検知と変化検知で復習するPRML
異常検知と変化検知で復習するPRML異常検知と変化検知で復習するPRML
異常検知と変化検知で復習するPRML
Katsuya Ito
 
ICLR 2018 Best papers 3本を紹介
ICLR 2018 Best papers 3本を紹介ICLR 2018 Best papers 3本を紹介
ICLR 2018 Best papers 3本を紹介
Katsuya Ito
 
計算数学I TA小話①(TeXについて)
計算数学I TA小話①(TeXについて)計算数学I TA小話①(TeXについて)
計算数学I TA小話①(TeXについて)
Katsuya Ito
 
Black-Scholesの面白さ
Black-Scholesの面白さ Black-Scholesの面白さ
Black-Scholesの面白さ
Katsuya Ito
 
深層ニューラルネットワークの積分表現(Deepを定式化する数学)
深層ニューラルネットワークの積分表現(Deepを定式化する数学)深層ニューラルネットワークの積分表現(Deepを定式化する数学)
深層ニューラルネットワークの積分表現(Deepを定式化する数学)
Katsuya Ito
 
Goodfellow先生おすすめのGAN論文6つを紹介
Goodfellow先生おすすめのGAN論文6つを紹介Goodfellow先生おすすめのGAN論文6つを紹介
Goodfellow先生おすすめのGAN論文6つを紹介
Katsuya Ito
 
とぽろじー入門(画像なし版)
とぽろじー入門(画像なし版)とぽろじー入門(画像なし版)
とぽろじー入門(画像なし版)
Katsuya Ito
 

More from Katsuya Ito (18)

ICML2021の連合学習の論文
ICML2021の連合学習の論文ICML2021の連合学習の論文
ICML2021の連合学習の論文
 
金融時系列解析入門 AAMAS2021 著者発表会
金融時系列解析入門 AAMAS2021 著者発表会金融時系列解析入門 AAMAS2021 著者発表会
金融時系列解析入門 AAMAS2021 著者発表会
 
西山計量経済学第8章 制限従属変数モデル
西山計量経済学第8章 制限従属変数モデル西山計量経済学第8章 制限従属変数モデル
西山計量経済学第8章 制限従属変数モデル
 
CF-FinML 金融時系列予測のための機械学習
CF-FinML 金融時系列予測のための機械学習CF-FinML 金融時系列予測のための機械学習
CF-FinML 金融時系列予測のための機械学習
 
非同期時系列のLead-lag効果推定のための新しい推定量
非同期時系列のLead-lag効果推定のための新しい推定量非同期時系列のLead-lag効果推定のための新しい推定量
非同期時系列のLead-lag効果推定のための新しい推定量
 
表明保証と補償責任
表明保証と補償責任表明保証と補償責任
表明保証と補償責任
 
Gali3章Monetary Policy, Inflation, and the Business Cycle~the basic new keynes...
Gali3章Monetary Policy, Inflation, and the Business Cycle~the basic new keynes...Gali3章Monetary Policy, Inflation, and the Business Cycle~the basic new keynes...
Gali3章Monetary Policy, Inflation, and the Business Cycle~the basic new keynes...
 
新問題研究 要件事実
新問題研究 要件事実新問題研究 要件事実
新問題研究 要件事実
 
Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定
Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定
Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定
 
Convex Analysis and Duality (based on "Functional Analysis and Optimization" ...
Convex Analysis and Duality (based on "Functional Analysis and Optimization" ...Convex Analysis and Duality (based on "Functional Analysis and Optimization" ...
Convex Analysis and Duality (based on "Functional Analysis and Optimization" ...
 
量子プログラミング入門
量子プログラミング入門量子プログラミング入門
量子プログラミング入門
 
異常検知と変化検知で復習するPRML
異常検知と変化検知で復習するPRML異常検知と変化検知で復習するPRML
異常検知と変化検知で復習するPRML
 
ICLR 2018 Best papers 3本を紹介
ICLR 2018 Best papers 3本を紹介ICLR 2018 Best papers 3本を紹介
ICLR 2018 Best papers 3本を紹介
 
計算数学I TA小話①(TeXについて)
計算数学I TA小話①(TeXについて)計算数学I TA小話①(TeXについて)
計算数学I TA小話①(TeXについて)
 
Black-Scholesの面白さ
Black-Scholesの面白さ Black-Scholesの面白さ
Black-Scholesの面白さ
 
深層ニューラルネットワークの積分表現(Deepを定式化する数学)
深層ニューラルネットワークの積分表現(Deepを定式化する数学)深層ニューラルネットワークの積分表現(Deepを定式化する数学)
深層ニューラルネットワークの積分表現(Deepを定式化する数学)
 
Goodfellow先生おすすめのGAN論文6つを紹介
Goodfellow先生おすすめのGAN論文6つを紹介Goodfellow先生おすすめのGAN論文6つを紹介
Goodfellow先生おすすめのGAN論文6つを紹介
 
とぽろじー入門(画像なし版)
とぽろじー入門(画像なし版)とぽろじー入門(画像なし版)
とぽろじー入門(画像なし版)
 

最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた