Submit Search
Upload
[Dl輪読会]introduction of reinforcement learning
•
23 likes
•
5,986 views
Deep Learning JP
Follow
2016/11/18 Deep Learning JP: http://deeplearning.jp/seminar-2/
Read less
Read more
Technology
Report
Share
Report
Share
1 of 46
Download now
Download to read offline
Recommended
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
harmonylab
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
Recommended
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
強化学習 DQNからPPOまで
強化学習 DQNからPPOまで
harmonylab
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)
Shohei Taniguchi
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
Kenshi Abe
報酬設計と逆強化学習
報酬設計と逆強化学習
Yusuke Nakata
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
Deep Learning JP
強化学習その3
強化学習その3
nishio
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習
Shota Ishikawa
スパースモデリングによる多次元信号・画像復元
スパースモデリングによる多次元信号・画像復元
Shogo Muramatsu
「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
佑 甲野
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018
佑 甲野
TensorFlowで逆強化学習
TensorFlowで逆強化学習
Mitsuhisa Ohta
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
hoxo_m
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
Introduction to A3C model
Introduction to A3C model
WEBFARMER. ltd.
A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話
mooopan
More Related Content
What's hot
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)
Shohei Taniguchi
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
Kenshi Abe
報酬設計と逆強化学習
報酬設計と逆強化学習
Yusuke Nakata
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
Deep Learning JP
強化学習その3
強化学習その3
nishio
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習
Shota Ishikawa
スパースモデリングによる多次元信号・画像復元
スパースモデリングによる多次元信号・画像復元
Shogo Muramatsu
「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
佑 甲野
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018
佑 甲野
TensorFlowで逆強化学習
TensorFlowで逆強化学習
Mitsuhisa Ohta
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
hoxo_m
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
What's hot
(20)
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
報酬設計と逆強化学習
報酬設計と逆強化学習
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
強化学習その3
強化学習その3
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習
スパースモデリングによる多次元信号・画像復元
スパースモデリングによる多次元信号・画像復元
「世界モデル」と関連研究について
「世界モデル」と関連研究について
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018
TensorFlowで逆強化学習
TensorFlowで逆強化学習
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Viewers also liked
Introduction to A3C model
Introduction to A3C model
WEBFARMER. ltd.
A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話
mooopan
強化学習その4
強化学習その4
nishio
【強化学習】Montezuma's Revenge @ NIPS2016
【強化学習】Montezuma's Revenge @ NIPS2016
Sotetsu KOYAMADA(小山田創哲)
Trust Region Policy Optimization
Trust Region Policy Optimization
mooopan
[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
Deep Learning JP
大富豪に対する機械学習の適用 + α
大富豪に対する機械学習の適用 + α
Katsuki Ohto
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
Sotetsu KOYAMADA(小山田創哲)
AlphaGo Zero 解説
AlphaGo Zero 解説
suckgeun lee
A3C解説
A3C解説
harmonylab
Python 特徴抽出プラグイン
Python 特徴抽出プラグイン
JubatusOfficial
かまってちゃん小町
かまってちゃん小町
JubatusOfficial
小町のレス数が予測できるか試してみた
小町のレス数が予測できるか試してみた
JubatusOfficial
発言小町からのプロファイリング
発言小町からのプロファイリング
JubatusOfficial
Jubatus 1.0 の紹介
Jubatus 1.0 の紹介
JubatusOfficial
Jubakitの解説
Jubakitの解説
JubatusOfficial
単語コレクター(文章自動校正器)
単語コレクター(文章自動校正器)
JubatusOfficial
新聞から今年の漢字を予測する
新聞から今年の漢字を予測する
JubatusOfficial
Jubatus解説本の紹介
Jubatus解説本の紹介
JubatusOfficial
新機能紹介 1.0.6
新機能紹介 1.0.6
JubatusOfficial
Viewers also liked
(20)
Introduction to A3C model
Introduction to A3C model
A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話
強化学習その4
強化学習その4
【強化学習】Montezuma's Revenge @ NIPS2016
【強化学習】Montezuma's Revenge @ NIPS2016
Trust Region Policy Optimization
Trust Region Policy Optimization
[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
大富豪に対する機械学習の適用 + α
大富豪に対する機械学習の適用 + α
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
AlphaGo Zero 解説
AlphaGo Zero 解説
A3C解説
A3C解説
Python 特徴抽出プラグイン
Python 特徴抽出プラグイン
かまってちゃん小町
かまってちゃん小町
小町のレス数が予測できるか試してみた
小町のレス数が予測できるか試してみた
発言小町からのプロファイリング
発言小町からのプロファイリング
Jubatus 1.0 の紹介
Jubatus 1.0 の紹介
Jubakitの解説
Jubakitの解説
単語コレクター(文章自動校正器)
単語コレクター(文章自動校正器)
新聞から今年の漢字を予測する
新聞から今年の漢字を予測する
Jubatus解説本の紹介
Jubatus解説本の紹介
新機能紹介 1.0.6
新機能紹介 1.0.6
Similar to [Dl輪読会]introduction of reinforcement learning
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
Eiji Uchibe
人工知能2018 6 強化学習の基礎
人工知能2018 6 強化学習の基礎
Hirotaka Hachiya
人工知能2018 強化学習の応用
人工知能2018 強化学習の応用
Hirotaka Hachiya
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
Yasunori Ozaki
強化学習メモスライド
強化学習メモスライド
twiponta_suzuki
これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法
kenyanonaka
PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5
sleepy_yoshi
1017 論文紹介第四回
1017 論文紹介第四回
Kohei Wakamatsu
第4回数理モデル勉強会(日本植物学会第84回大会関連集会)
第4回数理モデル勉強会(日本植物学会第84回大会関連集会)
TakaakiYonekura
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
Shuyo Nakatani
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
SusumuOTA
Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
Morpho, Inc.
University CodeSprint 4 - Magic value
University CodeSprint 4 - Magic value
satanic
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装する
sleepy_yoshi
Blow up in a degenerate keller--segel system
Blow up in a degenerate keller--segel system
Takahiro Hashira
PRML第6章「カーネル法」
PRML第6章「カーネル法」
Keisuke Sugawara
Deeplearning4.4 takmin
Deeplearning4.4 takmin
Takuya Minagawa
Learning Continuous Control Policies by Stochastic Value Gradients
Learning Continuous Control Policies by Stochastic Value Gradients
mooopan
DeepLoco
DeepLoco
harmonylab
Similar to [Dl輪読会]introduction of reinforcement learning
(20)
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
人工知能2018 6 強化学習の基礎
人工知能2018 6 強化学習の基礎
人工知能2018 強化学習の応用
人工知能2018 強化学習の応用
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
強化学習メモスライド
強化学習メモスライド
これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法
PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5
1017 論文紹介第四回
1017 論文紹介第四回
第4回数理モデル勉強会(日本植物学会第84回大会関連集会)
第4回数理モデル勉強会(日本植物学会第84回大会関連集会)
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
Optimizer入門&最新動向
Optimizer入門&最新動向
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
University CodeSprint 4 - Magic value
University CodeSprint 4 - Magic value
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装する
Blow up in a degenerate keller--segel system
Blow up in a degenerate keller--segel system
PRML第6章「カーネル法」
PRML第6章「カーネル法」
Deeplearning4.4 takmin
Deeplearning4.4 takmin
Learning Continuous Control Policies by Stochastic Value Gradients
Learning Continuous Control Policies by Stochastic Value Gradients
DeepLoco
DeepLoco
More from Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
More from Deep Learning JP
(20)
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Recently uploaded
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
sn679259
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
CRI Japan, Inc.
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
WSO2
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
CRI Japan, Inc.
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
Toru Tamaki
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
atsushi061452
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
Toru Tamaki
Recently uploaded
(10)
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
[Dl輪読会]introduction of reinforcement learning
1.
Introduction of Reinforcement Learning KEISUKE FUKUTA HARADA USHIKU LAB.
2.
Outline 1. What is RL 2. Classical Algorithm in RL ◦
TD-learning ◦ Policy gradient method 3. Recent DRL application
3.
What is Reinforcement Learning 試⾏錯誤を通じて未知の環境に適応する学習制御の枠組 状態⼊⼒に対する正しい⾏動出⼒を⽰す教師は存在しないかわりに 報酬というスカラーを受け取る 最適な戦略を報酬から間接的に学習
4.
Demo • https://www.youtube.com/watch?v=jXHnBouhAdU
5.
What is RL • 各Time Step 𝑡 =
0,1, … で 1. Agentは状態 𝑠( ∈ 𝑆 を観測 Environment s 状態 𝑠 Agent
6.
What is RL • 各Time Step 𝑡 =
0,1, … で 1. Agentは状態 𝑠( ∈ 𝑆 を観測 2. 状態 𝑠(に応じて⾏動 𝑎( ∈ 𝐴 を選択 s 𝜋(s) ⾏動 𝑎 Agentの⾏動規則 状態から⾏動への写像 𝜋 ∶ 𝑆 → 𝐴 ⽅策 𝜋 𝑠 Environment Agent
7.
What is RL • 各Time Step 𝑡 =
0,1, … で 1. Agentは状態 𝑠( ∈ 𝑆 を観測 2. 𝜋(𝑠() を利⽤して⾏動 𝑎( ∈ 𝐴 を選択 3. 環境は 𝑠( → 𝑠(34に遷移する s s’ 𝜋(s) Environment Agent
8.
What is RL • 各Time Step 𝑡 =
0,1, … で 1. Agentは状態 𝑠( ∈ 𝑆 を観測 2. 𝜋(𝑠() を利⽤して⾏動 𝑎( ∈ 𝐴 を選択 3. 環境は 𝑠( → 𝑠(34に遷移する 4. Agentは環境から 報酬𝑟( ∈ 𝑅 と 𝑠(34 を観測 s s’ 𝜋(s) 状態 𝑠′, 報酬 𝑟 Environment Agent
9.
What is RL • 各Time Step 𝑡 =
0,1, … で 1. Agentは状態 𝑠( ∈ 𝑆 を観測 2. 𝜋(𝑠() を利⽤して⾏動 𝑎( ∈ 𝐴 を選択 3. 環境は 𝑠( → 𝑠(34に遷移する 4. Agentは環境から 報酬𝑟( ∈ 𝑅 と 𝑠(34 を観測 • ⽬標 : 累積報酬 ∑ 𝑟(( を 最⼤化する⽅策 𝜋(𝑠) の獲得 (普通は、減衰係数 𝛾 を導⼊し、∑ 𝛾(:4 𝑟(( とする) Agent s s’ 𝜋(s) 𝑠 𝑎 𝑠′, 𝑟 Environment
10.
Characteristic of RL • 教師は存在せず、報酬のみで学習 • Agentは環境についての事前知識はない ◦
プランニングとの違い(両⽅組み合わせることもある, Ex. Guided Policy Search) • 報酬のフィードバックは遅れてやってくる ◦ ある瞬間の⾏動が正しかったかの判断が難しい • 時間という概念 (sequential, non i.i.d data) • Agentのある時刻での⾏動が後に影響を与える • Markov decision Process ◦ マルコフ性 : 𝑃 𝑠(34, 𝑟( 𝑠(, 𝑎(, 𝑠(:4, 𝑎(:4 … 𝑠<, 𝑎< ) =𝑃 𝑠(34, 𝑟( 𝑠(, 𝑎() ◦ マルコフ性を満たす環境下でのAgentの意思決定をMDP (Markov decision Processes)と呼ぶ
11.
Applications of RL • ゲームプレイ (ex. Atari, Backgammon, Go) ◦
ゲームに勝つ、スコアを獲得することが⽬標 • ヘリコプター制御 ◦ 墜落せずに⾶⾏することが⽬標 • ロボットの歩⾏制御 ◦ 倒れずに進むことが⽬標 • ⾦融取引 ◦ リスクを⼩さく資⾦を増やすことが⽬標 • 電⼒最適化 ◦ 閾値を超えない範囲で効率化 • 対話システム ◦ 会話が破綻させないことが⽬標
12.
Example Atari • ⽬標 : ゲームのスコアの最⼤化 • 状態 𝑠( : ゲーム画⾯ (markov性を持たせるために4timestep分の画⾯) •
⾏動 𝑎( : ボタン⼊⼒ • 報酬 𝑟( : スコア
13.
Components of RL • ⽅策 : ◦
Agentのふるまいを決める関数 • 価値関数: ◦ 各状態や⾏動がどれくらい良いのかを評価する関数
14.
Value Function • この状態はどれくらい良いのか (囲碁、将棋でいうと盤⾯の評価) •
この状態でこの⾏動を取ると将来どうなりそうか 状態 𝑠 において、そこから⽅策𝜋に従って⾏動した とき、最終的に獲得できる累積報酬を予測する関数 V> 𝑠 = 𝔼@~B,C~D,E~> [ ∑ 𝛾G 𝑟(3G| 𝑠( = 𝑠 I GJ< ] 状態価値関数 V> 𝑠 状態 𝑠 において、 ⾏動𝑎を取り、そこから⽅策𝜋に従って⾏動したと き、最終的に獲得できる累積報酬を予測する関数 Q> 𝑠, 𝑎 = 𝔼@~B,C~D,E~> [ ∑ 𝛾G 𝑟(3G| 𝑠( = 𝑠, 𝑎( = 𝑎 I GJ< ] ⾏動価値関数 𝑄> (𝑠, 𝑎) 状態 st ⾏動 at 時刻tで状態stにいるとき ⾏動atをとる価値 時刻tで状態stにいる価値 状態 st
15.
Classification of RL • Model free or Model based ◦ 環境の情報(ダイナミクス 𝑃(𝑠(34|𝑠(,
𝑎()等)を使⽤するかどうか • On-policy or Off-policy ◦ 意思決定に使⽤される⽅策を直接改善するかどうか • Value based or Policy based ◦ 価値関数を学習するか、明⽰的に⽅策を学習するか
16.
Value based or Policy based • Value-based ◦ 価値関数を学習, Implicitな⽅策を利⽤ ◦
Ex. TD-learning (Sarsa, Q-learning, TD(𝜆)) • Policy-based ◦ 価値関数を学習せず, ⽅策を直接学習する ◦ Ex. REINFORCE, Guided policy search • Actor-Critic ◦ 価値関数を学習し、それをもとに⽅策も学習 ◦ Ex. DDPG,
17.
TD Learning (Temporal-Difference Learning) • Bellman Equationを利⽤して価値関数を更新 V> 𝑠 ←
𝛼 V> 𝑠 + (1 − 𝛼) { 𝑟( +𝛾 𝑉> (𝑠U )} Q> 𝑠, 𝑎 ← 𝛼Q> 𝑠, 𝑎 + 1 − 𝛼 {𝑟( +𝛾 𝑄> (𝑠U , 𝜋 𝑠U } • エピソードの終了を待たずに即時更新できるのが強い • 脳はこんなようなことをやっているらしい 累積報酬 = 即時報酬 + その先の未来でもらえる期待報酬 V> 𝑠 = 𝔼>,@[ 𝑟( + 𝛾 𝑉>(𝑠U)] Q> 𝑠, 𝑎 = 𝔼>,@[ 𝑟( + 𝛾 𝑄>(𝑠U, 𝜋(𝑠′)] Bellman Equation
18.
Q-learning 最も基本的な強化学習アルゴリズムの⼀つ (model-free, off-policy, value-base) • ⾏動価値関数を最適化 •
Greedyな⽅策𝜋 𝑠 = arg max E 𝑄(𝑠, 𝑎)を利⽤ • 更新式 Q> 𝑠, 𝑎 ← 𝛼Q> 𝑠, 𝑎 + 1 − 𝛼 {𝑟( +𝛾 max EU 𝑄(𝑠U , 𝑎U )} • 常にQ値の⾼い⾏動を選択するというpolicyを採⽤することで学習が効率化 → 常に⾼いのしか選ばなかったらまだ選んだこと無いけど良い⾏動が学習されないのでは?
19.
Exploitation-Exploration Trade-off Multi-armed bandit ◦ 腕が数本あるスロットマシン ◦ それぞれの腕毎に出てくる賞⾦額とその確率は違う ◦
限られた回数で多くの賞⾦がほしい バカ:1回⽬で腕Aで1000円当たった → 腕Aしか回さない 賢者:腕Aは確かに悪くない。けど他にもいいのがあるかもしれないから試してみたい → Exploitation-Exploration Trade off 探索 Exploration 活⽤ Exploitation
20.
Q-learning • Greedy 法 ◦ 𝜋
𝑠 = arg max E 𝑄(𝑠, 𝑎) • 𝜖 - Greedy法 ◦ 確率 𝜖 で ランダムな 𝑎 : Exploration ◦ 確率 1 - 𝜖 で arg max E 𝑄(𝑠, 𝑎) : Exploitation ◦ 多くの場合、学習と共に 𝜖 を⼩さくしていく(バランスを気をつけないと、局所解に) • Softmax⾏動基準 ◦ 𝑋^ = 𝑄 𝑠, 𝑎^ とすると、𝑝 𝑎^ = `ab/d ∑ `ab/d b ◦ 探索においても、価値の⽐によって選ばれ⽅が変わる
21.
Representation of Value Function 0.1 0.5 1.0
1.5 0.0 0.3 0.1 … 0.2 0.1 状態価値V 状態s 状態価値V Q(s,a)だったらテーブル 迷路とかの単純な状態空間なら良いが、状態空間が爆発するとき困る
22.
Function Approximation of Value Function 状態s 状態価値V 𝑉 𝑠 =
𝑓 𝑠 , 𝑠 = (𝑥<, 𝑥4,…) 関数 𝑓 には、線形モデルだったり、⼀般化線形モデルだったりが選ばれる
23.
DQN • Q -
learning における⾏動価値関数の関数近似においてCNNを使⽤ • 価値関数のNNによる近似⾃体は昔からある ◦ TD – Gammon [Tesauro, 1994] • Q-learningは、関数近似に線形なモデルを利⽤し、適切な学習率を設定し ⼗分な探索が⾏われた場合収束することが理論的に保証されている → CNNのような複雑な⾮線形モデルの場合収束が保証されない → 頑張って収束させた!! (そのためのいろんな⼯夫) じゃあ何が新しいのか
24.
Experience Replay 強化学習 × DNN
の難しさ • DNNを学習させる際、データサンプルはi.i.d.である必要 → But! 強化学習では、 ◦ 似たような状態⼊⼒が続く (⼊⼒に相関) ◦ ゲームの進⾏状況によるサンプルのdistributionの変化 ◦ ⼀度覚えたことを忘れてしまう • そもそも学習に⼤量サンプル必要 ◦ 環境とのインタラクションを何度もしなければならない 学習が不安定 サンプルを集めるのに ⾮常に時間がかかる どこか(Replay buffer)に経験をサンプル保存しておいて、 更新するときはそこから確率的に取り出して更新しよう!! Off-policyにのみ適⽤可能
25.
Value based or Policy based • Value-based ◦ 価値関数を学習, Implicitな⽅策を利⽤ ◦
Ex. TD-learning (Sarsa, Q-learning, TD(𝜆)) • Policy-based ◦ 価値関数を学習せず, ⽅策を直接学習する ◦ Ex. REINFORCE, Guided policy search • Actor-Critic ◦ 価値関数を学習し、それをもとに⽅策も学習 ◦ Ex. DDPG,
26.
Explicit Policy • Value-based ◦ Implicitな⽅策
ex. Q-learning 𝜋 𝑠 = arg max E 𝑄 𝑠, 𝑎 → ⾏動𝑎 の取りうる選択肢が⾮常に多かったら? → 確率的な⽅策を表現したかったら? → ロボットの制御みたいに連続値を扱いたかったら? 𝜋 𝑠 を明⽰的に導⼊ Policy gradient method Guided policy search .. Etc.
27.
Explicit Policy • Advantages: ◦ 収束しやすい ◦
連続空間、⾼次元空間に適⽤可能 ◦ デモンストレーションから学習することも可能 ◦ 探索を直接的にコントロールできる ◦ 確率的な⽅策も学習可能 • Disadvantages: ◦ 局所解に陥りやすい ◦ ⽅策の評価の効率が悪いことが多い • Policyの学習⽅法は⼤量にある (policy search)
28.
Policy Search
29.
Example Cart pole balancing (Mujoco simulator) • ⽬標 : 棒を垂直に維持する •
状態 : ゲーム画⾯、もしくは速度、回転⾓等の物理量 • ⾏動 : ⼊⼒トルク • 報酬 :cos 𝜃 (𝜃 : 棒の⾓度 )
30.
これまた古典的なアルゴリズムだがよく使⽤される • ⽬的関数 𝐽 𝜋l
= m𝜌> o m 𝜋 𝑠, 𝑎 𝑟 𝑠, 𝑎 𝑑𝑎 𝑑𝑠 q = 𝔼@~r,E~>s 𝑟 𝑠, 𝑎 • 𝐽 𝜋l を最⼤にするような⽅策𝜋lを求めたい → そのために、𝛻l 𝐽 𝜋l を求めて𝜋lを更新したい • 𝛻l 𝐽 𝜋l を求める⽅法として ◦ Likelihood ratio method ◦ Value gradient Policy gradient Policy Gradient Method
31.
𝛻l 𝜋 𝑎|𝑠
= 𝜋 𝑎|𝑠 us> E|@ > E|@ = 𝜋 𝑎|𝑠 𝛻llog 𝜋l(𝑎|𝑠) Likelihood Ratio Method 𝐽 𝜋l = m𝜌> o m𝜋 𝑎|𝑠 𝑟 𝑠, 𝑎 𝑑𝑎 𝑑𝑠 q 𝛻l 𝐽 𝜋l = m𝜌> o m𝛻l 𝜋 𝑎|𝑠 𝑟 𝑠, 𝑎 𝑑𝑎 𝑑𝑠 q = 𝔼@~r,E~>s 𝛻l log 𝜋l(𝑎|𝑠) 𝑟 𝑠, 𝑎 ≅ 1 𝑀 𝛻l log 𝜋l(𝑎|𝑠) 𝑟 𝑠, 𝑎 • サンプリングによって勾配を推定できる! • パラメータ化された確率分布を微分したいがReparametrization trickが使えないとき最近よく⾒る ◦ Hard Attentionとか ⽬的関数 求めたい policy gradient Score function と呼ぶらしい 𝜋 𝑎|𝑠 は確率的な⽅策
32.
Likelihood Ratio Method • 結局 : 𝛻l
𝐽 𝜋l ≅ 4 y 𝛻l log 𝜋l(𝑎|𝑠) 𝑟 𝑠, 𝑎 • 𝑟 𝑠, 𝑎 ◦ 実際に得られた報酬を利⽤ ◦ REINFORCEと呼ばれる ◦ 真の報酬であるのでUnbiasだが、サンプリングなので勾配推定の分散が⼤きい ◦ ⾏動価値関数 𝑄> 𝑠, 𝑎 による近似を利⽤ ◦ Varianceは下がるが近似なので当然biasが⼤きい。うまいことやる必要 ◦ 両⽅使う ◦ Control Variate ◦ 期待値を求めたいものから解析的に計算できるbaselineを引いて分散を⼩さくする ◦ Baselineに状態価値関数を利⽤し、Advantage functionを ◦ Advantage function 𝐴> 𝑠, 𝑎 = 𝑄> 𝑠, 𝑎 − 𝑉> 𝑠 ≅ r + γ 𝑉> 𝑠U − V> (s)
33.
Value Gradient • ⾏動価値関数 𝑄> 𝑠,
𝑎 の勾配を直接使って更新したい ◦ 𝑄> 𝑠, 𝑎 が⼤きくなる⽅向に 𝑎 を動かそう ◦ Experience Replayが使える! • Deterministic policy gradient [Silver et al., ICML, 2015] ◦ 決定的な⽅策 𝜇l(𝑠) を導⼊し、𝑄| 𝑠, 𝜇l(𝑠) を直接 𝜃 で偏微分することで勾配を推定する ◦ 𝛻l 𝑄| 𝑠, 𝜇l(𝑠) = 𝛻E 𝑄| 𝑠, 𝑎 ⋅ 𝛻l 𝜇l ◦ DDPG (Deep deterministic policy gradient) [Lillicrap et al., ICLR, 2016]は 𝑄, 𝜇をCNNでモデル化したもの • Learning Continuous Control Policies by Stochastic Value Gradients ◦ Reparametrization TrickによりStochastic policy にも適⽤可能に
34.
Policy Gradient Method ~summary~ • Likelihood ratio ◦ Bias ⼩・Variance⼤ ◦
On-policy ◦ 学習はある程度安定するが、⼤量のデータサンプルが必要 • Value gradient ◦ Bias ⼤・Variance ⼩ ◦ Off-policy ◦ Experience Replay が使えるためサンプル efficient だが、ハイパラ調整が闇
35.
Design of Reward • ゴールまで⾏きなさいという問題 ◦ 例
1)ゴールに近づいたら (+1), ゴールで⾼い報酬 (+100) → たどり着くまでかなり時間がかかる ◦ 例 2) ポテンシャルに応じた報酬設定 ◦ → ⾼速に学習は進むが、ハイパラ増える、設計⼤変 報酬の設計に関する研究 ◦ ⾼速に探索が進むような報酬の⽣成⽅法の研究 ◦ Reward shaping ◦ 徒弟学習 ◦ 逆強化学習
36.
Inverse Reinforcement Learning • 強化学習では、与えられる報酬=良さを元に最適な戦略を推定する • 逆強化学習では、最適な戦略から報酬=良さを推定する 最適な戦略報酬 強化学習 逆強化学習
37.
Recent DRL ① Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning and Large-Scale Data Collection [Sergey Levine et al., 2016] • Googleがロボットアーム14台並列に動かして 物体のグラスピングを学習させてたやつ • 概要 1.
様々な状況でモーターを動かしてみて、成功したか失敗したかのサンプルを保存 2. 保存したサンプルを利⽤して、Prediction Network 𝑔 𝐼(, 𝑣( { 𝐼(: 視覚情報, 𝑣(: サーボへの命令 }を supervised-learning 3. サーボへの命令は、サンプリングベースで𝑔 𝐼(, 𝑣( が⾼くなるのを選ぶ • 強化学習とよく⾔われるが、 self-supervised learningと呼ばれる ⾃分でデータサンプルを集めて学習する枠組み
38.
Recent DRL ② End-to-End Training of Deep VisuomotorPolicies [Sergey Levine, 2015] • UCバークレーのロボットが最初はランダムだが、 だんだん鍵⽳に鍵させるようになるやつ • Guided Policy Search, iLQG ◦
Policy based ◦ TD学習とかとは全く異なるアプローチ ◦ 近傍のダイナミクスを線形近似し、ローカルに最適解を解析的に解く、制御理論という感じ ◦ 強化学習⾃体広い意味を持つのでこれも含まれる
39.
Recent DRL ③ Asynchronous Methods for Deep Reinforcement Learning [Mnih et al., 2016] • ⾮同期に多数のエージェントを⾛らせてパラメータを 同時に更新することでサンプル数を確保すると同時に ⼊⼒の相関をなくすことができる →
Experience Replayを使う必要がない → on-policyなRLアルゴリズムが使⽤可能!! • Advantage functionを⽤いたActor-Criticを⾮同期で⾛らせた 結果、CPUで1⽇たった時点で他⼿法を⼤きく上回る (A3C : Asynchronous Advantage Actor Critic)
40.
Recent DRL ④ Continuous Deep Q-Learning with Model-based Acceleration (NAF) • Q-learningを連続空間に適⽤可能に ◦ Advantage部分とState-Valueに分け、Aの⽅を⼆次形式の形で推定することでarg
max ‚ 𝑄 𝑠, 𝑢 を計算 Normalized Advantage Function • iLQGのように近傍のダイナミクスを推定することで Model-basedの⼿法を取り⼊れたい ◦ Imagination rollout
41.
Recent DRL ⑤ Trust Region Policy Optimization (TRPO) • Policy based • 𝐷…†
𝜃‡ˆ‰ , 𝜃 ≤ 𝛿 (Trust Region )という範囲において、サンプリングによって計算された期待コストを 最⼩化する𝜃を制約付き最適化問題を解くことで求め逐次的に更新 • サンプリング法 ◦ Single Path : 𝑠<から𝜋lに従い軌跡を⽣成する⽅法 ◦ Vine: ランダムシミュレーションにより⽣成する⽅法 • 学習の流れ ◦ Single pathかVineでサンプル(軌跡と報酬)を集める ◦ サンプルから制約条件と⽬的関数を構築 ◦ 制約付き最適化問題を解く ◦ 中⾝はよくわからなかったです
42.
Recent DRL ⑥ Q-prop • Actor-Critic • Off-policyに学習するcriticをbaselineとして利⽤して、 On-policyなpolicy gradientをsample efficient かつunbiasに利⽤する⽅法
43.
おまけ Connecting Generative Adversarial Networks and Actor-Critic Methods [DeepMind, 2016] • GANとActor-Criticの関係 ◦ GANは、Actorが報酬に影響を与えない状況下でのActor-Criticと同じなのでは? •
それぞれで使⽤される学習テクニックを⽐較、お互いに利⽤できないか ◦ GAN ◦ Freezing learning, Label smoothing, Historical averaging, Minibatch discrimination, BN ◦ Actor-Critic ◦ Experience Replay, Target networks, Entropy regularization, Compatibility?
44.
Reference • David silverの講義資料 ◦ http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/intro_RL.pdf •
Policy search資料 ◦ http://icml.cc/2015/tutorials//PolicySearch.pdf
45.
Recent Technique • Prioritized Experience Replay ◦ 重要な経験サンプル(TD-errorが⼤きかったもの)を優先的にサンプルするExperience Replay •
Deep Reinforcement Learning with Double Q-Learning ◦ DQNのDouble Q-learning版
46.
Applications of RL • ヘリコプター制御 http://heli.stanford.edu/ ◦
⼈間のエキスパートの技を学習させるために、逆強化学習 (Inverse Reinforcement Learning)を利⽤ • Windows ヘルプ⽂書理解 http://groups.csail.mit.edu/rbg/code/rl/ ◦ Windows のヘルプに出てくる操作⼿順の⾃然⾔語に対応する操作を学習します。従来であれば教師付き学習の枠組で研究されて いた問題ですが「指⽰通りの操作が不可能」な場合に対して負の報酬を割り当て、どこまで指⽰に従った操作ができるかを強化 学習によって学習することで、 教師データがない、あるいは少量しかない場合でも、精度の⾼い学習ができることを⽰しました。 • ⾳声対話システム http://mi.eng.cam.ac.uk/research/dialogue/ ◦ Cambridge ⼤の Young らが開発した⾳声対話システムでは、ユーザーがシステムにしてほしい要求を隠れた状態と考え、ユーザー の発話内容を観測することで要求を明らかして対応する POMDP 問題と考えることで、最も適切な応答を学習すします。ノイズに よって発話内容が正しく観測できない場合でも、従来のシステムに⽐べはるかに良い応答が実現できることが⽰されており、今 後の実⽤化が期待されます。 • 構⽂解析 http://www.umiacs.umd.edu/~hal/SPIRL/10-07-acl-spirl.pdf ◦ 構⽂解析を⾼速化するためには、すべての可能性を探索するのではなく、より⽂らしくなるような候補を先に探索することが有 効です。 解析途中にどの選択肢を選ぶかを⾏動と考え、逆強化学習の枠組で解くことで、この⾼速化が達成できることを⽰しました。 同様のテクニックは、⾃然⾔語処理に限らず、探索問題全般に適⽤可能であり、⾯⽩いアプローチとして注⽬を集めています。 • 滞納債務の取り⽴て(論⽂ http://www.prem-melville.com/publications/constrained-reinforcement-learning-kdd2010.pdf、 講演動画 http://videolectures.net/kdd2010_abe_odcucrl/)
Download now