Submit Search
Upload
Reinforcement Learning(方策改善定理)
•
Download as PPTX, PDF
•
6 likes
•
4,355 views
M
Masanori Yamada
Follow
強化学習の基礎 方策改善定理の証明
Read less
Read more
Data & Analytics
Slideshow view
Report
Share
Slideshow view
Report
Share
1 of 17
Download now
Recommended
強化学習その3
強化学習その3
nishio
ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
Satoshi Hara
最適化超入門
最適化超入門
Takami Sato
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
Recommended
強化学習その3
強化学習その3
nishio
ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
Satoshi Hara
最適化超入門
最適化超入門
Takami Sato
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
機械学習の理論と実践
機械学習の理論と実践
Preferred Networks
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tips
cvpaper. challenge
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
Kota Matsui
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Preferred Networks
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP
強化学習その2
強化学習その2
nishio
最適輸送の解き方
最適輸送の解き方
joisino
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
Toru Tamaki
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
Hironobu Fujiyoshi
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
ohken
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII
Triplet Loss 徹底解説
Triplet Loss 徹底解説
tancoro
SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)
Kazuyuki Wakasugi
More Related Content
What's hot
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
機械学習の理論と実践
機械学習の理論と実践
Preferred Networks
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh
GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tips
cvpaper. challenge
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
Kota Matsui
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Preferred Networks
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP
強化学習その2
強化学習その2
nishio
最適輸送の解き方
最適輸送の解き方
joisino
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
Toru Tamaki
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
Hironobu Fujiyoshi
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
ohken
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII
Triplet Loss 徹底解説
Triplet Loss 徹底解説
tancoro
SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)
Kazuyuki Wakasugi
What's hot
(20)
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
機械学習の理論と実践
機械学習の理論と実践
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
GAN(と強化学習との関係)
GAN(と強化学習との関係)
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tips
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
強化学習その2
強化学習その2
最適輸送の解き方
最適輸送の解き方
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
グラフィカルモデル入門
グラフィカルモデル入門
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
Triplet Loss 徹底解説
Triplet Loss 徹底解説
SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)
Reinforcement Learning(方策改善定理)
1.
Copyright©2016 NTT corp.
All Rights Reserved. 強化学習の基礎 NTT研究所 山田真徳
2.
Copyright©2016 NTT corp.
All Rights Reserved. 2 教師あり学習 教師なし学習 強化学習 機械学習は大きくわけて3つ ラベルがついていないものの性質を調べる (基本はクラスタリング)ラベル(教師データ)があるもの使い 教師データと同じ写像を見つける (基本は回帰か分類) f:x→y y=f(x) 本質は教師データ{x,y}からfを決める問題 距離などを参考に色(ラベル)が わからない状態でクラスタイリング 良さの方向だけを与えておいて、環境を探索して良い 方向に行くように教師を自ら生成して学習する 行動の最適化問題 参考画像https://qiita-image-store.s3.amazonaws.com/0/72529/dc77a4fe-85a1-a69e-e0e3-571e2e04a33f.png
3.
Copyright©2016 NTT corp.
All Rights Reserved. 3 目的 強化学習(Q学習)の基礎となる方策改善定理を理解する
4.
Copyright©2016 NTT corp.
All Rights Reserved. 4 方針:未来の報酬期待値が最大になるように学習する 強化学習 目的:行動選択の最適化 教師あり学習とも (普通の)教師なし学習とも違う 環境探索型の学習
5.
Copyright©2016 NTT corp.
All Rights Reserved. 5 DQN(Deep Q NeuralNetwork)学習:戦略を学ぶ例
6.
Copyright©2016 NTT corp.
All Rights Reserved. 6 環境と相互作用がある学習 良いという方向を決めて教師を自ら生成 ①行動選択 ① ②環境の更新 ② ③ ③報酬決定 状態: 行動: 報酬: 方策: これを学習したい! 環境で決まる ユーザーが与える 状態のマルコフ性を仮定
7.
Copyright©2016 NTT corp.
All Rights Reserved. 7 マルコフ決定過程(MDP):アクションつきマルコフ過程のこと マルコフ過程:1つ前の状態にしかよらないという近似 近似 マルコフ決定過程
8.
Copyright©2016 NTT corp.
All Rights Reserved. 8 Rの期待値 Q関数:Rをその場の状態と行動で決める 定義よりVとQの関係を明確に V関数:Rをその場の状態だけで決める πは固定
9.
Copyright©2016 NTT corp.
All Rights Reserved. 9 手順 1. πに従い確率的に行動 を決定 2. により が確率的に決定 3. 現在の報酬が決定 4. 将来の報酬の合計 を計算 5. 将来の報酬が最大になるようにπを修正 6. 2に戻る ポイント Q, 6どうやってRからπを修正するか? γ:割引率 A, ε-greedy法というものを使えばいい
10.
ε-greedy法 基本的には常にQを最大にするaを選びなさい ただしεの確率で他のも試しなさい 利用 探索
11.
Copyright©2016 NTT corp.
All Rights Reserved. 11 以下を示したい Qを計算してε-greedyでπを修正すること ⇔Rの最大とする方策π*を求めること
12.
良い方策πをVから定義する 最適状態関数V*を定義 πの大小関係を定義する と定義の時のみ 全ての において 最適方策π*は最大のπと定義 最適行動価値関数Q*を定義
13.
Copyright©2016 NTT corp.
All Rights Reserved. 13 ①方策改善定理(改善の保証) 次のターンのみaをπ’で取る ②ε-greedyが方策改善になっている 以下の2つを示せばよい
14.
Copyright©2016 NTT corp.
All Rights Reserved. 14 ①方策改善定理(改善の保証) 後で示す Vの漸化式方程式の一般式になっている(報酬の収束を仮定し最後は と の違いは効かない)
15.
Copyright©2016 NTT corp.
All Rights Reserved. 15 証明 MDP 便利な表現
16.
Copyright©2016 NTT corp.
All Rights Reserved. 16 ②ε-greedyも方策改善になっている 平均化された最大値≧合計1になる非負の重み付き平均 ´
17.
Copyright©2016 NTT corp.
All Rights Reserved. 17 Atari games(57個) 半分以上のゲームで人間を超えた DQN(NIPS 2013)←Qを関数近似で汎化 V. Mnih et al., "Playing atari with deep reinforcement learning” DQN (Nature 2015) ←NIPS DQNのθの更新を改良 V. Mnih et al., "Human-level control through deep reinforcement learning” Double DQN (arXiv:1509.06461 [cs])←本質的な改良 Hado van Hasselt et al., “Deep Reinforcement Learning with Double Q-learning” Double Q-learning(NIPS 2010)←理解に役立つ Hado van Hasselt et al., “Double Q-learning” Dueling Network(2016)←ネットワークを工夫 ZiyuWang et al., “Dueling Network Architectures for Deep Reinforcement Learning” FRMQN(2016)←いい感じで記憶を持たせる Junhyuk Oh et al., “Control of Memory, Active Perception, and Action in Minecraft” Intrinsic Motivation (2016)←探索に重みをつけるっぽい Marc G. Bellemare et al., “Unifying Count-Based Exploration and Intrinsic Motivation” 時間が余れば最近のDQN
Download now