SlideShare a Scribd company logo
Copyright©2016 NTT corp. All Rights Reserved.
強化学習の基礎
NTT研究所 山田真徳
Copyright©2016 NTT corp. All Rights Reserved. 2
教師あり学習 教師なし学習 強化学習
機械学習は大きくわけて3つ
ラベルがついていないものの性質を調べる
(基本はクラスタリング)ラベル(教師データ)があるもの使い
教師データと同じ写像を見つける
(基本は回帰か分類)
f:x→y
y=f(x)
本質は教師データ{x,y}からfを決める問題 距離などを参考に色(ラベル)が
わからない状態でクラスタイリング
良さの方向だけを与えておいて、環境を探索して良い
方向に行くように教師を自ら生成して学習する
行動の最適化問題
参考画像https://qiita-image-store.s3.amazonaws.com/0/72529/dc77a4fe-85a1-a69e-e0e3-571e2e04a33f.png
Copyright©2016 NTT corp. All Rights Reserved. 3
目的
強化学習(Q学習)の基礎となる方策改善定理を理解する
Copyright©2016 NTT corp. All Rights Reserved. 4
方針:未来の報酬期待値が最大になるように学習する
強化学習
目的:行動選択の最適化
教師あり学習とも
(普通の)教師なし学習とも違う
環境探索型の学習
Copyright©2016 NTT corp. All Rights Reserved. 5
DQN(Deep Q NeuralNetwork)学習:戦略を学ぶ例
Copyright©2016 NTT corp. All Rights Reserved. 6
環境と相互作用がある学習
良いという方向を決めて教師を自ら生成
①行動選択
①
②環境の更新
②
③
③報酬決定 状態:
行動:
報酬:
方策:
これを学習したい!
環境で決まる
ユーザーが与える
状態のマルコフ性を仮定
Copyright©2016 NTT corp. All Rights Reserved. 7
マルコフ決定過程(MDP):アクションつきマルコフ過程のこと
マルコフ過程:1つ前の状態にしかよらないという近似
近似
マルコフ決定過程
Copyright©2016 NTT corp. All Rights Reserved. 8
Rの期待値
Q関数:Rをその場の状態と行動で決める
定義よりVとQの関係を明確に
V関数:Rをその場の状態だけで決める
πは固定
Copyright©2016 NTT corp. All Rights Reserved. 9
手順
1. πに従い確率的に行動 を決定
2. により が確率的に決定
3. 現在の報酬が決定
4. 将来の報酬の合計 を計算
5. 将来の報酬が最大になるようにπを修正
6. 2に戻る
ポイント Q, 6どうやってRからπを修正するか?
γ:割引率
A, ε-greedy法というものを使えばいい
ε-greedy法
基本的には常にQを最大にするaを選びなさい
ただしεの確率で他のも試しなさい
利用
探索
Copyright©2016 NTT corp. All Rights Reserved. 11
以下を示したい
Qを計算してε-greedyでπを修正すること
⇔Rの最大とする方策π*を求めること
良い方策πをVから定義する
最適状態関数V*を定義
πの大小関係を定義する
と定義の時のみ
全ての において
最適方策π*は最大のπと定義
最適行動価値関数Q*を定義
Copyright©2016 NTT corp. All Rights Reserved. 13
①方策改善定理(改善の保証)
次のターンのみaをπ’で取る
②ε-greedyが方策改善になっている
以下の2つを示せばよい
Copyright©2016 NTT corp. All Rights Reserved. 14
①方策改善定理(改善の保証)
後で示す
Vの漸化式方程式の一般式になっている(報酬の収束を仮定し最後は と の違いは効かない)
Copyright©2016 NTT corp. All Rights Reserved. 15
証明
MDP
便利な表現
Copyright©2016 NTT corp. All Rights Reserved. 16
②ε-greedyも方策改善になっている
平均化された最大値≧合計1になる非負の重み付き平均
´
Copyright©2016 NTT corp. All Rights Reserved. 17
Atari games(57個)
半分以上のゲームで人間を超えた
DQN(NIPS 2013)←Qを関数近似で汎化
V. Mnih et al., "Playing atari with deep reinforcement learning”
DQN (Nature 2015) ←NIPS DQNのθの更新を改良
V. Mnih et al., "Human-level control through deep reinforcement learning”
Double DQN (arXiv:1509.06461 [cs])←本質的な改良
Hado van Hasselt et al., “Deep Reinforcement Learning with Double Q-learning”
Double Q-learning(NIPS 2010)←理解に役立つ
Hado van Hasselt et al., “Double Q-learning”
Dueling Network(2016)←ネットワークを工夫
ZiyuWang et al., “Dueling Network Architectures for Deep Reinforcement Learning”
FRMQN(2016)←いい感じで記憶を持たせる
Junhyuk Oh et al., “Control of Memory, Active Perception, and Action in Minecraft”
Intrinsic Motivation (2016)←探索に重みをつけるっぽい
Marc G. Bellemare et al., “Unifying Count-Based Exploration and Intrinsic Motivation”
時間が余れば最近のDQN

More Related Content

What's hot

Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C model
WEBFARMER. ltd.
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
nishio
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
 
報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習
Yusuke Nakata
 
強化学習3章
強化学習3章強化学習3章
強化学習3章
hiroki yamaoka
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
ぱんいち すみもと
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Deep Learning JP
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
Shota Imai
 
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習
Shota Ishikawa
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
 
2値分類・多クラス分類
2値分類・多クラス分類2値分類・多クラス分類
2値分類・多クラス分類
t dev
 
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018
佑 甲野
 

What's hot (20)

Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C model
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習
 
強化学習3章
強化学習3章強化学習3章
強化学習3章
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
2値分類・多クラス分類
2値分類・多クラス分類2値分類・多クラス分類
2値分類・多クラス分類
 
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018
 

Reinforcement Learning(方策改善定理)

  • 1. Copyright©2016 NTT corp. All Rights Reserved. 強化学習の基礎 NTT研究所 山田真徳
  • 2. Copyright©2016 NTT corp. All Rights Reserved. 2 教師あり学習 教師なし学習 強化学習 機械学習は大きくわけて3つ ラベルがついていないものの性質を調べる (基本はクラスタリング)ラベル(教師データ)があるもの使い 教師データと同じ写像を見つける (基本は回帰か分類) f:x→y y=f(x) 本質は教師データ{x,y}からfを決める問題 距離などを参考に色(ラベル)が わからない状態でクラスタイリング 良さの方向だけを与えておいて、環境を探索して良い 方向に行くように教師を自ら生成して学習する 行動の最適化問題 参考画像https://qiita-image-store.s3.amazonaws.com/0/72529/dc77a4fe-85a1-a69e-e0e3-571e2e04a33f.png
  • 3. Copyright©2016 NTT corp. All Rights Reserved. 3 目的 強化学習(Q学習)の基礎となる方策改善定理を理解する
  • 4. Copyright©2016 NTT corp. All Rights Reserved. 4 方針:未来の報酬期待値が最大になるように学習する 強化学習 目的:行動選択の最適化 教師あり学習とも (普通の)教師なし学習とも違う 環境探索型の学習
  • 5. Copyright©2016 NTT corp. All Rights Reserved. 5 DQN(Deep Q NeuralNetwork)学習:戦略を学ぶ例
  • 6. Copyright©2016 NTT corp. All Rights Reserved. 6 環境と相互作用がある学習 良いという方向を決めて教師を自ら生成 ①行動選択 ① ②環境の更新 ② ③ ③報酬決定 状態: 行動: 報酬: 方策: これを学習したい! 環境で決まる ユーザーが与える 状態のマルコフ性を仮定
  • 7. Copyright©2016 NTT corp. All Rights Reserved. 7 マルコフ決定過程(MDP):アクションつきマルコフ過程のこと マルコフ過程:1つ前の状態にしかよらないという近似 近似 マルコフ決定過程
  • 8. Copyright©2016 NTT corp. All Rights Reserved. 8 Rの期待値 Q関数:Rをその場の状態と行動で決める 定義よりVとQの関係を明確に V関数:Rをその場の状態だけで決める πは固定
  • 9. Copyright©2016 NTT corp. All Rights Reserved. 9 手順 1. πに従い確率的に行動 を決定 2. により が確率的に決定 3. 現在の報酬が決定 4. 将来の報酬の合計 を計算 5. 将来の報酬が最大になるようにπを修正 6. 2に戻る ポイント Q, 6どうやってRからπを修正するか? γ:割引率 A, ε-greedy法というものを使えばいい
  • 11. Copyright©2016 NTT corp. All Rights Reserved. 11 以下を示したい Qを計算してε-greedyでπを修正すること ⇔Rの最大とする方策π*を求めること
  • 13. Copyright©2016 NTT corp. All Rights Reserved. 13 ①方策改善定理(改善の保証) 次のターンのみaをπ’で取る ②ε-greedyが方策改善になっている 以下の2つを示せばよい
  • 14. Copyright©2016 NTT corp. All Rights Reserved. 14 ①方策改善定理(改善の保証) 後で示す Vの漸化式方程式の一般式になっている(報酬の収束を仮定し最後は と の違いは効かない)
  • 15. Copyright©2016 NTT corp. All Rights Reserved. 15 証明 MDP 便利な表現
  • 16. Copyright©2016 NTT corp. All Rights Reserved. 16 ②ε-greedyも方策改善になっている 平均化された最大値≧合計1になる非負の重み付き平均 ´
  • 17. Copyright©2016 NTT corp. All Rights Reserved. 17 Atari games(57個) 半分以上のゲームで人間を超えた DQN(NIPS 2013)←Qを関数近似で汎化 V. Mnih et al., "Playing atari with deep reinforcement learning” DQN (Nature 2015) ←NIPS DQNのθの更新を改良 V. Mnih et al., "Human-level control through deep reinforcement learning” Double DQN (arXiv:1509.06461 [cs])←本質的な改良 Hado van Hasselt et al., “Deep Reinforcement Learning with Double Q-learning” Double Q-learning(NIPS 2010)←理解に役立つ Hado van Hasselt et al., “Double Q-learning” Dueling Network(2016)←ネットワークを工夫 ZiyuWang et al., “Dueling Network Architectures for Deep Reinforcement Learning” FRMQN(2016)←いい感じで記憶を持たせる Junhyuk Oh et al., “Control of Memory, Active Perception, and Action in Minecraft” Intrinsic Motivation (2016)←探索に重みをつけるっぽい Marc G. Bellemare et al., “Unifying Count-Based Exploration and Intrinsic Motivation” 時間が余れば最近のDQN