SlideShare a Scribd company logo
1 of 17
Copyright©2016 NTT corp. All Rights Reserved.
強化学習の基礎
NTT研究所 山田真徳
Copyright©2016 NTT corp. All Rights Reserved. 2
教師あり学習 教師なし学習 強化学習
機械学習は大きくわけて3つ
ラベルがついていないものの性質を調べる
(基本はクラスタリング)ラベル(教師データ)があるもの使い
教師データと同じ写像を見つける
(基本は回帰か分類)
f:x→y
y=f(x)
本質は教師データ{x,y}からfを決める問題 距離などを参考に色(ラベル)が
わからない状態でクラスタイリング
良さの方向だけを与えておいて、環境を探索して良い
方向に行くように教師を自ら生成して学習する
行動の最適化問題
参考画像https://qiita-image-store.s3.amazonaws.com/0/72529/dc77a4fe-85a1-a69e-e0e3-571e2e04a33f.png
Copyright©2016 NTT corp. All Rights Reserved. 3
目的
強化学習(Q学習)の基礎となる方策改善定理を理解する
Copyright©2016 NTT corp. All Rights Reserved. 4
方針:未来の報酬期待値が最大になるように学習する
強化学習
目的:行動選択の最適化
教師あり学習とも
(普通の)教師なし学習とも違う
環境探索型の学習
Copyright©2016 NTT corp. All Rights Reserved. 5
DQN(Deep Q NeuralNetwork)学習:戦略を学ぶ例
Copyright©2016 NTT corp. All Rights Reserved. 6
環境と相互作用がある学習
良いという方向を決めて教師を自ら生成
①行動選択
①
②環境の更新
②
③
③報酬決定 状態:
行動:
報酬:
方策:
これを学習したい!
環境で決まる
ユーザーが与える
状態のマルコフ性を仮定
Copyright©2016 NTT corp. All Rights Reserved. 7
マルコフ決定過程(MDP):アクションつきマルコフ過程のこと
マルコフ過程:1つ前の状態にしかよらないという近似
近似
マルコフ決定過程
Copyright©2016 NTT corp. All Rights Reserved. 8
Rの期待値
Q関数:Rをその場の状態と行動で決める
定義よりVとQの関係を明確に
V関数:Rをその場の状態だけで決める
πは固定
Copyright©2016 NTT corp. All Rights Reserved. 9
手順
1. πに従い確率的に行動 を決定
2. により が確率的に決定
3. 現在の報酬が決定
4. 将来の報酬の合計 を計算
5. 将来の報酬が最大になるようにπを修正
6. 2に戻る
ポイント Q, 6どうやってRからπを修正するか?
γ:割引率
A, ε-greedy法というものを使えばいい
ε-greedy法
基本的には常にQを最大にするaを選びなさい
ただしεの確率で他のも試しなさい
利用
探索
Copyright©2016 NTT corp. All Rights Reserved. 11
以下を示したい
Qを計算してε-greedyでπを修正すること
⇔Rの最大とする方策π*を求めること
良い方策πをVから定義する
最適状態関数V*を定義
πの大小関係を定義する
と定義の時のみ
全ての において
最適方策π*は最大のπと定義
最適行動価値関数Q*を定義
Copyright©2016 NTT corp. All Rights Reserved. 13
①方策改善定理(改善の保証)
次のターンのみaをπ’で取る
②ε-greedyが方策改善になっている
以下の2つを示せばよい
Copyright©2016 NTT corp. All Rights Reserved. 14
①方策改善定理(改善の保証)
後で示す
Vの漸化式方程式の一般式になっている(報酬の収束を仮定し最後は と の違いは効かない)
Copyright©2016 NTT corp. All Rights Reserved. 15
証明
MDP
便利な表現
Copyright©2016 NTT corp. All Rights Reserved. 16
②ε-greedyも方策改善になっている
平均化された最大値≧合計1になる非負の重み付き平均
´
Copyright©2016 NTT corp. All Rights Reserved. 17
Atari games(57個)
半分以上のゲームで人間を超えた
DQN(NIPS 2013)←Qを関数近似で汎化
V. Mnih et al., "Playing atari with deep reinforcement learning”
DQN (Nature 2015) ←NIPS DQNのθの更新を改良
V. Mnih et al., "Human-level control through deep reinforcement learning”
Double DQN (arXiv:1509.06461 [cs])←本質的な改良
Hado van Hasselt et al., “Deep Reinforcement Learning with Double Q-learning”
Double Q-learning(NIPS 2010)←理解に役立つ
Hado van Hasselt et al., “Double Q-learning”
Dueling Network(2016)←ネットワークを工夫
ZiyuWang et al., “Dueling Network Architectures for Deep Reinforcement Learning”
FRMQN(2016)←いい感じで記憶を持たせる
Junhyuk Oh et al., “Control of Memory, Active Perception, and Action in Minecraft”
Intrinsic Motivation (2016)←探索に重みをつけるっぽい
Marc G. Bellemare et al., “Unifying Count-Based Exploration and Intrinsic Motivation”
時間が余れば最近のDQN

More Related Content

What's hot

多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識佑 甲野
 
機械学習の理論と実践
機械学習の理論と実践機械学習の理論と実践
機械学習の理論と実践Preferred Networks
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII
 
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper. challenge
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)Kota Matsui
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Preferred Networks
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイDeep Learning JP
 
強化学習その2
強化学習その2強化学習その2
強化学習その2nishio
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方joisino
 
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理Toru Tamaki
 
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチMIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチHironobu Fujiyoshi
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向ohken
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?hoxo_m
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説tancoro
 
SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)Kazuyuki Wakasugi
 

What's hot (20)

多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
機械学習の理論と実践
機械学習の理論と実践機械学習の理論と実践
機械学習の理論と実践
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
 
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tips
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
強化学習その2
強化学習その2強化学習その2
強化学習その2
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
3次元レジストレーションの基礎とOpen3Dを用いた3次元点群処理
 
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチMIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 
SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)
 

Reinforcement Learning(方策改善定理)

  • 1. Copyright©2016 NTT corp. All Rights Reserved. 強化学習の基礎 NTT研究所 山田真徳
  • 2. Copyright©2016 NTT corp. All Rights Reserved. 2 教師あり学習 教師なし学習 強化学習 機械学習は大きくわけて3つ ラベルがついていないものの性質を調べる (基本はクラスタリング)ラベル(教師データ)があるもの使い 教師データと同じ写像を見つける (基本は回帰か分類) f:x→y y=f(x) 本質は教師データ{x,y}からfを決める問題 距離などを参考に色(ラベル)が わからない状態でクラスタイリング 良さの方向だけを与えておいて、環境を探索して良い 方向に行くように教師を自ら生成して学習する 行動の最適化問題 参考画像https://qiita-image-store.s3.amazonaws.com/0/72529/dc77a4fe-85a1-a69e-e0e3-571e2e04a33f.png
  • 3. Copyright©2016 NTT corp. All Rights Reserved. 3 目的 強化学習(Q学習)の基礎となる方策改善定理を理解する
  • 4. Copyright©2016 NTT corp. All Rights Reserved. 4 方針:未来の報酬期待値が最大になるように学習する 強化学習 目的:行動選択の最適化 教師あり学習とも (普通の)教師なし学習とも違う 環境探索型の学習
  • 5. Copyright©2016 NTT corp. All Rights Reserved. 5 DQN(Deep Q NeuralNetwork)学習:戦略を学ぶ例
  • 6. Copyright©2016 NTT corp. All Rights Reserved. 6 環境と相互作用がある学習 良いという方向を決めて教師を自ら生成 ①行動選択 ① ②環境の更新 ② ③ ③報酬決定 状態: 行動: 報酬: 方策: これを学習したい! 環境で決まる ユーザーが与える 状態のマルコフ性を仮定
  • 7. Copyright©2016 NTT corp. All Rights Reserved. 7 マルコフ決定過程(MDP):アクションつきマルコフ過程のこと マルコフ過程:1つ前の状態にしかよらないという近似 近似 マルコフ決定過程
  • 8. Copyright©2016 NTT corp. All Rights Reserved. 8 Rの期待値 Q関数:Rをその場の状態と行動で決める 定義よりVとQの関係を明確に V関数:Rをその場の状態だけで決める πは固定
  • 9. Copyright©2016 NTT corp. All Rights Reserved. 9 手順 1. πに従い確率的に行動 を決定 2. により が確率的に決定 3. 現在の報酬が決定 4. 将来の報酬の合計 を計算 5. 将来の報酬が最大になるようにπを修正 6. 2に戻る ポイント Q, 6どうやってRからπを修正するか? γ:割引率 A, ε-greedy法というものを使えばいい
  • 11. Copyright©2016 NTT corp. All Rights Reserved. 11 以下を示したい Qを計算してε-greedyでπを修正すること ⇔Rの最大とする方策π*を求めること
  • 13. Copyright©2016 NTT corp. All Rights Reserved. 13 ①方策改善定理(改善の保証) 次のターンのみaをπ’で取る ②ε-greedyが方策改善になっている 以下の2つを示せばよい
  • 14. Copyright©2016 NTT corp. All Rights Reserved. 14 ①方策改善定理(改善の保証) 後で示す Vの漸化式方程式の一般式になっている(報酬の収束を仮定し最後は と の違いは効かない)
  • 15. Copyright©2016 NTT corp. All Rights Reserved. 15 証明 MDP 便利な表現
  • 16. Copyright©2016 NTT corp. All Rights Reserved. 16 ②ε-greedyも方策改善になっている 平均化された最大値≧合計1になる非負の重み付き平均 ´
  • 17. Copyright©2016 NTT corp. All Rights Reserved. 17 Atari games(57個) 半分以上のゲームで人間を超えた DQN(NIPS 2013)←Qを関数近似で汎化 V. Mnih et al., "Playing atari with deep reinforcement learning” DQN (Nature 2015) ←NIPS DQNのθの更新を改良 V. Mnih et al., "Human-level control through deep reinforcement learning” Double DQN (arXiv:1509.06461 [cs])←本質的な改良 Hado van Hasselt et al., “Deep Reinforcement Learning with Double Q-learning” Double Q-learning(NIPS 2010)←理解に役立つ Hado van Hasselt et al., “Double Q-learning” Dueling Network(2016)←ネットワークを工夫 ZiyuWang et al., “Dueling Network Architectures for Deep Reinforcement Learning” FRMQN(2016)←いい感じで記憶を持たせる Junhyuk Oh et al., “Control of Memory, Active Perception, and Action in Minecraft” Intrinsic Motivation (2016)←探索に重みをつけるっぽい Marc G. Bellemare et al., “Unifying Count-Based Exploration and Intrinsic Motivation” 時間が余れば最近のDQN