Submit Search
Upload
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
•
Download as PPTX, PDF
•
14 likes
•
7,689 views
Y
Yusuke Nakata
Follow
強化学習アーキテクチャ勉強会での発表資料
Read less
Read more
Engineering
Report
Share
Report
Share
1 of 32
Download now
Recommended
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
第25回ステアラボ人工知能セミナー https://stair.connpass.com/event/143745/
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
2017/8/24 Deep Learning JP: http://deeplearning.jp/seminar-2/
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Yusuke Nakata
Generative Adversarial Imitation Learning の紹介スライド 実装コード: https://github.com/uidilr/gail_ppo_tf
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習
Shota Ishikawa
第11回強化学習アーキテクチャ勉強会での発表資料です. 2018/1/16 @Φカフェ スライドの誤り等ありましたら,ご連絡いただければ幸いです. ※[2018/1/17]p.9, 11の尤度,総和ではなく総乗の誤りです. アブストラクト: 逆強化学習はエージェントの振舞データを所与として,エージェントが受け取っていたとされる報酬関数を推定する手法である.推定した報酬は二つの用途に用いられる.一つ目は推定した報酬にもとづいて強化学習を行い,エージェントの方策を学習する「徒弟学習」,二つ目は推定した報酬をもとにエージェントがどのような目的を持って行動したのかを理解する「行動解析」である.本発表では二つ目の「行動解析」に対する有効なアプローチであるノンパラメトリックベイズを用いた逆強化学習について説明する.基礎となるベイジアン逆強化学習ではエージェントがどのようなタスクを解いていたのかなどの事前知識を報酬の事前確率として導入し,エージェントに適合する報酬の事後確率を計算する手法である.これをノンパラメトリック化することにより,導入できる事前知識の自由度を大きくできるため,より複雑な報酬の事後確率を計算することができる.紹介する手法では,迷路の途中で目的地を変更する振舞データが与えられたときや複数の報酬から生成された振舞データが混ざっているときなどに,エージェントの行動解析に有効なアプローチである.
TensorFlowで逆強化学習
TensorFlowで逆強化学習
Mitsuhisa Ohta
TensorFlow 勉強会 (4) の発表資料です。 途中の動画を見るには↓の元ファイルを御覧ください。 https://docs.google.com/presentation/d/1CWHjeiDJovG4ymuaoGCFLiBcSHNuNccMQQYkoFtpHxc/pub?start=false&loop=false&delayms=3000
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
2021/12/03 Deep Learning JP: http://deeplearning.jp/seminar-2/
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜 6/10 (木) 9:30~10:40 講師:平川 翼 氏(中部大学) 概要: 深層強化学習はDeep Q-Network (DQN) の登場以降、様々なアプローチが提案されており、AlphaGoによる囲碁の攻略やロボットの自律制御などの様々な応用がなされています。本チュートリアルでは、従来の強化学習の基本的な考え方に触れ、深層学習を組み合わせた深層強化学習についての紹介を行います。また、時間の許す限り、最新の深層学習手法やAlphaGoの仕組み、深層強化学習の活用例を紹介します。
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
2021/09/17 Deep Learning JP: http://deeplearning.jp/seminar-2/
Recommended
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
第25回ステアラボ人工知能セミナー https://stair.connpass.com/event/143745/
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
2017/8/24 Deep Learning JP: http://deeplearning.jp/seminar-2/
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Yusuke Nakata
Generative Adversarial Imitation Learning の紹介スライド 実装コード: https://github.com/uidilr/gail_ppo_tf
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習
Shota Ishikawa
第11回強化学習アーキテクチャ勉強会での発表資料です. 2018/1/16 @Φカフェ スライドの誤り等ありましたら,ご連絡いただければ幸いです. ※[2018/1/17]p.9, 11の尤度,総和ではなく総乗の誤りです. アブストラクト: 逆強化学習はエージェントの振舞データを所与として,エージェントが受け取っていたとされる報酬関数を推定する手法である.推定した報酬は二つの用途に用いられる.一つ目は推定した報酬にもとづいて強化学習を行い,エージェントの方策を学習する「徒弟学習」,二つ目は推定した報酬をもとにエージェントがどのような目的を持って行動したのかを理解する「行動解析」である.本発表では二つ目の「行動解析」に対する有効なアプローチであるノンパラメトリックベイズを用いた逆強化学習について説明する.基礎となるベイジアン逆強化学習ではエージェントがどのようなタスクを解いていたのかなどの事前知識を報酬の事前確率として導入し,エージェントに適合する報酬の事後確率を計算する手法である.これをノンパラメトリック化することにより,導入できる事前知識の自由度を大きくできるため,より複雑な報酬の事後確率を計算することができる.紹介する手法では,迷路の途中で目的地を変更する振舞データが与えられたときや複数の報酬から生成された振舞データが混ざっているときなどに,エージェントの行動解析に有効なアプローチである.
TensorFlowで逆強化学習
TensorFlowで逆強化学習
Mitsuhisa Ohta
TensorFlow 勉強会 (4) の発表資料です。 途中の動画を見るには↓の元ファイルを御覧ください。 https://docs.google.com/presentation/d/1CWHjeiDJovG4ymuaoGCFLiBcSHNuNccMQQYkoFtpHxc/pub?start=false&loop=false&delayms=3000
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
2021/12/03 Deep Learning JP: http://deeplearning.jp/seminar-2/
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜 6/10 (木) 9:30~10:40 講師:平川 翼 氏(中部大学) 概要: 深層強化学習はDeep Q-Network (DQN) の登場以降、様々なアプローチが提案されており、AlphaGoによる囲碁の攻略やロボットの自律制御などの様々な応用がなされています。本チュートリアルでは、従来の強化学習の基本的な考え方に触れ、深層学習を組み合わせた深層強化学習についての紹介を行います。また、時間の許す限り、最新の深層学習手法やAlphaGoの仕組み、深層強化学習の活用例を紹介します。
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
2021/09/17 Deep Learning JP: http://deeplearning.jp/seminar-2/
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
Deep Learning JP
2019/02/01 Deep Learning JP: http://deeplearning.jp/seminar-2/
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
強化学習と方策勾配法をざっくり 注: 全体を通して割引報酬による定式化のみを考慮. p. 4:状態価値関数の図は割引をちゃんと考慮してないイメージ図 ミスたち: p. 33:行動が確率変数ではないため -> 大嘘,行動は決定論的に決められるから
勾配降下法の最適化アルゴリズム
勾配降下法の最適化アルゴリズム
nishio
モメンタム、Nesterov accelerated gradientとAdagrad, Adadelta, Adamについて解説しました。
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習
Tsubasa Hirakawa
2018年3月16日に開催された,新学術領域「生物ナビゲーションのシステム科学(生物移動情報学)」セミナーで発表したスライドです.
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
Taiji Suzuki
情報処理学会連続セミナー2013
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
本資料は2019年11月15日~11月16日に行われた統計・機械学習若手シンボジウムで今井が行った招待公演「強化学習エージェントの内発的動機付けによる探索とその応用」で使用した資料を,自主公開版として一部修正したものです. いわゆる内発的報酬(Intrinsic Reward)を用いた強化学習の手法について,近年(〜2019年)の手法や内容をまとめたものになります.
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018
佑 甲野
NeurIPS2018読み会@PFN での発表資料です.まとめというほどではありませんが,NeurIPS2018 で発表された中で気になった強化学習技術の雑感です. https://connpass.com/event/115476/ 下記を合わせてご覧いただくと少しだけわかりやすくなると思います. ・多様な強化学習の概念と課題認識 https://www.slideshare.net/yukono1/ss-102843951 ・強化学習の基礎的な考え方と問題の分類 https://www.slideshare.net/yukono1/ss-129668388
報酬設計と逆強化学習
報酬設計と逆強化学習
Yusuke Nakata
発表場所:Shibuya synapse 現在の強化学習に何が足りないのか?
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
2022/11/25 Deep Learning JP http://deeplearning.jp/seminar-2/
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
ゼミで発表した資料です。間違っていたらTwitterに連絡ください。@ottamm_190
深層学習の数理
深層学習の数理
Taiji Suzuki
大阪大学夏季集中講義「データ科学特論I」 深層学習の数理を「表現能力」「汎化能力」「最適化能力」について解説
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki
第16回汎用人工知能研究会
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
強化学習若手の会チュートリアル、部分観測マルコフ決定過程 (POMDP) 下での強化学習の基礎と応用の資料です。
Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
4/16に行われた筑波大の手塚若林研合同ゼミでの発表スライドです。
「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
強化学習アーキテクチャ勉強会の資料
深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
第4回 統計・機械学習若手シンポジウム(11/15)発表資料
機械学習のための数学のおさらい
機械学習のための数学のおさらい
Hideo Terada
初等的な微分法の説明と、それが機械学習がどのように使われているかの概論。初心者向けです。
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
2019/04/26 Deep Learning JP: http://deeplearning.jp/seminar-2/
強化学習における好奇心
強化学習における好奇心
Shota Imai
強化学習のアルゴリズムの中で,複雑な環境の探索のために内発的報酬を用いているアルゴリズムを紹介した資料です.未知の状態への探索を促していることから「好奇心」を用いた探索とも呼ばれます.元々は別の場所で公開していた資料でしたが,いくつかの修正を加えて,こちらに改めてアップしました.
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法 6月10日 (木) 11:00 - 12:30 メイン会場(vimeo + sli.do) 登壇者:松井 孝太 氏(名古屋大学) 概要:転移学習とは、解きたいタスクに対して、それと異なるが似ている他のタスクからの知識(データ、特徴、モデルなど)を利用するための方法を与える機械学習のフレームワークです。深層モデルの学習方法として広く普及している事前学習モデルの利用は、この広義の転移学習の一つの実現形態とみなせます。本発表では、まず何をいつ転移するのか (what/when to transfer) といった転移学習の基本概念と定式化を説明し、具体的な転移学習の主要なアプローチとしてドメイン適応、メタ学習について解説します。
More Related Content
What's hot
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
Deep Learning JP
2019/02/01 Deep Learning JP: http://deeplearning.jp/seminar-2/
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
強化学習と方策勾配法をざっくり 注: 全体を通して割引報酬による定式化のみを考慮. p. 4:状態価値関数の図は割引をちゃんと考慮してないイメージ図 ミスたち: p. 33:行動が確率変数ではないため -> 大嘘,行動は決定論的に決められるから
勾配降下法の最適化アルゴリズム
勾配降下法の最適化アルゴリズム
nishio
モメンタム、Nesterov accelerated gradientとAdagrad, Adadelta, Adamについて解説しました。
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習
Tsubasa Hirakawa
2018年3月16日に開催された,新学術領域「生物ナビゲーションのシステム科学(生物移動情報学)」セミナーで発表したスライドです.
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
Taiji Suzuki
情報処理学会連続セミナー2013
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
本資料は2019年11月15日~11月16日に行われた統計・機械学習若手シンボジウムで今井が行った招待公演「強化学習エージェントの内発的動機付けによる探索とその応用」で使用した資料を,自主公開版として一部修正したものです. いわゆる内発的報酬(Intrinsic Reward)を用いた強化学習の手法について,近年(〜2019年)の手法や内容をまとめたものになります.
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018
佑 甲野
NeurIPS2018読み会@PFN での発表資料です.まとめというほどではありませんが,NeurIPS2018 で発表された中で気になった強化学習技術の雑感です. https://connpass.com/event/115476/ 下記を合わせてご覧いただくと少しだけわかりやすくなると思います. ・多様な強化学習の概念と課題認識 https://www.slideshare.net/yukono1/ss-102843951 ・強化学習の基礎的な考え方と問題の分類 https://www.slideshare.net/yukono1/ss-129668388
報酬設計と逆強化学習
報酬設計と逆強化学習
Yusuke Nakata
発表場所:Shibuya synapse 現在の強化学習に何が足りないのか?
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
2022/11/25 Deep Learning JP http://deeplearning.jp/seminar-2/
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
ゼミで発表した資料です。間違っていたらTwitterに連絡ください。@ottamm_190
深層学習の数理
深層学習の数理
Taiji Suzuki
大阪大学夏季集中講義「データ科学特論I」 深層学習の数理を「表現能力」「汎化能力」「最適化能力」について解説
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki
第16回汎用人工知能研究会
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
強化学習若手の会チュートリアル、部分観測マルコフ決定過程 (POMDP) 下での強化学習の基礎と応用の資料です。
Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
4/16に行われた筑波大の手塚若林研合同ゼミでの発表スライドです。
「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
強化学習アーキテクチャ勉強会の資料
深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
第4回 統計・機械学習若手シンポジウム(11/15)発表資料
機械学習のための数学のおさらい
機械学習のための数学のおさらい
Hideo Terada
初等的な微分法の説明と、それが機械学習がどのように使われているかの概論。初心者向けです。
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP
2019/04/26 Deep Learning JP: http://deeplearning.jp/seminar-2/
強化学習における好奇心
強化学習における好奇心
Shota Imai
強化学習のアルゴリズムの中で,複雑な環境の探索のために内発的報酬を用いているアルゴリズムを紹介した資料です.未知の状態への探索を促していることから「好奇心」を用いた探索とも呼ばれます.元々は別の場所で公開していた資料でしたが,いくつかの修正を加えて,こちらに改めてアップしました.
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法 6月10日 (木) 11:00 - 12:30 メイン会場(vimeo + sli.do) 登壇者:松井 孝太 氏(名古屋大学) 概要:転移学習とは、解きたいタスクに対して、それと異なるが似ている他のタスクからの知識(データ、特徴、モデルなど)を利用するための方法を与える機械学習のフレームワークです。深層モデルの学習方法として広く普及している事前学習モデルの利用は、この広義の転移学習の一つの実現形態とみなせます。本発表では、まず何をいつ転移するのか (what/when to transfer) といった転移学習の基本概念と定式化を説明し、具体的な転移学習の主要なアプローチとしてドメイン適応、メタ学習について解説します。
What's hot
(20)
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
勾配降下法の最適化アルゴリズム
勾配降下法の最適化アルゴリズム
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018
報酬設計と逆強化学習
報酬設計と逆強化学習
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
深層学習の数理
深層学習の数理
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Optimizer入門&最新動向
Optimizer入門&最新動向
「世界モデル」と関連研究について
「世界モデル」と関連研究について
深層生成モデルと世界モデル
深層生成モデルと世界モデル
機械学習のための数学のおさらい
機械学習のための数学のおさらい
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
強化学習における好奇心
強化学習における好奇心
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
1.
近年の逆強化学習の動向 ~MaxEnt IRLとその発展系を中心に~ 中田勇介(M1) 千葉大学大学院 融合理工学府 荒井研究室 2017/9/05
RLアーキテクチャ勉強会
2.
発表の内容 はじめに 2 逆強化学習ににおける三つの課題を扱う. 1. エキスパートが訪れていない状態の報酬を推定 • 報酬の関数近似 2.
解の曖昧さへの対処(凸最適化問題として定式化) • 最大エントロピーの原理による定式化(Maximum Entropy IRL) • 相対エントロピー最小化による定式化(Relative Entropy IRL) 3. 試行錯誤の削減 • 重要サンプリングで報酬の更新式に含まれる分配関数を推定
3.
発表の構成 はじめに 3 1. IRLによる報酬関数の推定 • 線形関数の推定 •
非線形関数の推定 2. 最大エントロピーの原理による解の曖昧さへの対処 • Maximum Entropy IRL(線形関数) • Maximum Entropy Deep IRL(非線形関数) 3. 重要サンプリングによる分配関数Z(θ)の推定 • Relative Entropy IRL(線形関数,相対エントロピー最小化) • Guided Cost Learning(非線形関数,Maximum Entropy)
4.
マルコフ決定過程 1. IRLによる報酬関数の推定 4 マルコフ決定過程 状態集合 行動集合 遷移確率 割引率 報酬関数
5.
逆強化学習(IRL) 1. IRLによる報酬関数の推定 5 目的 エキスパートの意思決定系列を所与として エキスパートの方策が最適方策となる報酬rを推定 Input Output
Expert’s reward 報酬以外の環境の情報 エキスパートの意思決定系列(軌跡) エキスパートの報酬関数 ある報酬の元で最適なエージェント
6.
報酬関数の推定 1. IRLによる報酬関数の推定 6 1. 全状態でのエキスパートの情報が得られないことも. 2.
一部の状態の情報を元に全状態の報酬を推定したい. 3. 報酬を関数近似し全状態での報酬を推定.
7.
報酬関数の推定 1. IRLによる報酬関数の推定 7 𝑘個の特徴量を持つ特徴ベクトル
𝜙 = 𝜙1, … , 𝜙 𝑘 ⊤ 𝜙: 𝑆 → ℝ 𝑘 状態空間を𝑘次元実数空間に写像 特徴量は速度や座標など状態を表す情報 特徴ベクトルが近い状態は報酬も近いと仮定 報酬r を特徴ベクトルとパラメータの関数で表す.
8.
Function Limit Linear Nonlinear
× BNP-FIRL Only Piecewise constant functions GPIRL Computational complexity Neural Net 報酬関数の例 1. IRLによる報酬関数の推定 8
9.
推定した報酬が満たすべき条件(線形) 1. IRLによる報酬関数の推定 9 ある軌跡で得られる報酬 ある方策で得られる報酬の期待値 特徴期待ベクトル
が等しい方策は報酬の期待値も等しい
10.
推定した報酬が満たすべき条件(線形) 1. IRLによる報酬関数の推定 10 最適方策が エキスパートの方策
となる報酬を推定 推定した報酬の元での最適方策は次の条件を満たす. • と の報酬の期待値が一致 • と の特徴期待ベクトルが一致 上式を満たす軌跡の分布になる報酬を見つければ良い. しかし,上式満たす軌跡の分布は複数存在する.(報酬も複数) どのような軌跡の分布が良いだろうか?
11.
最大エントロピーの原理の考え方 2. 最大エントロピーの原理による解の曖昧さへの対処 11 条件を満たす確率分布が複数存在するが一つを選びたい. 確率分布が満たす条件を知っている. 確率分布については,それが満たす条件しか知らない. 条件以外の情報をできるだけ含まない確率分布を選ぶ! エントロピーが最大
12.
Maximum Entropy IRL 2.
最大エントロピーの原理による解の曖昧さへの対処 12 条件1:特徴期待値が一致 条件2, 3 :Pは確率 条件4 : 軌跡は離散 エントロピー最大化 意味 数式
13.
Maximum Entropy IRL 2.
最大エントロピーの原理による解の曖昧さへの対処 13 ラグランジュの未定乗数法で解くと次式が得られる. 軌跡が得られる確率は報酬の大きさに指数比例 この式に基づき に対して尤度最大化
14.
Maximum Entropy IRL 2.
最大エントロピーの原理による解の曖昧さへの対処 14 対数尤度を勾配法で最大化 エキスパートと比較して 特徴期待値:小 → 重み:大きく更新 特徴期待値:大 → 重み:小さく更新 勾配の意味
15.
Maximum Entropy IRL 2.
最大エントロピーの原理による解の曖昧さへの対処 15 勾配の計算方法 : から計算 : を更新するごとにDP or RLを行い計算
16.
Deep Maximum Entropy
IRL 2. 最大エントロピーの原理による解の曖昧さへの対処 16 対数尤度を勾配法で最大化 エキスパートと比較して 状態を訪れる頻度:小 → 重み:報酬を大きく更新 状態を訪れる頻度:大 → 重み:報酬を小さく更新 勾配の意味 エキスパートが状態を訪れる頻度 θの元で状態を訪れる頻度
17.
Deep Maximum Entropy
IRL 2. 最大エントロピーの原理による解の曖昧さへの対処 17 勾配の計算方法 : から計算 : を更新するごとにDP or RLを行い計算
18.
Deep Maximum Entropy
IRL 2. 最大エントロピーの原理による解の曖昧さへの対処 18 勾配の計算方法 : から計算 : を更新するごとにDP or RLを行い計算 めちゃくちゃ大変!!!!!!
19.
Relative Entropy IRL 3.
重要サンプリングによる分配関数の推定 19 DPやRLが必要なのは下の二つを計算したいから. θに対する最適方策を使わずに上式を求めたい 最適方策が必要なければ試行錯誤が格段に減る!! 少し異なる問題設定を考える.
20.
エキスパートの軌跡の分布 との相対エントロピーを最小化 Relative Entropy IRL 3.
重要サンプリングによる分配関数の推定 20 条件1:特徴期待値が一致 条件2, 3 :Pは確率 条件4 : 軌跡は離散 意味 数式 ※簡単のためMaxEntに合わせて条件1を改変
21.
Relative Entropy IRL 3.
重要サンプリングによる分配関数の推定 21 ラグランジュの未定乗数法で解くと次式が得られる. 軌跡が得られる確率: に指数比例, に比例 この式に基づき に対して尤度最大化
22.
Relative Entropy IRL 3.
重要サンプリングによる分配関数の推定 22 Relative Entropy IRL Maximum Entropy IRL
23.
Relative Entropy IRL 3.
重要サンプリングによる分配関数の推定 23 Zさえ近似できれば計算できる. ※Q(ζ)が求まるかはここでは考えない 重要サンプリングを用いれば上式も求まる.
24.
Relative Entropy IRL 3.
重要サンプリングによる分配関数の推定 24 重要サンプリングを使う
25.
※ここでの はエキスパートの軌跡を元にした結合確率 Relative Entropy
IRL 3. 重要サンプリングによる分配関数の推定 25 ある軌跡が得られる確率 = 初期状態分布×方策×状態遷移確率×方策... H : 軌跡のステップ数
26.
Relative Entropy IRL 3.
重要サンプリングによる分配関数の推定 26 同じ環境で試行錯誤している→状態遷移確率が同じなので打ち消しあう Zが求まる!!! ・軌跡をサンプリングする方策はランダム方策でも良い. ・報酬を更新する毎に最適方策を求める必要もない. ・状態遷移確率が分からなくても良い(モデルフリー)
27.
Relative Entropy IRL 3.
重要サンプリングによる分配関数の推定 27
28.
Guided Cost Learning 3.
重要サンプリングによる分配関数の推定 28 Maximum Entropy IRLの問題設定でZを近似 Relative Entropy IRLでは状態遷移確率が消えた Maximum Entropy IRLでは状態遷移確率が消えない 状態遷移確率を近似してP(ζ)を求める
29.
Guided Cost Learning 3.
重要サンプリングによる分配関数の推定 29 近似した状態遷移確率の元で最適な軌跡を生成 Guided Policy Searchを用いる 軌跡の分布が次式を満たすため近似精度が良い サンプル数が少なくて済む.
30.
Guided Cost Learning 3.
重要サンプリングによる分配関数の推定 30 少ないサンプル数で高い成功率
31.
その他のIRL 31 IOC with Linearly-Solvable
MDPs [Dvijotham 10] モデルフリー,線形可解MDP Deep IRL by Logistic Regression [Uchibe 16] モデルフリー,線形可解MDP,非線形報酬関数 Generative Adversarial Imitation Learning [Ho 16] モデルフリー,模倣学習,MaxEnt IRLと同じ方策 End-to-End Differentiable Adversarial Imitation Learning [Baram 17] 状態遷移確率を学習し分散を減らすGAIL
32.
1. 2. 3.
4. 5. 32
Editor's Notes
質問
Download now