SlideShare a Scribd company logo
A Connection Between Generative Adversarial
Networks, Inverse Reinforcement Learning, and
Energy-Based Models
Chelsea Finn1, Paul Christiano1, Pieter Abbeel1, Sergey Levine1
@NIPS読み会・関西
2017/03/18
担当者: 大阪大学 堀井隆斗
1 University of California, Berkeley
• 氏名
– 堀井隆斗 (大阪大学工学研究科 浅田研究室)
• 研究内容:
– 人の情動発達過程のモデル化
– HRIにおける情動コミュニケーション
• 論文選択理由
– 生成モデルの最新動向を知りたい
– 教師なし最高
– 研究内容にかなり関係する
自己紹介
Multimodal Deep
Boltzmann Machine
情動の表現獲得
情動推定 情動表出
1/22
NHK総合 SFリアル#2アトムと暮らす日
• 論文概要
• 各要素紹介
– GAN: Generative Adversarial Network
– EBM: Energy-Based Model
– IRL: Inverse Reinforcement Learning
• GANとIRLの関係
• GANとEBMの関係
• 関連研究
• まとめ
Agenda
2/22
• 論文概要
• 各要素紹介
– GAN: Generative Adversarial Network
– EBM: Energy-Based Model
– IRL: Inverse Reinforcement Learning
• GANとIRLの関係
• GANとEBMの関係
• 関連研究
• まとめ
Agenda
• 目的
– GAN,IRL,EBMの3つのモデルの関係を数学的に示すことでそれぞれ
の分野の研究者がより安定的でスケーラビリティのあるアルゴリズ
ムを提案できるよう示唆を与える
• キーアイディア
– GANとエントロピー最大化IRLが数学的に等価であることを示す
– エントロピー最大化IRLがEBMの1つのモデルであることから,GAN
とEBMの関係性を示す
論文概要
3/22
いめーじ
GAN
4/22
いめーじ
GAN EBM
4/22
いめーじ
GAN IRL EBM
4/22
いめーじ
GAN IRL EBM
生成器の確率密度が
評価できるモデル
Maximum entropy IRL
(MaxEnt IRL)
guided cost learning
コスト関数や報酬関数
の学習の面で共通
4/22
いめーじ
GAN IRL EBM
生成器の確率密度が
評価できるモデル
Maximum entropy IRL
(MaxEnt IRL)
guided cost learning
コスト関数や報酬関数
の学習の面で共通
MaxEnt IRLがEBMの
1モデルである
4/22
いめーじ
GAN IRL EBM
生成器の確率密度が
評価できるモデル
Maximum entropy IRL
(MaxEnt IRL)
guided cost learning
コスト関数や報酬関数
の学習の面で共通
MaxEnt IRLがEBMの
1モデルである
IRLを通じてGANとEBMをつなぐ
すでに関連研究もある
4/22
• 論文概要
• 各要素紹介
– GAN: Generative Adversarial Network
– EBM: Energy-Based Model
– IRL: Inverse Reinforcement Learning
• GANとIRLの関係
• GANとEBMの関係
• 関連研究
• まとめ
Agenda
• GAN: Generative Adversarial Networks
– Generator(G)とDiscriminator(D)を戦わせて生成精度の向
上を図るモデル
GANとは?
[Goodfellow+, 2014]
Generator(G) Discriminator(D)Data True data
or
Generated data
5/22
• GAN: Generative Adversarial Networks
– Generator(G)とDiscriminator(D)を戦わせて生成精度の向
上を図るモデル
• G: 生成用ベクトル𝒛からデータを生成
• D: 対象データが本物(データセット)か
偽物(Gによって生成)かを識別
GANとは
目的関数
[Goodfellow+, 2014]
データセットのデータ
を「本物」と識別
生成されたデータを「偽物」と識別
6/22
• 識別器 D: 対象がデータセットのデータである確率を出力
GANとは
7/22
𝐷 𝐱 ∈ [0,1] 𝐷 𝐱 = 𝑝 𝐱
𝑝 𝐱 +𝑞 𝐱
𝑝 𝐱 : 実際のデータ分布
𝑞 𝐱 : 生成器の分布
→ 1
2
• 生成器 G: ノイズからデータを生成
– 一般的にCNNが用いられる(ただし分布𝑞 𝐱 が評価できない)
– 今回は分布𝑞 𝐱 が評価できるモデルを想定(自己回帰モデルなど)
損失関数
損失関数
• 論文概要
• 各要素紹介
– GAN: Generative Adversarial Network
– EBM: Energy-Based Model
– IRL: Inverse Reinforcement Learning
• GANとIRLの関係
• GANとEBMの関係
• 関連研究
• まとめ
Agenda
• EBM: Energy-Based Model
– データ分布がエネルギー関数𝐸 𝜃(𝐱)によるボルツマン分布
で表現されるモデル (e.g., RBM)
– 𝑍: 分配関数を推定するのが主な課題
• 𝑍 = 𝑝 𝜃(𝐱) d𝐱 ←積分や総和ができない場合が多い
• 分布𝑝 𝜃(𝐱)からMCMCなどによるサンプリングで近似
EBMとは
8/22
データ分布
エネルギー 𝐸 𝜃 𝐱
𝑝 𝜃 𝐱
エネルギーの低いデータほど高確率で出現
• 論文概要
• 各要素紹介
– GAN: Generative Adversarial Network
– EBM: Energy-Based Model
– IRL: Inverse Reinforcement Learning
• GANとIRLの関係
• GANとEBMの関係
• 関連研究
• まとめ
Agenda
• IRL: Inverse Reinforcement Learning
– 強化学習: 報酬関数を基に最適な
行動方策を推定する
• 報酬関数の決め方が難しい
IRLとは
9/22
– 逆強化学習: 目標となる行動から
報酬関数を推定しさらに方策を推定
• ロボットの模倣学習などで利用される
• Maximum entropy IRL (MaxEnt IRL)
– 「最適な軌道は最も尤度が高く準最適軌道は指数関数的
に生起確率が減少する」と仮定
IRLとは
10/22
𝜏 = {𝐱1, 𝐮1, ⋯ , 𝐱 𝑡, 𝐮 𝑡} 𝑐 𝜃 𝜏 =
𝑡
𝑐 𝜃(𝐱 𝑡, 𝐮 𝑡)
– 目標軌道𝜏がコスト関数𝑐 𝜃(𝜏)のボルツマン分布に従う
軌道の分布
最適軌道はコスト(エネルギー)が低い
エネルギー: 低 = エントロピー: 大
やはり分配関数𝑍を推定することは困難
特に𝑝 𝜃(𝐱 𝑡+1|𝐱 𝑡, 𝐮 𝑡)が未知の時は不可能
[Ng and Russell, 2000]
• Guided cost learning
– 分配関数を推定するためのサンプリング手法
– 新規分布𝑞(𝜏)の学習と重点サンプリングにより推定
IRLとは
11/22
[Finn+, 2016]
– Guided cost learningでは𝑐 𝜃(𝜏)の最適化と𝑞(𝜏)の最適化
を交互に行う
• Guided cost learning
– 最適な分布𝑞(𝜏)は
• KL最小化,またはコスト最小化とエントロピー最大化により最適化
IRLとは
12/22
[Finn+, 2016]
– 分布𝑞(𝜏)のイマイチ具合を考慮して他の分布と混合する
• ここでは𝜇 =
1
2
𝑝 +
1
2
𝑞
• 𝑝(𝜏)は現在までの推定値を利用 or 他の推定方法で作る
• 論文概要
• 各要素紹介
– GAN: Generative Adversarial Network
– EBM: Energy-Based Model
– IRL: Inverse Reinforcement Learning
• GANとIRLの関係
• GANとEBMの関係
• 関連研究
• まとめ
Agenda
• GANとIRLの等価性を数式で示す
– まずはGANの識別器を変形
• 生成器の密度𝑞(𝜏)を利用して識別器を書き下す
• 実データ分布𝑝(𝜏)をコスト関数を利用して書き直す
GANとIRLの関係
13/22
[Goodfellow+, 2014]
→ 普通のGANはこの𝐷(𝜏)の値をNNなどで直接推定
• GANとIRLの等価性を数式で示す
– 損失関数を見直す
GANとIRLの関係
14/22
GAN識別器の損失関数
MaxEnt IRLのコスト関数の損失関数
次の3つの方法で等価性を示す
1. 識別器の損失関数を最小化する𝑍がGCLの重点サンプリング推定器である
2. 識別器の損失関数の𝜃での導関数がMaxEnt IRLの損失関数の導関数となる
3. 生成器の損失関数がMaxEnt IRLのサンプラーの損失関数となる
– 損失関数を書き下す
GANとIRLの関係
15/22
– 𝑍での最小化は
MaxEnt IRLでのGCLによるサンプリングに対応 ↑
1. 識別器の損失関数を最小化する𝑍がGCLの重点サンプリング推定器である
– 識別器の損失関数をパラメータ𝜃で偏微分
GANとIRLの関係
16/22
2. 識別器の損失関数の𝜃での導関数がMaxEnt IRLの損失関数の導関数となる
– MaxEnt IRLの目的関数をパラメータ𝜃で偏微分
→ 最適な識別器の学習は実データをよく表すコスト関数の学習と同義
– 生成器の損失関数を で書き直す
GANとIRLの関係
17/22
3. 生成器の損失関数がMaxEnt IRLのサンプラーの損失関数となる
→ GANで生成器の最適化はIRLで方策の最適化に対応
• ここまでをまとめると
– MaxEnt IRLとGANは異なるモデルであったが
• GANの生成器の確率密度𝑞(𝜏)を利用して識別器を書き直す
• GANがMaxEnt IRLに対するサンプリング手法とみなせる
• うれしさ?
– IRLで𝑞(𝜏)が評価できるのであれば直接最大化すればよい?
• IRL研究者は尤度最大化が複雑な行動学習に常によいとは考えていな
い(らしい)
• GAN学習を適応することでサンプリングの質改善につながりそう
GANとIRLの関係
18/22
• 論文概要
• 各要素紹介
– GAN: Generative Adversarial Network
– EBM: Energy-Based Model
– IRL: Inverse Reinforcement Learning
• GANとIRLの関係
• GANとEBMの関係
• 関連研究
• まとめ
Agenda
いめーじ
GAN IRL EBM
生成器の確率密度が
評価できるモデル
Maximum entropy IRL
(MaxEnt IRL)
guided cost learning
コスト関数や報酬関数
の学習の面で共通
MaxEnt IRLがEBMの
1モデルである
IRLを通じてGANとEBMをつなぐ
すでに関連研究もある
19/22
• EBMでも分配関数の推定が大きな問題
– IRLのGCLと同様にGANによるサンプリングを考える
• 実は先行研究あり
• 先行研究では生成器の確率密度𝑞(𝐱)を推定
できると仮定しないので推定量に偏りがある
– GAN→IRLと同様に考えると
GANとEBMの関係
20/22
[Kim and Bengio, 2016] [Zhao+, 2016]
𝑍の不変推定量
| |
識別器D
σ 𝐸 𝜃 𝐱 − log𝑞(𝐱)
↑ 生成データのエネルギー
に基づいて識別
• 論文概要
• 各要素紹介
– GAN: Generative Adversarial Network
– EBM: Energy-Based Model
– IRL: Inverse Reinforcement Learning
• GANとIRLの関係
• GANとEBMの関係
• 関連研究
• まとめ
Agenda
• GAIL: Generative Adversarial Imitation Learning
関連研究
21/22
[Ho and Ermon, 2016]
[https://speakerdeck.com/takoika/lun-wen-shao-jie-generative-adversarial-imitation-learning]
• 論文概要
• 各要素紹介
– GAN: Generative Adversarial Network
– EBM: Energy-Based Model
– IRL: Inverse Reinforcement Learning
• GANとIRLの関係
• GANとEBMの関係
• 関連研究
• まとめ
Agenda
• この論文では:
– GANとMaxEnt IRLで利用されるguided cost learningの等価性を示した
– 導入として生成器の尤度を利用する識別器を用いて基本的な
エネルギー関数の不変推定量を導いた
– EBMの学習に対しGANを用いた新しい手法を提案した
• 今後の課題:
– 自己回帰モデルや可逆変換(invertible transformations)を用いたモデル
のように確率密度を与える生成器を利用した実験
まとめ
22/22
[Goodfellow+, 2014] Ian J. Goodfellow, Jean Pouget-Abadiey, Mehdi Mirza, Bing Xu, David Warde-Farley,
Sherjil Ozairz, Aaron Courville and Yoshua Bengio, Generative Adversarial
Nets,NIPS2014
[Ng and Russell, 2000] Andrew Y. Ng and Stuart Russell, Algorithms for inverse reinforcement learning,
ICML2000
[Finn+, 2016] Chelsea Finn, Sergey Levine and Pieter Abbeel, Guided Cost Learning: Deep Inverse
Optimal Control via Policy Optimization, ICML2016
[Kim and Bengio, 2016] Taesup Kim and Yoshua Bengio, Deep directed generative models with energy-
based probability estimation, ICLR2016 Workshop Track
[Zhao+, 2016] Junbo Zhao, Michael Mathieu and YannLeCun, Energy-based generative adversarial
network, arXiv:1609.03126
[Ho and Ermon, 2016] Jonathan Ho and Stefano Ermon, Generative adversarial imitation learning,
NIPS2016
GAIL紹介資料: https://speakerdeck.com/takoika/lun-wen-shao-jie-generative-adversarial-imitation-
learning
参考文献

More Related Content

What's hot

[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
Deep Learning JP
 
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
Deep Learning JP
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki
 
報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習
Yusuke Nakata
 
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系についてMaximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Yusuke Nakata
 
Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習
Plot Hong
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習
Tsubasa Hirakawa
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
 
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
京都大学大学院情報学研究科数理工学専攻
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
[DL輪読会]Neuroscience-Inspired Artificial Intelligence
[DL輪読会]Neuroscience-Inspired Artificial Intelligence[DL輪読会]Neuroscience-Inspired Artificial Intelligence
[DL輪読会]Neuroscience-Inspired Artificial Intelligence
Deep Learning JP
 
MixMatch: A Holistic Approach to Semi- Supervised Learning
MixMatch: A Holistic Approach to Semi- Supervised LearningMixMatch: A Holistic Approach to Semi- Supervised Learning
MixMatch: A Holistic Approach to Semi- Supervised Learning
harmonylab
 
[DL輪読会]Inverse Constrained Reinforcement Learning
[DL輪読会]Inverse Constrained Reinforcement Learning[DL輪読会]Inverse Constrained Reinforcement Learning
[DL輪読会]Inverse Constrained Reinforcement Learning
Deep Learning JP
 
[DL輪読会]Active Domain Randomization
[DL輪読会]Active Domain Randomization[DL輪読会]Active Domain Randomization
[DL輪読会]Active Domain Randomization
Deep Learning JP
 
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
Deep Learning JP
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
Deep Learning JP
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
tmtm otm
 

What's hot (20)

[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
 
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習
 
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系についてMaximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
 
Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習Noisy Labels と戦う深層学習
Noisy Labels と戦う深層学習
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
[DL輪読会]Neuroscience-Inspired Artificial Intelligence
[DL輪読会]Neuroscience-Inspired Artificial Intelligence[DL輪読会]Neuroscience-Inspired Artificial Intelligence
[DL輪読会]Neuroscience-Inspired Artificial Intelligence
 
MixMatch: A Holistic Approach to Semi- Supervised Learning
MixMatch: A Holistic Approach to Semi- Supervised LearningMixMatch: A Holistic Approach to Semi- Supervised Learning
MixMatch: A Holistic Approach to Semi- Supervised Learning
 
[DL輪読会]Inverse Constrained Reinforcement Learning
[DL輪読会]Inverse Constrained Reinforcement Learning[DL輪読会]Inverse Constrained Reinforcement Learning
[DL輪読会]Inverse Constrained Reinforcement Learning
 
[DL輪読会]Active Domain Randomization
[DL輪読会]Active Domain Randomization[DL輪読会]Active Domain Randomization
[DL輪読会]Active Domain Randomization
 
[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
 

Similar to 第3回NIPS読み会・関西発表資料

東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
Preferred Networks
 
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
Eiji Uchibe
 
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
Deep Learning JP
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
Deep Learning JP
 
【DL輪読会】Scaling laws for single-agent reinforcement learning
【DL輪読会】Scaling laws for single-agent reinforcement learning【DL輪読会】Scaling laws for single-agent reinforcement learning
【DL輪読会】Scaling laws for single-agent reinforcement learning
Deep Learning JP
 
[DL Hacks]Adversarial Personalized Ranking for Recommendation
[DL Hacks]Adversarial Personalized Ranking for Recommendation[DL Hacks]Adversarial Personalized Ranking for Recommendation
[DL Hacks]Adversarial Personalized Ranking for Recommendation
Deep Learning JP
 
Diet networks thin parameters for fat genomic
Diet networks thin parameters for fat genomicDiet networks thin parameters for fat genomic
Diet networks thin parameters for fat genomic
Hakky St
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochi
Ohsawa Goodfellow
 
[DL輪読会]Energy-based generative adversarial networks
[DL輪読会]Energy-based generative adversarial networks[DL輪読会]Energy-based generative adversarial networks
[DL輪読会]Energy-based generative adversarial networks
Deep Learning JP
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPKoji Matsuda
 
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
Naoki Hayashi
 
ベイズ最適化によるハイパラーパラメータ探索
ベイズ最適化によるハイパラーパラメータ探索ベイズ最適化によるハイパラーパラメータ探索
ベイズ最適化によるハイパラーパラメータ探索
西岡 賢一郎
 
[DL輪読会]ODT: Online Decision Transformer
[DL輪読会]ODT: Online Decision Transformer[DL輪読会]ODT: Online Decision Transformer
[DL輪読会]ODT: Online Decision Transformer
Deep Learning JP
 
[Dl輪読会]semi supervised learning with context-conditional generative adversari...
[Dl輪読会]semi supervised learning with context-conditional generative adversari...[Dl輪読会]semi supervised learning with context-conditional generative adversari...
[Dl輪読会]semi supervised learning with context-conditional generative adversari...
Deep Learning JP
 

Similar to 第3回NIPS読み会・関西発表資料 (14)

東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
 
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
 
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
【DL輪読会】Scaling laws for single-agent reinforcement learning
【DL輪読会】Scaling laws for single-agent reinforcement learning【DL輪読会】Scaling laws for single-agent reinforcement learning
【DL輪読会】Scaling laws for single-agent reinforcement learning
 
[DL Hacks]Adversarial Personalized Ranking for Recommendation
[DL Hacks]Adversarial Personalized Ranking for Recommendation[DL Hacks]Adversarial Personalized Ranking for Recommendation
[DL Hacks]Adversarial Personalized Ranking for Recommendation
 
Diet networks thin parameters for fat genomic
Diet networks thin parameters for fat genomicDiet networks thin parameters for fat genomic
Diet networks thin parameters for fat genomic
 
Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochi
 
[DL輪読会]Energy-based generative adversarial networks
[DL輪読会]Energy-based generative adversarial networks[DL輪読会]Energy-based generative adversarial networks
[DL輪読会]Energy-based generative adversarial networks
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
 
ベイズ最適化によるハイパラーパラメータ探索
ベイズ最適化によるハイパラーパラメータ探索ベイズ最適化によるハイパラーパラメータ探索
ベイズ最適化によるハイパラーパラメータ探索
 
[DL輪読会]ODT: Online Decision Transformer
[DL輪読会]ODT: Online Decision Transformer[DL輪読会]ODT: Online Decision Transformer
[DL輪読会]ODT: Online Decision Transformer
 
[Dl輪読会]semi supervised learning with context-conditional generative adversari...
[Dl輪読会]semi supervised learning with context-conditional generative adversari...[Dl輪読会]semi supervised learning with context-conditional generative adversari...
[Dl輪読会]semi supervised learning with context-conditional generative adversari...
 

第3回NIPS読み会・関西発表資料

  • 1. A Connection Between Generative Adversarial Networks, Inverse Reinforcement Learning, and Energy-Based Models Chelsea Finn1, Paul Christiano1, Pieter Abbeel1, Sergey Levine1 @NIPS読み会・関西 2017/03/18 担当者: 大阪大学 堀井隆斗 1 University of California, Berkeley
  • 2. • 氏名 – 堀井隆斗 (大阪大学工学研究科 浅田研究室) • 研究内容: – 人の情動発達過程のモデル化 – HRIにおける情動コミュニケーション • 論文選択理由 – 生成モデルの最新動向を知りたい – 教師なし最高 – 研究内容にかなり関係する 自己紹介 Multimodal Deep Boltzmann Machine 情動の表現獲得 情動推定 情動表出 1/22 NHK総合 SFリアル#2アトムと暮らす日
  • 3. • 論文概要 • 各要素紹介 – GAN: Generative Adversarial Network – EBM: Energy-Based Model – IRL: Inverse Reinforcement Learning • GANとIRLの関係 • GANとEBMの関係 • 関連研究 • まとめ Agenda 2/22
  • 4. • 論文概要 • 各要素紹介 – GAN: Generative Adversarial Network – EBM: Energy-Based Model – IRL: Inverse Reinforcement Learning • GANとIRLの関係 • GANとEBMの関係 • 関連研究 • まとめ Agenda
  • 5. • 目的 – GAN,IRL,EBMの3つのモデルの関係を数学的に示すことでそれぞれ の分野の研究者がより安定的でスケーラビリティのあるアルゴリズ ムを提案できるよう示唆を与える • キーアイディア – GANとエントロピー最大化IRLが数学的に等価であることを示す – エントロピー最大化IRLがEBMの1つのモデルであることから,GAN とEBMの関係性を示す 論文概要 3/22
  • 9. いめーじ GAN IRL EBM 生成器の確率密度が 評価できるモデル Maximum entropy IRL (MaxEnt IRL) guided cost learning コスト関数や報酬関数 の学習の面で共通 4/22
  • 10. いめーじ GAN IRL EBM 生成器の確率密度が 評価できるモデル Maximum entropy IRL (MaxEnt IRL) guided cost learning コスト関数や報酬関数 の学習の面で共通 MaxEnt IRLがEBMの 1モデルである 4/22
  • 11. いめーじ GAN IRL EBM 生成器の確率密度が 評価できるモデル Maximum entropy IRL (MaxEnt IRL) guided cost learning コスト関数や報酬関数 の学習の面で共通 MaxEnt IRLがEBMの 1モデルである IRLを通じてGANとEBMをつなぐ すでに関連研究もある 4/22
  • 12. • 論文概要 • 各要素紹介 – GAN: Generative Adversarial Network – EBM: Energy-Based Model – IRL: Inverse Reinforcement Learning • GANとIRLの関係 • GANとEBMの関係 • 関連研究 • まとめ Agenda
  • 13. • GAN: Generative Adversarial Networks – Generator(G)とDiscriminator(D)を戦わせて生成精度の向 上を図るモデル GANとは? [Goodfellow+, 2014] Generator(G) Discriminator(D)Data True data or Generated data 5/22
  • 14. • GAN: Generative Adversarial Networks – Generator(G)とDiscriminator(D)を戦わせて生成精度の向 上を図るモデル • G: 生成用ベクトル𝒛からデータを生成 • D: 対象データが本物(データセット)か 偽物(Gによって生成)かを識別 GANとは 目的関数 [Goodfellow+, 2014] データセットのデータ を「本物」と識別 生成されたデータを「偽物」と識別 6/22
  • 15. • 識別器 D: 対象がデータセットのデータである確率を出力 GANとは 7/22 𝐷 𝐱 ∈ [0,1] 𝐷 𝐱 = 𝑝 𝐱 𝑝 𝐱 +𝑞 𝐱 𝑝 𝐱 : 実際のデータ分布 𝑞 𝐱 : 生成器の分布 → 1 2 • 生成器 G: ノイズからデータを生成 – 一般的にCNNが用いられる(ただし分布𝑞 𝐱 が評価できない) – 今回は分布𝑞 𝐱 が評価できるモデルを想定(自己回帰モデルなど) 損失関数 損失関数
  • 16. • 論文概要 • 各要素紹介 – GAN: Generative Adversarial Network – EBM: Energy-Based Model – IRL: Inverse Reinforcement Learning • GANとIRLの関係 • GANとEBMの関係 • 関連研究 • まとめ Agenda
  • 17. • EBM: Energy-Based Model – データ分布がエネルギー関数𝐸 𝜃(𝐱)によるボルツマン分布 で表現されるモデル (e.g., RBM) – 𝑍: 分配関数を推定するのが主な課題 • 𝑍 = 𝑝 𝜃(𝐱) d𝐱 ←積分や総和ができない場合が多い • 分布𝑝 𝜃(𝐱)からMCMCなどによるサンプリングで近似 EBMとは 8/22 データ分布 エネルギー 𝐸 𝜃 𝐱 𝑝 𝜃 𝐱 エネルギーの低いデータほど高確率で出現
  • 18. • 論文概要 • 各要素紹介 – GAN: Generative Adversarial Network – EBM: Energy-Based Model – IRL: Inverse Reinforcement Learning • GANとIRLの関係 • GANとEBMの関係 • 関連研究 • まとめ Agenda
  • 19. • IRL: Inverse Reinforcement Learning – 強化学習: 報酬関数を基に最適な 行動方策を推定する • 報酬関数の決め方が難しい IRLとは 9/22 – 逆強化学習: 目標となる行動から 報酬関数を推定しさらに方策を推定 • ロボットの模倣学習などで利用される
  • 20. • Maximum entropy IRL (MaxEnt IRL) – 「最適な軌道は最も尤度が高く準最適軌道は指数関数的 に生起確率が減少する」と仮定 IRLとは 10/22 𝜏 = {𝐱1, 𝐮1, ⋯ , 𝐱 𝑡, 𝐮 𝑡} 𝑐 𝜃 𝜏 = 𝑡 𝑐 𝜃(𝐱 𝑡, 𝐮 𝑡) – 目標軌道𝜏がコスト関数𝑐 𝜃(𝜏)のボルツマン分布に従う 軌道の分布 最適軌道はコスト(エネルギー)が低い エネルギー: 低 = エントロピー: 大 やはり分配関数𝑍を推定することは困難 特に𝑝 𝜃(𝐱 𝑡+1|𝐱 𝑡, 𝐮 𝑡)が未知の時は不可能 [Ng and Russell, 2000]
  • 21. • Guided cost learning – 分配関数を推定するためのサンプリング手法 – 新規分布𝑞(𝜏)の学習と重点サンプリングにより推定 IRLとは 11/22 [Finn+, 2016] – Guided cost learningでは𝑐 𝜃(𝜏)の最適化と𝑞(𝜏)の最適化 を交互に行う
  • 22. • Guided cost learning – 最適な分布𝑞(𝜏)は • KL最小化,またはコスト最小化とエントロピー最大化により最適化 IRLとは 12/22 [Finn+, 2016] – 分布𝑞(𝜏)のイマイチ具合を考慮して他の分布と混合する • ここでは𝜇 = 1 2 𝑝 + 1 2 𝑞 • 𝑝(𝜏)は現在までの推定値を利用 or 他の推定方法で作る
  • 23. • 論文概要 • 各要素紹介 – GAN: Generative Adversarial Network – EBM: Energy-Based Model – IRL: Inverse Reinforcement Learning • GANとIRLの関係 • GANとEBMの関係 • 関連研究 • まとめ Agenda
  • 24. • GANとIRLの等価性を数式で示す – まずはGANの識別器を変形 • 生成器の密度𝑞(𝜏)を利用して識別器を書き下す • 実データ分布𝑝(𝜏)をコスト関数を利用して書き直す GANとIRLの関係 13/22 [Goodfellow+, 2014] → 普通のGANはこの𝐷(𝜏)の値をNNなどで直接推定
  • 25. • GANとIRLの等価性を数式で示す – 損失関数を見直す GANとIRLの関係 14/22 GAN識別器の損失関数 MaxEnt IRLのコスト関数の損失関数 次の3つの方法で等価性を示す 1. 識別器の損失関数を最小化する𝑍がGCLの重点サンプリング推定器である 2. 識別器の損失関数の𝜃での導関数がMaxEnt IRLの損失関数の導関数となる 3. 生成器の損失関数がMaxEnt IRLのサンプラーの損失関数となる
  • 26. – 損失関数を書き下す GANとIRLの関係 15/22 – 𝑍での最小化は MaxEnt IRLでのGCLによるサンプリングに対応 ↑ 1. 識別器の損失関数を最小化する𝑍がGCLの重点サンプリング推定器である
  • 27. – 識別器の損失関数をパラメータ𝜃で偏微分 GANとIRLの関係 16/22 2. 識別器の損失関数の𝜃での導関数がMaxEnt IRLの損失関数の導関数となる – MaxEnt IRLの目的関数をパラメータ𝜃で偏微分 → 最適な識別器の学習は実データをよく表すコスト関数の学習と同義
  • 28. – 生成器の損失関数を で書き直す GANとIRLの関係 17/22 3. 生成器の損失関数がMaxEnt IRLのサンプラーの損失関数となる → GANで生成器の最適化はIRLで方策の最適化に対応
  • 29. • ここまでをまとめると – MaxEnt IRLとGANは異なるモデルであったが • GANの生成器の確率密度𝑞(𝜏)を利用して識別器を書き直す • GANがMaxEnt IRLに対するサンプリング手法とみなせる • うれしさ? – IRLで𝑞(𝜏)が評価できるのであれば直接最大化すればよい? • IRL研究者は尤度最大化が複雑な行動学習に常によいとは考えていな い(らしい) • GAN学習を適応することでサンプリングの質改善につながりそう GANとIRLの関係 18/22
  • 30. • 論文概要 • 各要素紹介 – GAN: Generative Adversarial Network – EBM: Energy-Based Model – IRL: Inverse Reinforcement Learning • GANとIRLの関係 • GANとEBMの関係 • 関連研究 • まとめ Agenda
  • 31. いめーじ GAN IRL EBM 生成器の確率密度が 評価できるモデル Maximum entropy IRL (MaxEnt IRL) guided cost learning コスト関数や報酬関数 の学習の面で共通 MaxEnt IRLがEBMの 1モデルである IRLを通じてGANとEBMをつなぐ すでに関連研究もある 19/22
  • 32. • EBMでも分配関数の推定が大きな問題 – IRLのGCLと同様にGANによるサンプリングを考える • 実は先行研究あり • 先行研究では生成器の確率密度𝑞(𝐱)を推定 できると仮定しないので推定量に偏りがある – GAN→IRLと同様に考えると GANとEBMの関係 20/22 [Kim and Bengio, 2016] [Zhao+, 2016] 𝑍の不変推定量 | | 識別器D σ 𝐸 𝜃 𝐱 − log𝑞(𝐱) ↑ 生成データのエネルギー に基づいて識別
  • 33. • 論文概要 • 各要素紹介 – GAN: Generative Adversarial Network – EBM: Energy-Based Model – IRL: Inverse Reinforcement Learning • GANとIRLの関係 • GANとEBMの関係 • 関連研究 • まとめ Agenda
  • 34. • GAIL: Generative Adversarial Imitation Learning 関連研究 21/22 [Ho and Ermon, 2016] [https://speakerdeck.com/takoika/lun-wen-shao-jie-generative-adversarial-imitation-learning]
  • 35. • 論文概要 • 各要素紹介 – GAN: Generative Adversarial Network – EBM: Energy-Based Model – IRL: Inverse Reinforcement Learning • GANとIRLの関係 • GANとEBMの関係 • 関連研究 • まとめ Agenda
  • 36. • この論文では: – GANとMaxEnt IRLで利用されるguided cost learningの等価性を示した – 導入として生成器の尤度を利用する識別器を用いて基本的な エネルギー関数の不変推定量を導いた – EBMの学習に対しGANを用いた新しい手法を提案した • 今後の課題: – 自己回帰モデルや可逆変換(invertible transformations)を用いたモデル のように確率密度を与える生成器を利用した実験 まとめ 22/22
  • 37. [Goodfellow+, 2014] Ian J. Goodfellow, Jean Pouget-Abadiey, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozairz, Aaron Courville and Yoshua Bengio, Generative Adversarial Nets,NIPS2014 [Ng and Russell, 2000] Andrew Y. Ng and Stuart Russell, Algorithms for inverse reinforcement learning, ICML2000 [Finn+, 2016] Chelsea Finn, Sergey Levine and Pieter Abbeel, Guided Cost Learning: Deep Inverse Optimal Control via Policy Optimization, ICML2016 [Kim and Bengio, 2016] Taesup Kim and Yoshua Bengio, Deep directed generative models with energy- based probability estimation, ICLR2016 Workshop Track [Zhao+, 2016] Junbo Zhao, Michael Mathieu and YannLeCun, Energy-based generative adversarial network, arXiv:1609.03126 [Ho and Ermon, 2016] Jonathan Ho and Stefano Ermon, Generative adversarial imitation learning, NIPS2016 GAIL紹介資料: https://speakerdeck.com/takoika/lun-wen-shao-jie-generative-adversarial-imitation- learning 参考文献