第3回NIPS読み会・関西発表資料

A Connection Between Generative Adversarial
Networks, Inverse Reinforcement Learning, and
Energy-Based Models
Chelsea Finn1, Paul Christiano1, Pieter Abbeel1, Sergey Levine1
@NIPS読み会・関西
2017/03/18
担当者: 大阪大学堀井隆斗
1 University of California, Berkeley

• 氏名
– 堀井隆斗 (大阪大学工学研究科浅田研究室)
• 研究内容:
– 人の情動発達過程のモデル化
– HRIにおける情動コミュニケーション
• 論文選択理由
– 生成モデルの最新動向を知りたい
– 教師なし最高
– 研究内容にかなり関係する
自己紹介
Multimodal Deep
Boltzmann Machine
情動の表現獲得
情動推定情動表出
1/22
NHK総合 SFリアル#2アトムと暮らす日

• 論文概要
• 各要素紹介
– GAN: Generative Adversarial Network
– EBM: Energy-Based Model
– IRL: Inverse Reinforcement Learning
• GANとIRLの関係
• GANとEBMの関係
• 関連研究
• まとめ
Agenda
2/22

• 論文概要
• 各要素紹介
– GAN: Generative Adversarial Network
– EBM: Energy-Based Model
– IRL: Inverse Reinforcement Learning
• GANとIRLの関係
• GANとEBMの関係
• 関連研究
• まとめ
Agenda

• 目的
– GAN,IRL,EBMの3つのモデルの関係を数学的に示すことでそれぞれ
の分野の研究者がより安定的でスケーラビリティのあるアルゴリズ
ムを提案できるよう示唆を与える
• キーアイディア
– GANとエントロピー最大化IRLが数学的に等価であることを示す
– エントロピー最大化IRLがEBMの1つのモデルであることから，GAN
とEBMの関係性を示す
論文概要
3/22

いめーじ
GAN IRL EBM
生成器の確率密度が
評価できるモデル
Maximum entropy IRL
(MaxEnt IRL)
guided cost learning
コスト関数や報酬関数
の学習の面で共通
4/22

いめーじ
GAN IRL EBM
Maximum entropy IRL
(MaxEnt IRL)
MaxEnt IRLがEBMの
1モデルである
4/22

いめーじ
GAN IRL EBM
Maximum entropy IRL
(MaxEnt IRL)
MaxEnt IRLがEBMの
1モデルである
IRLを通じてGANとEBMをつなぐ
すでに関連研究もある
4/22

• GAN: Generative Adversarial Networks
– Generator(G)とDiscriminator(D)を戦わせて生成精度の向
上を図るモデル
GANとは?
[Goodfellow+, 2014]
Generator(G) Discriminator(D)Data True data
or
Generated data
5/22

• GAN: Generative Adversarial Networks
– Generator(G)とDiscriminator(D)を戦わせて生成精度の向
上を図るモデル
• G: 生成用ベクトル𝒛からデータを生成
• D: 対象データが本物(データセット)か
偽物(Gによって生成)かを識別
GANとは
目的関数
[Goodfellow+, 2014]
データセットのデータ
を「本物」と識別
生成されたデータを「偽物」と識別
6/22

• 識別器 D: 対象がデータセットのデータである確率を出力
GANとは
7/22
𝐷 𝐱 ∈ [0,1] 𝐷 𝐱 = 𝑝 𝐱
𝑝 𝐱 +𝑞 𝐱
𝑝 𝐱 : 実際のデータ分布
𝑞 𝐱 : 生成器の分布
→ 1
2
• 生成器 G: ノイズからデータを生成
– 一般的にCNNが用いられる(ただし分布𝑞 𝐱 が評価できない)
– 今回は分布𝑞 𝐱 が評価できるモデルを想定(自己回帰モデルなど)
損失関数
損失関数

• EBM: Energy-Based Model
– データ分布がエネルギー関数𝐸 𝜃(𝐱)によるボルツマン分布
で表現されるモデル (e.g., RBM)
– 𝑍: 分配関数を推定するのが主な課題
• 𝑍 = 𝑝 𝜃(𝐱) d𝐱 ←積分や総和ができない場合が多い
• 分布𝑝 𝜃(𝐱)からMCMCなどによるサンプリングで近似
EBMとは
8/22
データ分布
エネルギー 𝐸 𝜃 𝐱
𝑝 𝜃 𝐱
エネルギーの低いデータほど高確率で出現

• IRL: Inverse Reinforcement Learning
– 強化学習: 報酬関数を基に最適な
行動方策を推定する
• 報酬関数の決め方が難しい
IRLとは
9/22
– 逆強化学習: 目標となる行動から
報酬関数を推定しさらに方策を推定
• ロボットの模倣学習などで利用される

• Maximum entropy IRL (MaxEnt IRL)
– 「最適な軌道は最も尤度が高く準最適軌道は指数関数的
に生起確率が減少する」と仮定
IRLとは
10/22
𝜏 = {𝐱1, 𝐮1, ⋯ , 𝐱 𝑡, 𝐮 𝑡} 𝑐 𝜃 𝜏 =
𝑡
𝑐 𝜃(𝐱 𝑡, 𝐮 𝑡)
– 目標軌道𝜏がコスト関数𝑐 𝜃(𝜏)のボルツマン分布に従う
軌道の分布
最適軌道はコスト(エネルギー)が低い
エネルギー: 低 = エントロピー: 大
やはり分配関数𝑍を推定することは困難
特に𝑝 𝜃(𝐱 𝑡+1|𝐱 𝑡, 𝐮 𝑡)が未知の時は不可能
[Ng and Russell, 2000]

• Guided cost learning
– 分配関数を推定するためのサンプリング手法
– 新規分布𝑞(𝜏)の学習と重点サンプリングにより推定
IRLとは
11/22
[Finn+, 2016]
– Guided cost learningでは𝑐 𝜃(𝜏)の最適化と𝑞(𝜏)の最適化
を交互に行う

• Guided cost learning
– 最適な分布𝑞(𝜏)は
• KL最小化，またはコスト最小化とエントロピー最大化により最適化
IRLとは
12/22
[Finn+, 2016]
– 分布𝑞(𝜏)のイマイチ具合を考慮して他の分布と混合する
• ここでは𝜇 =
1
2
𝑝 +
1
2
𝑞
• 𝑝(𝜏)は現在までの推定値を利用 or 他の推定方法で作る

• GANとIRLの等価性を数式で示す
– まずはGANの識別器を変形
• 生成器の密度𝑞(𝜏)を利用して識別器を書き下す
• 実データ分布𝑝(𝜏)をコスト関数を利用して書き直す
GANとIRLの関係
13/22
[Goodfellow+, 2014]
→ 普通のGANはこの𝐷(𝜏)の値をNNなどで直接推定

• GANとIRLの等価性を数式で示す
– 損失関数を見直す
GANとIRLの関係
14/22
GAN識別器の損失関数
MaxEnt IRLのコスト関数の損失関数
次の3つの方法で等価性を示す
1. 識別器の損失関数を最小化する𝑍がGCLの重点サンプリング推定器である
2. 識別器の損失関数の𝜃での導関数がMaxEnt IRLの損失関数の導関数となる
3. 生成器の損失関数がMaxEnt IRLのサンプラーの損失関数となる

– 損失関数を書き下す
GANとIRLの関係
15/22
– 𝑍での最小化は
MaxEnt IRLでのGCLによるサンプリングに対応 ↑
1. 識別器の損失関数を最小化する𝑍がGCLの重点サンプリング推定器である

– 識別器の損失関数をパラメータ𝜃で偏微分
GANとIRLの関係
16/22
2. 識別器の損失関数の𝜃での導関数がMaxEnt IRLの損失関数の導関数となる
– MaxEnt IRLの目的関数をパラメータ𝜃で偏微分
→ 最適な識別器の学習は実データをよく表すコスト関数の学習と同義

– 生成器の損失関数をで書き直す
GANとIRLの関係
17/22
3. 生成器の損失関数がMaxEnt IRLのサンプラーの損失関数となる
→ GANで生成器の最適化はIRLで方策の最適化に対応

• ここまでをまとめると
– MaxEnt IRLとGANは異なるモデルであったが
• GANの生成器の確率密度𝑞(𝜏)を利用して識別器を書き直す
• GANがMaxEnt IRLに対するサンプリング手法とみなせる
• うれしさ?
– IRLで𝑞(𝜏)が評価できるのであれば直接最大化すればよい?
• IRL研究者は尤度最大化が複雑な行動学習に常によいとは考えていな
い(らしい)
• GAN学習を適応することでサンプリングの質改善につながりそう
GANとIRLの関係
18/22

いめーじ
GAN IRL EBM
Maximum entropy IRL
(MaxEnt IRL)
MaxEnt IRLがEBMの
1モデルである
IRLを通じてGANとEBMをつなぐ
すでに関連研究もある
19/22

• EBMでも分配関数の推定が大きな問題
– IRLのGCLと同様にGANによるサンプリングを考える
• 実は先行研究あり
• 先行研究では生成器の確率密度𝑞(𝐱)を推定
できると仮定しないので推定量に偏りがある
– GAN→IRLと同様に考えると
GANとEBMの関係
20/22
[Kim and Bengio, 2016] [Zhao+, 2016]
𝑍の不変推定量
| |
識別器D
σ 𝐸 𝜃 𝐱 − log𝑞(𝐱)
↑ 生成データのエネルギー
に基づいて識別

• GAIL: Generative Adversarial Imitation Learning
関連研究
21/22
[Ho and Ermon, 2016]
[https://speakerdeck.com/takoika/lun-wen-shao-jie-generative-adversarial-imitation-learning]

• この論文では:
– GANとMaxEnt IRLで利用されるguided cost learningの等価性を示した
– 導入として生成器の尤度を利用する識別器を用いて基本的な
エネルギー関数の不変推定量を導いた
– EBMの学習に対しGANを用いた新しい手法を提案した
• 今後の課題:
– 自己回帰モデルや可逆変換(invertible transformations)を用いたモデル
のように確率密度を与える生成器を利用した実験
まとめ
22/22

[Goodfellow+, 2014] Ian J. Goodfellow, Jean Pouget-Abadiey, Mehdi Mirza, Bing Xu, David Warde-Farley,
Sherjil Ozairz, Aaron Courville and Yoshua Bengio, Generative Adversarial
Nets,NIPS2014
[Ng and Russell, 2000] Andrew Y. Ng and Stuart Russell, Algorithms for inverse reinforcement learning,
ICML2000
[Finn+, 2016] Chelsea Finn, Sergey Levine and Pieter Abbeel, Guided Cost Learning: Deep Inverse
Optimal Control via Policy Optimization, ICML2016
[Kim and Bengio, 2016] Taesup Kim and Yoshua Bengio, Deep directed generative models with energy-
based probability estimation, ICLR2016 Workshop Track
[Zhao+, 2016] Junbo Zhao, Michael Mathieu and YannLeCun, Energy-based generative adversarial
network, arXiv:1609.03126
[Ho and Ermon, 2016] Jonathan Ho and Stefano Ermon, Generative adversarial imitation learning,
NIPS2016
GAIL紹介資料: https://speakerdeck.com/takoika/lun-wen-shao-jie-generative-adversarial-imitation-
learning
参考文献

第3回NIPS読み会・関西発表資料

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 第3回NIPS読み会・関西発表資料

Similar to 第3回NIPS読み会・関西発表資料 (14)

第3回NIPS読み会・関西発表資料