Deep Learning 勉強会 (Chapter 7-12)

Representation Learning: A Review and New
Perspectives
Y. Bengio, A. Courville and P, Vincent, 2012

2012/12/14(金) Deep Learning 勉強会

東京大学大学院工学系研究科技術経営戦略学専攻
大澤昇平

ADGENDA

• 7. Direct Encoding: Learning a Parametric Map from
Input to Representation

• 8. Representation Learning as Manifold Learning
• 9. Connections between Probabilistic and Direct
Encoding Models

• 10. Global Training of Deep Models

• 11. Building-in Invariance
• 12. Conclusion

1

ADGENDA


Encoding Models


• 12. Conclusion

2

7. Direct Encoding: Learning a Parametric Map from Input to Representation
Non-probabilistic feature learning paradigm
• Section 6 では、学習された表現は、ある潜在変数の事後確率に基づくものであった(probabilistic feature learning)
• 潜在変数の事後確率は、それ自体では特徴ベクトルにはならない
• 特徴ベクトルベースの分類器(e.g. SVM)に入れられない
• 実際の特徴ベクトルは分布から導出される（期待値、marginal probability、最尤値）
• このような事後確率は、モデルが相互に接続された層を持つ場合、しばしば複雑になりうる
• そのため、サンプリングや近似推論の技術が用いられる

• 最終的に得られるアウトプットが特徴ベクトルなのであれば、事後確率を導出する手順を省略することで、より効率的な計算が可能
なのではないか
•  Non-probabilistic feature learning (e.g. auto-encoder）

Probabilistic Feature Learning (e.g. sparse coding) Non-probabilistic Feature Learning (e.g. auto-encoder)

Observed Observed

Latent Latent

0.257 0.257
Feature Vector Feature Vector
Prior (complicated)

3

Auto-encoder
• Auto-encoder framework [Lecaum 1987][Bourland 1988][Hinton 1994] : unsupervised feature
construction method の一つ。
• auto-: 「自己の」 auto-encoder を直訳すると自己符号器
• encoder, decoder, reconstruction error の 3 つの要素から構成。
• encoder と decoder の合成写像が入力値を再現するような学習を行う。
• 学習は入力値と出力値の誤差(reconstruction error)を最小化することで行われる。
• この操作によって、入力値をより適切な表現に写像する auto-encoder が得られる。

𝑇
𝑡 𝑡
𝜃 = argmin 𝒥DAE (𝜃) = argmin 𝐿 𝑥 , 𝑔 𝜃 𝑓𝜃 𝑥
𝜃 𝜃
Reconstruction 𝑡=1
t-th Input Output
Vector Encoder Representation Vector Decoder Vector

𝑥 (𝑡) 𝑓𝜃 𝑕(𝑡) 𝑔𝜃 𝑟 (𝑡)

Reconstruction Error

𝐿

4

An instance of auto-encoder: identical function
• 恒等写像は最も trivial な auto-encoder

Input Representation Output
Encoder Decoder

𝑥 (1) 𝑥 (1) 𝑥 (1)

𝑥 (2) 𝑥 (2) 𝑥 (2)
id id

𝑥 (𝑇) 𝑥 (𝑇) 𝑥 (𝑇)

𝐿
=0
Representation が入力ベクトルと同じなため、入力ベクトルの適切な表現を得るという目的は果たせていない

5

An instance of auto-encoder: affine mapping
• エンコーダとデコーダをアフィン写像( 𝑏, 𝑊 , *𝑑, 𝑊′+) + 活性関数(𝑠 𝑓 , 𝑠 𝑔 )によって構築
• 入力空間が非有界の場合
• 𝑠 𝑓 = 𝑠 𝑔 = id, 𝐿 𝑥, 𝑟 = 𝑥 − 𝑟 2 主成分分析と等価
• 入力空間が [0,1] の場合
• 𝑠 𝑓 = 𝑠 𝑔 = sigmoid, 𝐿 𝑥, 𝑟 = 𝑥 − 𝑟 2
• 入力空間が {0,1} の場合
• 𝑠 𝑓 = 𝑠 𝑔 = sigmoid, 𝐿 𝑥, 𝑟 = − 𝑥 𝑖 log 𝑟𝑖 + 1 − 𝑟𝑖 log(1 − 𝑟𝑖 ) （交差エントロピー）

Input Output
Encoder Representation Decoder
𝑥 (1) 𝑟 (1)
𝑕(1)
𝑥 (2) 𝑕(2) 𝑟 (2)

𝑕(𝑑ℎ )
𝑥 (𝑑 𝑥 ) 𝑟 (𝑑 𝑥 )
Bottleneck: 𝑑 𝑕 < 𝑑 𝑥
Overcomplete: 𝑑 𝑕 > 𝑑 𝑥
𝐿
6

Regularized auto-encoders
• ここでは、auto-encoders に対して正規化を行った亜種について紹介

• Sparse auto-encoders
• Denoising auto-encoders (DAE)
• Contractive auto-encoders (CAE)
• Predictive sparse decomposition (PSD)

7

Sparse auto-encoders
• single-layer auto-encoders を積み上げることにより deep architecture を構築する方法[Bengio 2007]
• エンコーダとデコーダの重みを一緒にする
• 疎性正規化(sparsity regularization)を行なう[Ranzato 2007]

• 疎性を実現する方法はいくつか提案されている
• 隠れユニットのバイアスにペナルティを掛ける[Ranzato 2007][Lee 2008][Goodfellow 2009][Larochelle
2008]
• バイアスにペナルティを掛けるのは、重みがバイアスを打ち消し、パラメータの数値最適化に悪影響
を与える(?)
• あまり良くないらしいです
• 隠れユニットの出力に直接ペナルティを掛ける[Ranzato 2008][Le 2011a][Zou 2011]
• いくつかの亜種が存在しているが、それらを比較実験した論文は存在しない
• 最も自然なのは L1 ペナルティ（𝑕 𝑗 の総和）。
• sparse auto-encoders の論文にはあまり使われてない
• Student-t ペナルティ log(1 + 𝑕2 ) [Olshausen 1997]
𝑗
• 平均出力 𝑕 𝑗
• 隠れユニットが 1 を出力する確率に該当
• 𝑕 𝑗 を目標値に近づける
• 確率 𝜌 の 2 項分布との KL ダイバージェンスをペナルティに
− 𝜌 log 𝑕 𝑗 − 1 − 𝜌 log(1 − 𝑕 𝑗 )
• 𝜌 はたとえば 0.05 くらい

8

Denoising auto-encoders
• [Vincent 2008][Vincent 2010] では、auto-encoder の目的関数を、単なる自己再構築から、人工的に加えら
れたノイズを除去するものへと変更している（i.e. 元入力を、改悪データから再構築するように学習する）
• 恒等写像を学習するだけでは不十分
• 学習器は、元入力の分布の構造を、データの改悪プロセスを修復するように捉えなければならない
• 再構築は、改悪された入力に近く、しかし分布が密になるように行われる必要がある

• 入力の改悪の確率分布

• 入力の改悪に対する期待値

9

Contractive auto-encoders (CAE) [Rifai 2011a]
• Denoising auto-encoders (DAE) と似たモチベーションの auto-encoder
• Contractive penalty 項を auto-encoder の目的関数に加える
• エンコーダのヤコビ行列のフロベニウスノルム
• 入力の摂動に対する特徴量の感度(sensitivity)にペナルティを与える

contractive penalty
• ただし J はエンコーダのヤコビ行列
• λ は正規化の強さを制御する超パラメータ
• アフィン・シグモイド・エンコーダの場合、contractive penalty は簡単に計算できる

• DAE との違い
• 再構築写像ではなく、特徴量に直接ペナルティを与えている
• ペナルティは確率的よりは解析的
• 超パラメータ λ は、再構築と頑健性の間のトレードオフを細かくコントロールする
• CAE+H [Rifai 2001b]
• CAE に高階導関数へのペナルティを与えるようにしたもの

高階導関数へのペナルティ
10

Predictive sparse decomposition
• Section 6 で説明した sparse coding [Olshausen and Field 1997] は、線形のデコーダと自乗再構築誤差を
用いる auto-encoder と解釈可能
• しかし、ノンパラメトリックなエンコーダ 𝑓 𝜃 は比較的 non-trivial で、目的関数の最小化はコストが高い
• エンコーダの出力 h とデコーダのパラメータ W を反復的に最適化する必要があるため
cf.) sparse coding

• Predictive Sparse Decomposition (PSD) [Kavukcuoglu et al. 2008] は、上記問題を部分的に解決して
いる sparse conding の亜種
• 認識（特徴量の学習）を行なっている間の、コストが高く・非線形なエンコーディングの過程を、非反復的な近
似によって置換
• 画像や動画中の物体認識に応用されている[Kavukcuoglu et al. 2009][Kavukcuoglu et al.
2010][Jarett et al. 2009][Farabet et al. 2011]
• 音声認識[Henaff et al. 2011]
• 以下の目標関数を特徴量 h、パラメータ (W, α) に関して最適化する

スパース性デコーダの誤差エンコーダの誤差

• [Kavukcuoglu et al. 2010] は tanh の代わりに shrinkage operation を利用

11

ADGENDA


Encoding Models


• 12. Conclusion

12

8. Representation Learning as Manifold Learning
Predictive sparse decomposition
• Representation learning の他の重要な視点として、多様体の幾何学的観点に基づくものがある
• 多様体仮説(manifold hypothesis)[Cayton 2005][Marayanan and Mitter 2010]
• 高次元空間 𝐑 𝑑 𝑥 上に配置された実世界のデータは、 𝐑 𝑑 𝑥 に埋め込まれた非常に低い次元 𝑑 𝑀 を持つ多様体 𝑀 の
近くに集中していることが期待される
• “representation” といった瞬間に、学習された representation を反映した多様体を思い浮かべる人は多い
• 多様体上では、接線方向は保存され、法線方向は保存されない
• この視点をもとに、初期の教師なし学習タスクでは、データに基づく多様体の構造をモデル化することが行われてきた
• 学習された representation は、埋め込まれた多様体上における内在的な座標系に対応する
• 典型的な多様体モデリング＝主成分分析
• 主成分分析は、線形多様体をモデリングする
• [Pearson 1901]によって、データの雲に対してもっとも近い線形多様体（直線 or 平面）を探索する目的で提案された
• 主成分分析によって抽出された表現 𝑓 𝜃 は、多様体への射影に対応
• 主成分は、多様体の内在的な座標に対応
• しかし、複雑な実世界のドメインに対する多様体は、強く非線形であることが予想される
• このモデリングは、局所的に線形な接空間を張り合わせることで行われる[Vincent and Bengio 2003][Brand 2003]
• 幾何学的観点に基づくアルゴリズムの多くは、最近傍グラフに基づくノンパラメトリックなアプローチを採用している[Scholkopf
et al 1998][Roweis and Saul 2000][Tenenbaum et al. 2000][Brand 2003][Belkin and Niyogi 2003][Donoho and
Grimes 2003][Weinberger and Saul 2004][Hinton and Roweis 2003][Maaten and Hinton 2008]
• これらのノンパラメトリックなアプローチでは、高次元の学習点は自由な低次元の埋め込まれた座標を持ち、それは近
傍グラフのある特徴を高次元の入力空間でも再現するように行われる
• これらの手法はパレメトライズされた特徴抽出関数 𝑓 𝜃 (𝑥) を直接学習するわけではないので、新しい点には適用でき
ない
• 比較的、非線形多様体をパラメトリックな写像を学習することで直接新しい点の表現を計算できるようにする手法は尐
ない
• 以降では、これにフォーカスする

13

Learning a Parametric Mapping based on a Neighborhood Graph
• ここまで述べた非線形の多様体学習アルゴリズムは、すべて教師データの近傍グラフに基づく
• 学習点の間のユークリッド距離によって導出
• そのうちいくつかは、ノンパラメトリックなものから、パラメトリックな写像 𝑓 𝜃 に容易に変えられる
• すべての学習点が自由な低次元の座標系を持つのではなく、座標系が一つのパラメトリックな関数
から得られるようにする
• パラメトリックな関数のパラメータを学習する
• 成功しているノンパラメトリックな多様体埋め込みアルゴリズム t-SNE [Maaten and Hinton 2008]
は、直接的なパラメトリックなエンコーディングに適用することができる

• Semi-supervised embedding [Weston 2008]
• Deep parameterized neural network が多様体の埋め込みと分類器を同時に学習
• 分類コストを学習するだけでなく目的関数は、中間層の表現が近傍に対して不変になるようにする

• 自由パラメータの数を減らすことは、ノンパラメトリックな手法と比べて、モデルを非局所的に一般化する[Bengio
at al. 2006b]
• もし一般化が有効であれば、よりよい特徴量とパフォーマンスを得ることができる[Maaten and Hinton
2008]

• しかし、近傍関係に基づく多様体のモデリングは、高次元空間では統計的にリスキーである
• 次元の呪い

14

Learning a Non-linear Manifold through a Coding Scheme 1/2
• 近傍探索に基づかない多様体の学習方法について述べる
• PCA: 線形多様体によるモデリングの場合
• 基底ベクトルは、入力点を射影するために使われる
• 抽出された成分の入力に対する感度は、どの位置 𝑥 にか
かわらず一定である
• つまり、接空間は線形多様体ではどこでも一緒

• 非線形多様体の場合
• 接空間は場所を移動すると変わる（右図参照）
• 非線形の representation learning では、特徴量の入力に
対する局所的な変化を考えると便利

• エンコーダの一階導関数は、多様体の形状を決定する
• もし密度が多様体の周辺に集中しており、エンコーダがそれを捉えられれば、非零成分を見ることで接平面の方向を把握する
ことができる

• sparse coding cf.) sparse coding
• パラメータ行列 W は入力座標系の辞書であると解釈できる
• この中から、局所的な接空間が選ばれる
• h の非零成分が、部分空間に対応

• Local Coordinate Coding (LCC) アルゴリズム [Yu et al. 2009]
• Sparse coding と類似
• 多様体の視点から導出

• p = -1 の時は sparse coding と同一
• x に対する anchor point を活性化する傾向(???)
15

Learning a Non-linear Manifold through a Coding Scheme 2/2
• [Rifai et al 2011a] は訓練された CAE でヤコビ行列の特異値分解を行なっている
• SVD は直交基底を、感度の高い順に出力
• スペクトルは、速く減衰する
• 感度が高い直交基底は比較的尐ない
• これは CAE が低次元多様体の接空間をモデルしていると考えられる
• 接空間の基底の特異値の図

多様体の接線方向の
変化

• CAE の目標関数は、次の 2 つの背反する内容を満たす
• Isotropic contractive penalty: 特徴量が、入力がどの方向に変化しても不感応である
• Reconstruction term : 異なる訓練点は、異なる表現を持つ
• Isotropic contructive な圧力は多様体の接線方向に作用

16

Leveraging the Modeled Tangent Spaces
• 多様体上の任意の点に対応する局所接平面は、訓練点の可能な局所変化に対応する

• [Rifai 2011c]では、数字画像、写真、文書データに対して CAE を訓練し、ヤコビ行列の SVD と共に接線方
向を抽出
• これらは、写真や数字の小さな変化や回転に対応し、文書データに対しては文書の同じテーマに対
する単語に対応した。

• このような多様体に対する非常に局所的な変化は、クラスの同一性を変えないと期待される。
• Manifold Tangent Classifier (TMC) [Rifai et al. 2011c]
• Tangent distance [Simard et al. 1993]
• Tangent propagation [Simard et al. 1992]
• 事前に与えられたドメイン知識に対して、入力の変化に対して不変な分類器を作成
• これらの技術は、MNSIT の数字分類に対する pior-knowledge free approach の中で、新し
い記録を樹立している

17

ADGENDA


Encoding Models


• 12. Conclusion

18

9. Connections between Probabilistic and Direct Encoding Models
Probabilistic Interpretation
• 標準的な尤度のフレームワークはモデルの目標関数を 2 つに分ける
• 対数尤度 log 𝑃(𝑥|𝜃)
• 事前確率 log 𝑃(𝜃)

• 以降、既存手法の確率論的解釈がだらだらと続くのではしょります

• 9.1 PSD の確率的解釈
• PSD のアルゴリズムでは標準的な確率的観点と、direct encoding computation graph の間の関係を考え
ることができる
• PSD の確率的モデル
• デコーダ：sparse coding の生成モデル 𝑃 𝑥 𝑕 と等しい
• エンコーダ：𝑃(𝑕|𝑥) の MAP iterative inference の近似解法
• PSD では、エンコーダはデコーダと一緒に訓練される
• エンコーダーは結合対数尤度の下界に対する MAP の解に対応(???)
• MAP 学習が変分学習の特殊ケースとして解釈することができるとき、変分学習は尤度と変分近似の両方を
同時に改善することができることを示唆している。

19

ADGENDA


Encoding Models


• 12. Conclusion

20

10. Global Training of Deep Models
On the Challenge of Training Deep Architecture

• 今までは単層の学習器の話をしてきたが、それを多層でやる場合の話

• Convolutional network [LeCun et al. 1998b]
• Layerwise（層ごとの(?)）学習
• 単層モデルを積み上げていくことの優位性を得られる
• 「なぜ layerwise unspervised pre-training procedure は教師あり学習を手助けするのか」[Erhan et al.
2010b]
• 1 度にすべての表現を学習するのではなく、中間表現(intermediate representation)を訓練する、という原理
• 簡単な概念を最初に学習し、そこから上位の概念を学習する[Bengio et al. 2009]
• Semi-Supervised Embedding [Weston et al. 2008]

• 正規化効果
• 入力の摂動に関する変化に対して鈍感になる
• 要らない特徴量を取り除くことができる
• Stacked RBM や DAE がニューラルネットワークによる分類器の最初の層に使われることがある
• 最適化効果
• ニューラルネットワークの上位 2 層は、訓練データに対してフィットする

21

Deep Boltzmann Machine
• ボルツマンマシンの一種
• RBM を多段に重ねたような形

ノード値バイアス

中間層II 𝑕(2) 𝑑(2)

𝑉
中間層I 𝑕(1) 𝑑(1)

𝑊

入力層 𝑥 𝑏

エネルギー関数

22

Deep Boltzmann Machine: Mean-field approximate inference
• 平均場近似＋変分推論によるパラメータ最適化

• 変分推論 log P の下限元の分布との距離

log 𝑃 𝑣 = ℒ 𝑄 𝑣 + 𝐾𝐿(𝑃||𝑄 𝑣 )

平均場近似

• 以下の式でパラメータ最適化できる（らしい）

23

Deep Boltzmann Machine: Training Deep Boltzmann Machine
• Stochastic Maximum Likelihood (SML）というのを使うらしい
• 基本的には山登り法(stochastic gradient ascent)で、尤度が増える方向にパラメータを更新していく

これを計算したい “positive phase”

“negative phase”

前頁参照

[Hinton 2000] 読めとのことです

24

ADGENDA


Encoding Models


• 12. Conclusion

25

11. Built-in Invariance
Summary
• 11.1 Augmenting the dataset with known input deformations
• 表現力の高いデータを訓練データとすることで、パフォーマンスを上げられる
• 入力データのパターンの自動生成[Baird 1990]
• 数字データに対するアフィン変換、回転[Simard et al. 2003]
• 最近は GPU を使ったアプローチがある[Ciresan et al. 2010]

• 11.2 Convolution and pooling
• 入力データのトポロジー構造を使う
• 画像データの 2 次元構造、動画データの 3 次元構造
• Local receptive fields [Hubel and Wiesel 1959]
• Convolutional networks [Lecun et al. 2989]
• 11.3 Temporal coherence and show features
• 動画データに対する特徴抽出に用いられる[Becker and Hinon 1993]
• 時刻 t と時刻 t+1 の特徴量の間の偏差を取り、ペナルティを与える
• 経時変化の尐ない特徴量が得られる

• 11.4 Algorithms to disentangle factors of variation
• 抽出したいものに対して不変な特徴量を選ぶにはどうしたらよいか
• 例）人物の映った動画：被験者の同一性、行った行動、カメラに対する姿勢
• 最初に低レベルの特徴量を抽出し、そこから高いレベルの特徴量を抽出する方法[Fukushima 1980]
• Transforming auto-encoder [Hinton et al. 2011]

26

ADGENDA


Encoding Models


• 12. Conclusion

27

12. Conclusion
Conclusion
• 本論文がカバーした、representation learning と deep learning に関する技術
• (a) 確率モデル： sparse conding、Boltzmann machine
• (b) 再構築ベースモデル： auto-encorders
• (c) 多様体学習
• 今後の課題など
• Practical concerns and guidelines
• 人工ニューラルネットワークや deep learning の課題は、超パラメータや変数の数が多
く、その調整が人間の勘に委ねられている点
• “Tricks of the Trade” [Orr and Muller 1998]

• Incorporating generic AI-level priors
• Prior のリストを増やしたり修正したりし、どれか一つにフォーカスするのではなく、それ
ぞれの関係を考慮するべき(???)

28

参考書籍

• 資料作成にあたり、以下の文献を参考にいたしました

赤穂昭太郎：カーネル多変量解析

• 多様体
• ISOMAP
• 局所線形埋め込み法

ぷれむる（下）

• マルコフ確率場
• ボルツマンマシン（文中ではイジングモデルとして記述）
• 変分法
• MCMC

29

Deep Learning 勉強会 (Chapter 7-12)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Deep Learning 勉強会 (Chapter 7-12)

Similar to Deep Learning 勉強会 (Chapter 7-12) (20)

More from Ohsawa Goodfellow

More from Ohsawa Goodfellow (10)

Deep Learning 勉強会 (Chapter 7-12)