ディープボルツマンマシン入門〜後半〜

ディープボルツマンマシン入
門
〜後半〜
2014/10/20
小町研究室B4 堺澤勇也

目次
5. 隠れ変数ありのボルツマンマシン学習
6. リストリクティッドボルツマンマシン
6.1 RBMの学習方程式
6.2 RBMの学習
§1 条件付き独立の性質
§2 RBMの周辺確率
7. ディープボルツマンマシン

隠れ変数ありのボルツマンマシン
 目的
学習
 観測データセットに対して（n + m）次元の確率変数
を持つボルツマンマシンを用いて学習を行うこと
 n : N個の観測データ点の次元
 m : 観測データとは関係ない次元
 観測データ点の次元より学習モデルの次元の方が
高いので、すべての変数が各観測データ点に対応
するわけではない

隠れ変数ありのボルツマンマシン学習の例
(n+m)次元の変数のうち、ノード番号(確率変数の添え字)
の若い順に並べ、最初のn次元を各観測データに対応させる(可視変数)
残りのm次元の変数は観測データとは関係のない変数(非可視変数)とすここで、
観測データ点に対応するノード番号の集合を푉 = {1, ⋯ , 푛} とし対応しないノード番号の集合を퐻 = {푛 + 1, ⋯ , 푛 + 푚} とする
ノード全体の集合はΩ = 푉 + 퐻で表すことができる
１
２
3次元の観測データセットに対し、5次元のボルツマンマシン
を用いて学習するとき、
푉 = {1,2,3}
퐻 = {4,5}
푋 = {푋1, 푋2, 푋3, 푋4, 푋5} = {푣1, 푣2, 푣3, ℎ4, ℎ5}
であり、ノード1~3は可視変数、ノード4，5は非可視変数として３
４
５
三次元の観測データセットを
５次元のボルツマンマシンを
用いて学習する例
青丸：可視変数
白丸：隠れ変数

隠れ変数ありのボルツマンマシン
の
確率モデル
隠れ変数を含む場合でも、確率変数の表記法が変化するだけで、定義
そのものは変わらないことに注意
隠れ変数がある場合は、隠れ変数に関して周辺かした可視変数vのみの
n次元の確率分布
を用いる
この周辺分布は貸し変数ノン身の確率分布であるため、すべての変数
にデータが対応しており、４章の時と同様な方法で尤度関数を作るこ
とができ、
で表される。最尤解は、この対数尤度関数を最大化するパラメータの
値となる。

KL情報量最小化の観点
今回場合、観測データセットの経験分布QD(v)とボル
ツマンマシンの確率分布を近づける
以下のKL情報量を最小化することで学習は達成され
る

隠れ変数がある場合の
ボルツマンマシンの学習方程式①
対数尤度関数の最大化条件、もしくはKL情報下の最
小化の条件より、隠れ変数がある場合のボルツマン
マシンの学習方程式は
となる。ここでziは
のようにノードi が可視変数ノードか隠れ変数ノード
かに応じて変換される変数である

隠れ変数がある場合の
ボルツマンマシンの学習方程式②
また、PH|V(h|v,θ,ω)は可視変数が与えられたもとでの
隠れ変数の確率であり、ベイズの公式より、
によって与えられる
EB[・・・|θ,ω]はこれまどと同様ボルツマンマシンの
期待値を表す記号であり、
である。

隠れ変数導入の動機
何らかの原因で一部のデータが得られない場合に、
→ 得られないデータに対応する変数を隠れ
変数として扱う
学習モデルの表現能力の向上
表現能力: パラメータの値を変化させることに
より再現出来る確率分布の種類の多さ

モデル誤差
学習モデルは人間が勝手に仮定したモデルであるの
で、仮定したモデルが本当に知
りたい未知の生成モデルを含んでる保証は無い
学習モデルの表現能力が低ければ、生成モデルとの
間には一般的に誤差が生まれる→ モデル誤差
表現能力を上げることは
この楕円を大きくすること
に等しい
学習モデルを複雑にするこ
とにより達成出来る

ボルツマンマシンを複雑化する方
法
1. エネルギー関数の関数系をより複雑なものにする
→エネルギー関数に三次以上の相互作用の項を加えた高次ボルツマ
ンシンも提案されている
→難しい
2. 隠れ変数の導入
→エネルギー関数の関数系を変えることなくモデルを複雑化出来る
（例）
隠れ変数がある場合は隠れ変数について周辺化した可視変数のみの分
布PV(v|θ, ω) に注目し、最尤法を適用した。PV(v|θ, ω) は
と表され、一般に元のボルツマンマシンに比べて複雑なエネルギー関
数を持つ。

リストリクティッドボルツマンマシン
(Restricted Bolzmann Machine : RBM)
完全２部グラフ上に定義された隠れ変数ありのボル
ツマンマシン
完全２部グラフ上に定義されたRBM
同窓内のリンク結合はなし
異層間のリンク結合のみ存在する
可視変数はn個、隠れ変数はm個
それぞれ
V = {1, …, n}
H = {n + 1, … , n + m}

RBMのエネルギー関数と確率モデ
ル
可視変数と隠れ変数をそれぞれvとhと表すと、RBMのエネル
ギー関数は下のようになる
Θv : 可視変数に対するバイアス
Θh : 隠れ変数に対するバイアス
上の式から、RBMの確率モデルは下のように表せる
以下、表記の簡略化のためにパラメータをΘで表す
Θ = {θv, θh, ω}

RBMの学習方程式
RBMは５章で見たきた隠れ変数ありのボルツマンマ
シンの一つの特別なケースなので、学習の解は学習
方程式(16, 17)に準ずる
N個のn次元雁足データセットDを得たとすると、
RBMの学習方程式(16) は以下のようになる

学習方程式(17) は、
となる。EB[…|Θ]は式(19) のRBMに関する期待値である。
(20a)、(20b)、(21)の左辺は観測データの値を用いて簡単に計算可能
右辺はRBMの期待値の計算なので、計算量爆発の可能性がある
何らかの近似的アプローチが必要となる

目次
5. 隠れ変数ありのボルツマンマシン学習
6. リストリクティッドボルツマンマシン
6.1 RBMの学習方程式
6.2 RBMの性質
§1 条件付き独立の性質
§2 RBMの周辺確率
7. ディープボルツマンマシン

RBMの性質
RBMは２鵜グラフという特殊なグラフ構造をもつお
かげで、通常のボルツマンマシンにはない幾つかの
有用な性質をもつ。
§１条件付き独立の性質
§２ RBMの周辺確率

§１条件付き独立の性質
可視層を固定したもとでの隠れ層の条件付き確率は
であり、同様に隠れ層を固定したもとでの可視層で
の条件付き確率は
となる。

条件付き確率はともに確率変数同士の積の形で表される
片方の層の確率変数が何らかの値に固定されると、もう
片方の層の確率変数は互いに統計的に独立になる
これは層内結合がないからであり、RBM特有の性質であ
る
→ ここからコントラスティブダイバージェンス
(contrastive divergence : CD) 法が考案される
層内結合がある一般の場合
→ マルコフ連鎖モンテカルロ法（Markov chain Monte
Carlo method : MCMC）などを用いる。。。手間がかかる

CD法
CD法：
観測データセットの経験分布を可視変数の初期分布
とし、そこから交互に両層のサンプリングを実行す
る。
そして得られたサンプリング点の標本期待値をRBM
の期待値として確率的近似学習を行う。
CD法の成功と普及により、ボルツマンマシンが現在
における一定の市民権を得る

§２ RBMの周辺確率
可視変数に関する周辺確率PV(v|Θ) を簡単に計算できる
この周辺下の計算は隠れ変数間の結合が存在しないので可
能
このように周辺確率PV(v|Θ) を具体的に記述することが出来
る
→ 疑似最尤法などの隠れ変数がない場合に対して考案さ
れている近似学習をRBMの学習に適応することが可能と
なっている
最近、疑似最尤法を拡張した複合最尤法を利用した学習ア

エネルギー関数(25) をωについてテイラー展開してみる
と、
二次以上の高次の相互作用項の効果がエネルギー関数内に存在している
隠れ変数を導入することでボルツマンマシンのエネルギー関数を変更することなく
燃えるの複雑化することが出来る

RBMの可能性
RBMは構造上、系統的な方法でいくらでも隠れ変数
の数を増やすことが出来る。
隠れ変数を増やすごとにモデルの複雑さはあがって
いく
| H | = m → ∞ の極限では任意の確率分布を表現可能
であることが示されている

ディープボルツマンマシン
(deep Boltzman machine : DBM)
深層学習の皮切りとなった
ディープビリーフネットワーク
を拡張したもの
隠れ層を図のように
階層的にに積み上げていく
ことで構成される隠れ素子ありボルツマンマシンの一種

DBMのエネルギー関数
V : 可視層のノード番号の集合
Hr : 第r 番目の隠れ層のノードの集合
v = {vi ∈ {+1, -1} | i ∈ V} : 可視変数
h = {hi
(r) ∈ {+1, -1} | i ∈ Hr} : 第r 番目の隠れ層内の隠れ変数
R層の隠れ素子からなるDBMのエネルギー関数は、
h(1), … , h(R)をまとめてh、ω(1), … , ω(R)をまとめてWで表す

• ω(r)は第r-1 層と第r 層との間の結合を表してる
（この場合、可視層は第０層と言える）
• R = 1 の時RBMと等価になるN
• RBMとは違いDBMは隠れ変数間の結合を持つため、
RBMとは質的に異なる表現能力を持つことが期待さ
れる

DBMの学習
DBMもボルツマンマシンの一種なので、その学習は
原理的にボルツマンマシンの学習方程式に準ずるが、
計算量爆発の問題から、厳密な学習は望めない
しかし、隠れ層が階層的に積まれているためRBMの
時のような性質を利用することが出来ない
そこで利用されるのが貪欲学習(greedy learning)

貪欲学習（greedy learnig）
近似アルゴリズムの最も基本的な考え方の一つ
問題の要素を複数に部分に分割し、それぞれの部分を独
立に評価し、評価値の高い順に取り組んでいく学習法
DBMの学習では、階層的に積み重なったボルツマンマ
シンの層を分割して学習を行っていく（次スライド以降
で説明）

(1) 可視層と第１層の隠れ層に注目し、第２層以上の隠れ層は無視する
→ 可視層と第１層目の隠れ層は、v とh(1)からなるRBMとみなすことが出来る
あとはRBMの学習に則ってvとh(1)との間の結合ω(1)を学習する

(2) h(1)とh(2)に注目し、その他の層は無視してh(1)とh(2)を再びRBMとみなす
その際、h(1)を擬似的な可視層としh(2)を隠れそうと考える
このRBMの学習には条件付き確率PH|V(h(1) | v,ω(1))を利用して、
観測データセットからサンプリングしたサンプル点をデータとして利用する
(このデータを実際の観測データと区別するために特徴点(feature)と呼ぶこともあ結合ω(2)が学習される

(3) 同様の方法で、h(2)とh(3)に注目し、その他の層は無視してRBMとみなす
その際、h(2)を擬似的な可視層としh(3)を隠れそうと考える
このとき、h(1)の特徴点をサンプルした
ときと同様の流れで、h(1)の特徴点から
条件付き確率
に従いサンプルしたh(2)のサンプル点を
データとし、RBM学習に従いω(3)を学習

解説した貪欲学習は本来のボルツマンマシン学習の目的である
尤度最大化とは異なるもので、あくまで近似的アプローチえあり
数理的な根拠もまだまだ十分でない方法であるが、経験的に比較的
良い学習解を与えることが知られている
貪欲学習は事前学習（pre-training）と呼ばれ、
パラメータの適切な初期値決定に用いられる
その後、その初期値をもとにより正確で計算コストの高い学習
アルゴリズム（MCMCなど）でパラメータを調整
事前学習で決定したパラメータの初期値が学習のキーとなる

DBMに適したより良い近似学習アルゴリズムを創出していかなければな
らない
先ほど紹介したDBMは層ごとにRBMとみなしながら学習
→ 対数尤度関数を目指すものではないので学習がどのように
なっているかわからない
→ しかし計算量の問題から厳密な計算を行うことは出来ない
モデルの構造の意味についてもより考察を深めていく必要がある
深層学習も出るの特徴は実は粗階層性にある
→単に隠れ層の数を増やし、モデルの表現力を上げるならRBMで
十分
まとめ

ディープボルツマンマシン入門〜後半〜

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

ディープボルツマンマシン入門〜後半〜