Advertisement
自由エネルギー原理入門: 正規分布を仮定した場合
自由エネルギー原理入門: 正規分布を仮定した場合
自由エネルギー原理入門: 正規分布を仮定した場合
自由エネルギー原理入門: 正規分布を仮定した場合
Advertisement
自由エネルギー原理入門: 正規分布を仮定した場合
自由エネルギー原理入門: 正規分布を仮定した場合
自由エネルギー原理入門: 正規分布を仮定した場合
自由エネルギー原理入門: 正規分布を仮定した場合
自由エネルギー原理入門: 正規分布を仮定した場合
Upcoming SlideShare
自由エネルギー原理と視覚的意識 2019-06-08自由エネルギー原理と視覚的意識 2019-06-08
Loading in ... 3
1 of 9
Advertisement

More Related Content

Slideshows for you(20)

Advertisement

More from Masatoshi Yoshida(20)

Recently uploaded(20)

Advertisement

自由エネルギー原理入門: 正規分布を仮定した場合

  1. 自由エネルギー原理入門: ガウス分布を仮定した場合 Masatoshi Yoshida (吉田 正俊) 生理学研究所・認知行動発達機構研究部門 Department of System Neuroscience National Institute for Physiological Sciences Okazaki, 444-8585, Japan pooneil68@gmail.com Abstract フリストンが提唱する自由エネルギー原理についての簡単な説明を作るプロ ジェクト、以前の「自由エネルギー原理と視覚的意識」[1] や「自由エネル ギー原理の基礎について徹底解説」[2] では外界の状態 x および agent の感覚 入力 s がそれぞれ 2 値しかない例を使った。これは最初の説明としてはよい けれども、より具体的な問題を扱うには単純すぎる。この文書では、外界の 状態 x および agent の感覚入力 s をそれぞれ連続値を取る、そして生成モデ ル g(X, S) と近似的推測 q(X) がそれぞれ正規分布するという設定で変分自 由エネルギーの最小化について説明する。自由エネルギー原理の簡単な説明 としては、Bogacz 2017[3] と Buckley et al 2017[4] があるが、前者と後者の 中間を行く説明を目指す。 1 基本的な設定 ここで扱うのは単純な知覚のモデルだ (図 1)。外界の潜在変数 X(= {x1, x2, ...}) (たとえば光 源の輝度) があって、agent は観測データ S(= {s1, s2, ...}) (たとえば網膜の視細胞の発火頻度) を持っている1 。Agent は潜在変数 X (光源の輝度) という原因が観測データ S (網膜視細胞の 活動) という結果を引き起こすときの関係を、これまでの経験から両者の同時確率 Prob(X, S) として持っている。この同時確率のことを生成モデル g(X, S) と表記する2 。 図 1: 単純な知覚のモデル 1 ここで大文字 Y をある範囲の数列、小文字 y をそのうちの具体的な値として表記を統一する。あと 以下では積分ではなくて和の式を使いつづけるので、離散の確率分布を扱うが、連続変数での確率密度 関数と違いはないはず。たぶん。 2 これまで使ってきた p() だと一般的な確率 Prob() と紛らわしいので、以下では生成モデルについて は g() を使うことにした。
  2. このときの潜在変数 X と観測データ S の因果関係を有向グラフで表したのが図 1A の因果グ ラフだ。両者をつなぐ関係が生成モデル g(X, S) となっている。しかし図??A では生成モデル g(X, S) と X および S に対する関係がよくわからないので、それを明示したのが図 1B の因 子グラフ。このような表現にすると、生成モデル g(X, S) は X の事前分布である C = g(X) 、それから X から S を生成する観測モデル A = g(S|X) の二つに分解 (因子化) できることが できる。こうすると生成モデルは事前分布 C と観測モデル A の積であるということがわかる (図 1C)。 いま知りたいのはある S = s のときの X の確率分布 p(X|s) だから、ベイズの公式を使って 事後分布 (以下 true posterior と呼ぶ) p(X|s) を計算することができる。 p(X|s) = p(X, s) P X p(X, s) (1) このようにして潜在変数 X についての agent の信念 q(X) を正確に推定するのが、ベイズの 公式に基づく「正確な推測」(図 1C) になる。一方で、明示的に true posterior を計算せずに変 分自由エネルギー F を最小化することによって agent の信念 q(X) を時間的に更新してゆく のが、変分ベイズ的な「近似的推測」(図 1C) だった。知覚においては q(X) の分布の形を決 めるパラメーター ϕ を変えることによって、いま与えられている s における変分自由エネル ギー F が最小になる方向に変化させるのだった。ここまでが以前の復習。 2 正規分布による単純化 今回はここで正規分布による単純化をしてみる。 生成モデル g(X, S) の元となる事前分布 g(X) とおよび観察モデル g(S|X) はそれぞれ実際に は以下のようなプロセスから分布ができる。 X = X̄ + ωx (2) S = kX + ωs (3) (4) X̄ は事前分布として、これまで推測してきた X の平均値を入れておく。kX の部分が観察モ デルの本体で、簡単のために線形関数にしてある。ここをロジスティクス関数とかにしておく と本当の神経活動っぽくてよい。それぞれの ω は正規分布するノイズの項になっていて、ゆ えに確率的に X および S が分布する。ここで事前分布 g(X) を式の形で書くとこうなる。 g(X) = Norm(X, X̄, σ2 x) (5) = 1 p 2πσ2 x exp{− (X − X̄)2 2σ2 x } (6) 同様に観察モデル g(S|X) もこうなる。 g(S|X) = Norm(S, f(x), σ2 s ) (7) = 1 p 2πσ2 s exp{− (S − kX)2 2σ2 s } (8) よって生成モデル g(X, S) は両者の積になる。 g(X, S) = g(S|X)g(X) (9) = 1 2πσxσs exp{− (X − X̄)2 2σ2 x − (S − kX)2 2σ2 s } (10) 2
  3. 3 事後分布の直接計算 まずは信念 q(X) として事後分布による正確な推測の計算からしてみたい。事前分布と観察モ デル (=尤度) が正規分布であるとき、事後分布も正規分布になる (教科書で必ず見る共役事前 分布の話)。 g(X|s) = g(X, s) P X g(X, s) (11) ∝ g(X, s) (12) 分母は最終的に X で和を取るので定数になる。よって式10より、分子の部分を計算して平方 完成させて exp(X − µ′ )2 /2σ′2 の形に変形してやれば、事後分布である正規分布の平均と分 散を計算することができる。 g(X, s) = 1 2πσxσs exp{− (X − X̄)2 2σ2 x − (s − kX)2 2σ2 s } (13) = 1 2πσxσs exp{− (X − X̄)2 2σ2 x − (kX − s)2 2σ2 s } (14) = 1 2πσxσs exp{− X2 − 2X̄X + X̄2 2σ2 x − k2 X2 − 2ksX + s2 2σ2 s } (15) = 1 2πσxσs exp{− 1 2 ( X2 − 2X̄X + X̄2 σ2 x + k2 X2 − 2ksX + s2 σ2 s )} (16) = 1 2πσxσs exp{− 1 2 (( 1 σ2 x + k2 σ2 s )X2 + −2X̄X σ2 x + X̄2 σ2 x + −2ksX σ2 s + s2 σ2 s )} (17) = 1 2πσxσs exp{− 1 2 (( 1 σ2 x + k2 σ2 s )X2 − 2( X̄ σ2 x + ks σ2 s )X + X̄2 σ2 x + s2 σ2 s )} (18) = 1 2πσxσs exp{− 1 2 (( 1 σ2 x + k2 σ2 s )X2 − 2( X̄ σ2 x + ks σ2 s )X + Const)} (19) = 1 2πσxσs exp{− 1 2 ( 1 σ2 x + k2 σ2 s )(X2 − 2( X̄ σ2 x + ks σ2 s )/( 1 σ2 x + k2 σ2 s )X + Const)} (20) = 1 2πσxσs exp{− 1 2 ( 1 σ2 x + k2 σ2 s )(X − ( X̄ σ2 x + ks σ2 s )/( 1 σ2 x + k2 σ2 s ))2 + Const)} (21) (22) これで事後分布の平均 µ′ が µ′ = ( X̄ σ2 x + ks σ2 s )/( 1 σ2 x + k2 σ2 s ) (23) = λxX̄ + λss/k λx + λs (24) 事後分布の分散 σ′2 およびその逆数である precision λ′ が σ′2 = 1/( 1 σ2 x + k2 σ2 s ) (25) λ′ = 1/σ′2 = λx + λs (26) となることがわかった。なお、最後のところで、分散 σ2 を precision λ で置き換えた。つま り、λs = k2 /σ2 s および λx = 1/σ2 x としてある。この値はあとで変分自由エネルギーの最小化 で得られる値の答え合わせに使う。 3
  4. 4 変分自由エネルギーを計算する つぎに変分自由エネルギー F の最小化による近似的推測として信念 q(X) について考えてみ よう。そのためにはまず変分自由エネルギー F 自体を導出する必要がある。そしてこちらの 場合は事前分布の直接計算の場合と違って、 q(X) の分布の形をあらかじめ指定しておく必要 がある。そこで信念 q(X) も正規分布しているものとして計算してみよう。 q(X) = Norm(X, µ, σ2 q ) (27) = 1 q 2πσ2 q exp{ (X − µ)2 2σ2 q } (28) これはどういうことかというと、光源の輝度の推定として µ を持っているのだけど、その信 念が曖昧であれば σ2 q は大きくなるし、確信が高ければ σ2 q は小さくなる。つまり信念 q(X) は 推定値に加えてその信念の確信度まで含んだものを表現している。 さてそれでは変分自由エネルギーの式を思い出してみる。 F(s, q) = X X q(X) log q(X) g(X, s) (29) = X X q(X) log q(X) − X X q(X) log g(X, s) (30) 第 1 項は q(X) のエントロピーであり、第 2 項は q(X) と g(X, s) の間の交差エントロピー的 なものになっている3 。まず第 1 項から計算してみよう4 。 H(q(X)) = X X q(X) log q(X) (31) = ...(あとでやる) (32) = 1 2 (1 + log(2πσ2 q )) (33) つまり第 1 項は信念 q(X) の確信度が高いとき、つまり σ2 q が低いときにより変分自由エネル ギー F が小さくなるように寄与している。よって「より正確な知覚を達成できると変分自由 エネルギー F が下がる」というこれまで説明してきたこととちゃんと合致している。 さて第 2 項を計算してみよう。これが今回のメインコンテンツ。手計算でごまかしなくやって みたらえらい時間かかったけど、こういう筋トレ的なことって大事だよね。まず式10と式28を 代入する。 第 2 項 = X X q(X) log g(X, s) (34) = X X 1 q 2πσ2 q exp{ (X − µ)2 2σ2 q } log{ 1 2πσxσs exp{− (X − X̄)2 2σ2 x − (s − kX)2 2σ2 s }} (35) = X X 1 q 2πσ2 q exp{ (X − µ)2 2σ2 q }{− log(2πσxσs) | {z } 項 A − (X − X̄)2 2σ2 x | {z } 項 B − (s − kX)2 2σ2 s | {z } 項 C } (36) (37) 3 正確には g(X, S) が X の確率分布になってないので、交差エントロピーそのものではない。 4 これはネットで探せばよく出てくる。あるデータと平均と分散が既知のときに、そのエントロピー を最大化するのが正規分布だ、というのが教科書的な知識。 4
  5. それでは項 A, 項 B, 項 C をそれぞれ計算する。そのためには以下の基本的な公式を使う。確 率分布 Prob(X) の平均 µ、分散 σ2 について以下のような関係がある。これを使って変形し てやる。 基本的な公式 1 = X X Prob(X) (38) µ = X X X ∗ Prob(X) (39) 0 = X X (X − µ) ∗ Prob(X) (40) σ2 = X X (X − µ)2 ∗ Prob(X) (41) 項 A については公式38より P の中身は 1 なので 項 A = X X 1 q 2πσ2 q exp{ (X − µ)2 2σ2 q }{− log(2πσxσs)} (42) = − log(2πσxσs) X X 1 q 2πσ2 q exp{ (X − µ)2 2σ2 q } (43) = − log(2πσxσs) X X Prob(X) (44) = − log(2πσxσs) (45) 項 B については公式 41が使えるように変形すると、 項 B = X X 1 q 2πσ2 q exp{ (X − µ)2 2σ2 q }{− (X − X̄)2 2σ2 x } (46) = − 1 2σ2 x X X (X − X̄)2 1 q 2πσ2 q exp{ (X − µ)2 2σ2 q } (47) = − 1 2σ2 x X X (X − µ + µ − X̄)2 Prob(X) (48) = − 1 2σ2 x X X ((X − µ)2 + 2(X − µ)(µ − X̄) + (µ − X̄)2 )Prob(X) (49) = − 1 2σ2 x { X X ((X − µ)2 Prob(X) | {z } =σ2 q +2(µ − X̄) X X (X − µ)Prob(X) | {z } =0 +(µ − X̄)2 X X Prob(X) | {z } =1 } (50) = − 1 2σ2 x {σ2 q + (µ − X̄)2 } (51) 項 C についても同様に変形すると、 5
  6. 項 C = X X 1 q 2πσ2 q exp{ (X − µ)2 2σ2 q }{− (s − kX)2 2σ2 s } (52) = − 1 2σ2 s X X (kX − s)2 1 q 2πσ2 q exp{ (X − µ)2 2σ2 q } (53) = − k2 2σ2 s X X (X − s k )2 Prob(X) (54) = − k2 2σ2 s X X (X − µ + µ − s k )2 Prob(X) (55) = − k2 2σ2 s X X ((X − µ)2 + 2(X − µ)(µ − s k ) + (µ − s k )2 )Prob(X) (56) = − k2 2σ2 s { X X ((X − µ)2 Prob(X) | {z } =σ2 q +2(µ − s k ) X X (X − µ)Prob(X) | {z } =0 +(µ − s k )2 X X Prob(X) | {z } =1 } (57) = − k2 2σ2 s {σ2 q + (µ − s k )2 } (58) = − 1 2σ2 s {k2 σ2 q + (kµ − s)2 } (59) 項 A,B,C を合わせると第 2 項は、 第 2 項 = 項 A + 項 B + 項 C (60) = − log(2πσxσs) − 1 2σ2 x {σ2 q + (µ − X̄)2 } − 1 2σ2 s {k2 σ2 q + (kµ − s)2 } (61) = − log(2πσxσs) − σ2 q 2σ2 x − (µ − X̄)2 2σ2 x − k2 σ2 q 2σ2 s − (kµ − s)2 2σ2 s (62) = − (µ − X̄)2 2σ2 x − (kµ − s)2 2σ2 s − ( 1 2σ2 x + k2 2σ2 s )σ2 q − log(2πσxσs) (63) これにさっきの第 1 項を足し合わせると、変分自由エネルギーの式は以下の通りになる。 F(s, q) = X X q(X) log q(X) − X X q(X) log g(X, s) (64) = 第 1 項 − 第 2 項 (65) = 1 2 (1 + log(2πσ2 q )) + (µ − X̄)2 2σ2 x + (kµ − s)2 2σ2 s + ( 1 2σ2 x + k2 2σ2 s )σ2 q + log(2πσxσs) (66) = (µ − X̄)2 2σ2 x + (kµ − s)2 2σ2 s + ( 1 2σ2 x + k2 2σ2 s )σ2 q + log(σq) + Const (67) 長い式変形だったが、なんとか扱いやすいかんじの式になったことがわかる。 5 変分自由エネルギーの最小化による計算 けっきょくのところ何をやっていたかというと、q(X) を変えて変分自由エネルギー F を小さ くするところを見たかったのだった。知覚において変えることができるのは µ と σ2 q だ。 6
  7. そこで F の式67を µ または σq で微分してやる。まず µ から。 F(µ) = (µ − X̄)2 2σ2 x + (kµ − s)2 2σ2 s + Const (68) dF dµ = −k s − kµ σ2 s − X̄ − µ σ2 x (69) はい出た。ステキ。これこそが Bogacz 2017 論文 [3] にある予測符号化の式だ (図 2)。 図 2: 予測符号化の神経ネットワーク 式69の第 1 項は今与えられている [感覚入力 s ] と [現在の推測 µ から観測モデル ( S = kX +ωs ) を用いて作った、感覚入力の予測 kµ ] との間の差分、つまり感覚入力の予測誤差になってい る。これが図 2の「観測モデルについての予測誤差ニューロン」の活動 ϵs になっている。さ らにこの活動は再帰性の抑制入力による shunting inhibition によって、出力としては σ2 s で割っ たものとなる5 。そしてこの出力がまた信念ニューロンに入るときにシナプス重み k で入って くると考えると、式69の第 1 項は、信念ニューロンにボトムアップ性の興奮性シナプスから 入力する活動の大きさを表していることになる。 同様にして、式69の第 2 項は現在の推測 µ と事前分布の平均値 X̄ との差分になっている。こ れが図 2の「事前分布についての予測誤差ニューロン」の活動 ϵx になっている。さらにこの 活動は再帰性の抑制入力による shunting inhibition によって、出力としては σ2 x で割ったもの となる。そしてこの出力がまた信念ニューロンに入るときにシナプス重み 1 で入ってくると 考えると、式69の第 1 項は、信念ニューロンにトップダウン性の抑制性シナプスから入力す る活動の大きさを表していることになる。 両方を合わせると、式69の変分自由エネルギー F に関する情報はすべて信念ニューロンに集 結しており、信念ニューロンは単にこれらの入力を統合して発火頻度を上げたり下げたりし ているだけ、ということになる。その結果、現在の推測 µ は [観察モデルについての予測誤差 ニューロン] からの興奮性入力によって、現在の感覚入力 S を予測するように活動を変えるけ れども、一方でこれが事前分布の平均値 X̄ からあまり外れると、[事前分布についての予測誤 差ニューロン] からのトップダウン入力によって抑制されるようにバランスが取られている。 うーん、うまくできてる。 微分して 0 になる µ も導出しておこう。 5 ちなみに Bogacz 論文ではこの抑制が σ2 x で、Friston では σx という違いがある。 7
  8. dF dµ = −k s − kµ σ2 s − X̄ − µ σ2 x = 0 (70) −k s − kµ σ2 s = X̄ − µ σ2 x (71) −k sσ2 x − kσ2 xµ σ2 s = X̄ − µ (72) −k sσ2 x σ2 s − X̄ = −µ − k2 σ2 xµ σ2 s (73) ksσ2 x + X̄σ2 s = µ(σ2 s + k2 σ2 x) (74) µ = skσ2 x + X̄σ2 s k2σ2 x + σ2 s (75) µ = s/k/σ2 s + X̄/k2 σ2 x 1/σ2 s + 1/k2σ2 x (76) µ = ks/σ2 s + X̄/σ2 x k2/σ2 s + 1/σ2 x (77) µ = λss/k + λxX̄ λs + λx (78) 最後のところで、分散 σ2 を precision λ で置き換えた。つまり、λs = k2 /σ2 s および λx = 1/σ2 x としてある。そうすると、 µ は感覚入力 s と事前分布の平均値 X̄ をバランスしたところで、 さらに学習した生成モデルの信頼性である λs, λx によって重み付けされて決定することがわ かる。そしてこの式は事後分布の直接計算による式 24と同じになっていることが確認できた。 つぎは F を σq で微分してやる。 F(σq) = ( 1 2σ2 x + k2 2σ2 s )σ2 q + log(σq) + Const (79) dF dσq = ( 1 σ2 x + k2 σ2 s )σq + 1 σq (80) さらに微分して 0 になる σq も計算してみる。さっきと同様に逆数である precision λq で表記 する。 dF dσq = ( 1 σ2 x + k2 σ2 s )σq + 1 σq = 0 (81) ( 1 σ2 x + k2 σ2 s )σq = − 1 σq (82) (λx + λs)σ2 q = −1 (83) σ2 q = − 1 λx + λs (84) λq = 1/σ2 q = −(λx + λs) (85) (86) この式は事後分布の直接計算による式26と同じになるはずだが、どっかで計算間違えたので マイナス記号がついてる。またこんど検算する。今日はここまで。 6 具体的な数字を入れて動態を見てみる (ここに matlab で作成した図を入れる) 8
  9. 7 編集履歴 • 2019/11/4 初版作成 8 ToDo • いろいろ 参考文献 [1] 吉田 正俊, 田口 茂, 自由エネルギー原理と視覚的意識, 日本神経回路学会誌, 2018, 25 巻, 3 号, p. 53-70, 公開日 2018/10/31, Online ISSN 1883-0455, Print ISSN 1340-766X, https://doi.org/10.3902/jnns.25.53 [2] 吉 田 正 俊. 自 由 エ ネ ル ギ ー 原 理 の 基 礎 に つ い て 徹 底 解 説. 吉 田 個 人 ブ ロ グ に 掲 載: http://pooneil.sakura.ne.jp/archives/permalink/001663.php [3] Bogacz R. 2017 A tutorial on the free-energy framework for modelling perception and learning. J Math Psychol. 76(Pt B):198–211. doi: 10.1016/j.jmp.2015.11.003. [4] C. L. Buckley, C. S. Kim, S. Mcgregor and A. K. Seth. The free energy principle for action and perception: A mathematical review. Journal of Mathematical Psychology, Volume 81, (2017), Pages 55–79 9
Advertisement