数理工学シンポジューム 武蔵野大学
情報幾何の展開
甘利俊一
理化学研究所 栄誉研究員
東京大学 名誉教授
1.確率分布空間と統計的推論
2.凸解析と双対平坦空間
3.機械学習と信号処理への応用
情報幾何
-- 確率分布族のなす多様体
{ ( )}M p x
情報幾何情報幾何
制御システム 情報理論
統計科学 神経回路網
最適化・組み合わせ
物理学情報科学
リーマン多様体ー双対接続構造
確率分布族の多様体
数学 人工知能
Vision
Machine learning
    
 
2
2
1
; , ; , exp
22
x
S p x p x

   

  
   
  
情報幾何とは ?情報幾何とは ?
  p x


  ;S p x 
リーマン幾何
双対アファイン接続
( ; , )p x  
離散確率分布(三つ目さいころ)離散確率分布(三つ目さいころ)
 1 2 3 1 2 3
1, 2,3 ={ ( )}
, , 1
nx S p x
p p p p p p

   
3p
2p1p
p
  ;M p x 
確率分布族のつくる多様体(座標系)確率分布族のつくる多様体(座標系)
 1 2 3 1 2 3, , 1p p p p p p   p
3p
2p1p
 1 2
1 2
3 3
,
log ,log
p p
p p
p p

 
  
 


||
p
  ;M p x 
不変性の原理:不変性の原理:   ,S p x 
1. パラメータのとり方によらない
   , ,p x  
2. 確率変数の表示スケールによらない
   , ,y y x p y 

   
2
1 2
2
1 2
, ,
| ( , ) ( , ) |
p x p x dx
p y p y dy
 
 

 


2 2
i iD    

接空間
Spanned by scores
( ) ,
log ( , )
i
i
ij i j
i i
d d
g
p x




 



θ e
θ e e
e
log ( , )i i
p x 




e
リーマン構造
2
2 2
, ( )
( )
( ) ( )
Euclidean ( )
i j
ij
T
ij
i
ds d d g d d
d G d
G g
G E ds d
  
  


 


 


θ θ
リーマン計量とアファイン接続
双対接続
Fisher情報行列
共変微分
X=X X=X(t)
( )
c
i j
ij
X Y
s g d d  
 

 
 測地線
XY
最短距離:まっすぐ
( )ijg g
二つのアファイン接続
e-geodesic
m-geodesic
         log , log 1 logr x t t p x t q x c t   
       , 1r x t tp x t q t  
 , 
 
 q x
 p x
*
( , ) 
双対接続:二つのアファイン接続双対接続:二つのアファイン接続
, , , i j
ijX Y X Y X Y g X Y
     
Riemannian geometry: 
  
X
Y
X
Y

*

, , ,X XX Y Z Y Z Z Y       
指数型分布族: 双対平坦空間
( , ) exp{ ( )}p x x     
Gaussian:
Negative entropy
natural parameter
expectation parameter
( ): convex function, free-energy 
凸関数、凸解析ーー双対平坦
S : 座標系  1 2
, , , n
   
   : 凸関数 function
negative entropy
     logp p x p x dx  energy
   
21
2
i
  
リーマン計量と平坦性
Bregman divergence
         ', gradD              
   
1
,
2
i j
ijD d g d d      
 ,ij i j i i
g 


    


 : geodesic (not Levi-Civita)Flatness (affine)
{ , ( ), }S   
Legendre 変換
 ,i i i i
 


   


  one-to-one
    0i
i     
 ,i i i
i
 


   


     ,D            
( ) max { ( )}i
i      
双対平坦空間の双対アファイン座標


Gaussian distributions
    
 
2
2
1
; , ; , exp
22
x
S p x p x

   

  
   
  
Divergence:  :D z y
 
 
 
: 0
: 0, iff
: ij i j
D
D
D d g dz dz

 
  
z y
z y z y
z z z
positive‐definite
Y
Z
M
Not necessarily symmetric
D[z : y] = D[y : z]
Taylor expansion
双対平坦空間
   
     
   
    
2 2
exponen
-coordin
tial fam
ates -coordinates
potential functions ,
0
, exp
: cumulant generating function
: negative entropy
canon
i
ical d v
:
i
ly
ij
ij
i j i j
i i
i i
g g
p x x
 
   
    
   
    
   



 
 
   
  
 



   ergence D(P: P')= ' 'i i      
拡張ピタゴラスの定理
(dually flat manifold)
     : : :D P Q D Q R D P R 
ユークリッド空間:自己双対  
   
21
2
i   
射影定理
 min :
Q M
D P Q

Q = m-射影 P から M
unique when M is e-flat
 min :
Q M
D Q P

Q’ = e-射影 P から M
unique when M is m-flat
Convex function – Bregman divergence
– Dually flat Riemannian divergence
Dually flat R‐manifold – convex function – canonical divergence
KL‐divergence
dually flat space
convex functions
Bregman
divergence
invariance
invariant divergence Flat divergence
KL‐divergenceF‐divergence
Fisher inf metric
Alpha connection
: space of probability distributions}{pS
log
p(x)
D[p : q] = p(x) { }dx
q(x)
(n > 1)
Metric and Connections Induced by Divergence
(Eguchi)
       
   
   
'
' '
1
: : : = (z - y )(z - y )
2
:
:
ij i j ij i i j j
ijk i j k
ijk i j k
g D D g
D
D




  
    
    
y z
y z
y z
z z y z y z
z z y
z z y
*
'
{ , }
,i i
i iz y
 
 
   
 
Riemannian metric
affine connections
統計学への応用
curved exponential family:
       , expp x u u u    x
 
1
1 n
k
x x k
n 
 
:推定
ˆu
ˆ x 
1, 2( , ) ,... np x u x x x
( , ) exp{ ( )}p x x     
1
ˆ( ,..., )nu x x
0 0:H u u :検定
curved exponential family:
       , expp D u u u    x
: estimator
ˆu
ˆ x 
1, 2( , ) ( , ( )) ,... np x u p x u x x x 
( , ) exp{ ( )}p x x     
1
ˆ( ,..., )nu x x
推定誤差
Cramer‐Rao bound
補助多様体族
推定量 ‐‐‐ ˆ ( )u f 
Ancillary family  ( )A 
最尤推定は一致性を持ち有効
Efficient estimator ‐‐‐ orthogonal projection
誤差の高次漸近理論誤差の高次漸近理論
 
 
1
1
, (u) : , ,
ˆu u , ,
n
n
p x x x
x x



  ˆ ˆ
T
e E u u u u   
 
1 22
1 1
e G G
n n
 
1
1G G
 :Cramér-Rao: linear theory
     2 2 2
2
e m m
M AG H H   
:
ˆu
ˆ x 
quadratic approximation
仮説検定
Neyman‐Scott問題
Estimation with nuisance parameter { ( , , )}M p x  
Efficient score
Neyman‐Scott問題
1 1
2 2
{ ( , , )}
( , , )
( , , )
( , , )N N
M p x
x p x
x p x
x p x
 
 
 
 




u:  parameter of interest
v:  nuisance parameter
Semiparametric 統計モデルSemiparametric 統計モデル
  , ,
( )
M p x Z
Z

 


y x
'
i i i
i i i
y
x
 
 
 

 
mle, least square, total least square
     , ; , , ; ,p x y Z p x y Z d     
x
y
linear relation ( , )x yx
統計 Model
     
 
     
2 2
1
1 1
, , exp
2 2
, , : , , ,
, , , ,
i i i n
p x y c x y
p x y
p x y Z p x y Z d
   
    
    
 
     
 

 

semiparametric
最小二乗法は良いか ?
   
  
2
2
ˆmin :
1
,
0
Neyman-Sc
ml
ott
e, TLS
i i
i i
i
ii
i i
i i i i
x y
L y x
x
yy
n x x
y x y x
  
 
   
  







 
   
 
 
'
1 2
,
,
, , , ,
, , 0
, 0
ˆ, 0
Z
Z
i
x x p x Z
f x E f x
E f x
f x



 

 
  
  
  
 
推 定 関
定
数
推 方 程 式
セミパラ統計モデル
推定関数
 , unbiase, 0: dZE f x    
 1
ˆ ˆ, 0: = +
n
i
i
f x e  

    
2
2
2
1ˆ
E f
E
n E f
 
    
    
 
Fiber Bundle
 
 
, ; , log
, ; , log
u x y Z p
v x y Z p
Z









 { , , }p x y Z
Z

Estimating Function  ,f x 
I N A
T T T T     
 , , : optimal estimating functionI
u x z
 
 
,var : , 0
,
: , 0
, 0
Z
z
z
z
z
e in iant E f x
f x f
m orthogonality v f
v f
 



   

 



m
e
 
    
 
 
2
2 22
2 2
2
2
2
, ; 0
, ;
1
2
21 3
0 : :
4 4
1 1 2
1: 1 :
32
1
: :1
i if x y
f x y x y c y x
c
c V
n
c V
n
c v
n

  

 
 




   
 
 
  

 
 
   
 
  

em‐algorithm    EM‐algorithm
EM algorithm
hidden variables
 , ;p x y u
 1, , ND  x x
  , ;M p x y u
      ,M DD p p p x y x x
 ˆmin , :KL p p M  x y m-projection to M
De-projection to ˆmin : , ;KL p D p  x y u
独立成分分析
1
i ij j
W A
A x A s
W 
 
 
x s
y x
s A W y
x
観測信号: x(1), x(2), …, x(t)
復元信号: s(1), s(2), …, s(t)
信号の混合と分解
1s
ns
2smx
2x
1x
生体情報解析
カクテルパーティ効果
移動体通信
画像解析
情報幾何による評価関数
S ={p(y)}
1 1 2 2{ ( ) ( )... ( )}n nI q y q y q y
{ ( )}p Wx
r q
( ) [ ( ; ): ( )]
( )
l KL p q
r
W y W y
y
行列Wの空間: Gl(n)
リーマン空間
 
 
22
ij i j
T
ds d
g d d
d G d





  
  
j

i
d 
  W
Euclid: G= I
自然勾配(Natural Gradient)
   
  
2
1
max dl l d l
d
l G l


  

  
  


( )l θ
θ
行列の空間: Lie群
-1
d dX WW
   

2 1
tr trT T T
T
d d d d d
l
l
 
 

 

W X X W W W W
W W
W
:dX
I I d X
W
dW W
non-holonomic basis
1
W 
自然勾配
 , Tl


  

y W
W W W
W
ICAから派生したもの
非負行列分解
スパース信号解析
Ax s
多層パーセプトロンの情報幾何
Natural Gradient and Singularities
数理ニューロン
   i iy w x h     w x
x y
( )u
u
多層パーセプトロン
 i iy v n   w x
    
   
21
; exp ,
2
, i i
p y c y f
f v
 
   
 
 
x x
x w x
 

x y
1 2( , ,..., )nx x x x
1 1( ,..., ; ,..., )m mw w v v 
多層パーセプトロンと神経多様体
 
 
 1 1,
,
, ; ,
i i
m m
y f
v
v v


 


 
x θ
w x
θ w w
neuromanifold
( )x
space of functions
例題からの学習
    ˆ,xfx
   1 1{ , , , , }n nD y y 多数の例題 x x
learning ; estimation
Backpropagation ‐‐‐確率降下学習Backpropagation ‐‐‐確率降下学習
   
 
 
1 1
2
examples : , , , training set
1
( , ; ) ,
2
log , ;
t ty y
E y x y f
p y

 
 
 



x x
x
x
   ,
t t
i i
E
f v



  

 


x w x

( , )y f x n 
計量: 実はリーマン空間であった
 
 
22
ij i j
T
ds d
g d d
d G d





  
  
j

i
d 
log ( | ; ) log ( | ; )
( ) [ ]ij
i j
p y x p y x
g E
 

 
 

 
Topology: Neuromanifold
• Metrical structure
• Topological structure

singularities
Problem of Backprop
• slow convergence‐‐‐‐plateau‐‐‐saddle
• local minima 
( , ; )t t t t tl x y    
MLP学習の欠陥MLP学習の欠陥
slow convergence : plateau
local minima
Boosting, Bagging, SVM
error
最急降下方向--- Natural Gradient最急降下方向--- Natural Gradient
  
1
1
2
, ,
=
n
i j
ij
l l
l
l G l
d d Gd G d d
 
 

  
   
  
  
 


  
d
( )l 
( , ; )t t t t tl x y    
自然勾配学習 Natural Gradient
   
  
2 2
1
max
under ij i j
dl l d l l d
d g d d
d l G l

  
 
     
 
   

  


( , ; )t t t t tl x y    
MLPの情報幾何MLPの情報幾何
Natural Gradient Learning :
S. Amari ; H.Y. Park
 
 
1
1 1 1 1
1 1 T
t t t t
l
G
G G G f f G

 

   


  

    
 

Adaptive natural gradient learning
Landscape of error at singularity
Milner attractor
統計神経力学
Rozonoer (1969)
Amari (1971; 1974)
Amari et al (2013)
Toyoizumi et al (2015)
Poole, …, Ganguli (2016)
Schoenholz et al (2017) ~ (0, 1)ijw N
巨視的振舞い
ほとんどすべての(典型的)回路に共通
巨視変数
2
1
1
1
:
: = [ : ']
:
( )
( )
i
l l
l l
A x
n
D D
A F A
D K D






x x
活動度
距離・計量
曲率
深層回路
0
1
2
1
( )
1
( )
i ij i i
l l
i
l ll
l l
x w x w
A x
n
A F A



 



 2
2
0
~ (0, / )
~ (0, )
ij
i b
w N n
w b N


引き戻し計量(リーマン計量・距離・曲率)
2 1l a b l l
ab
l
l l l
ab a b
ds g dx dx d d
n
g
  
 
 x x
e e
abi a bH   e
曲率
Poole et al (2016)
Random deep neural networks
Basis vectors
 
 
1 1 1 1
1 1
1 1
1 1
( ... )
...
l l
l
l l
l l l
l l l l l
i i
i i i i i i
l l l l m m
l l l
i i
i
l m m
a
i i
a a
dx u W dx B dx
d Bd B Bd
B B B
B u W


  


 
 
 

 
 
 
x x x
e e e
リーマン計量の力学
2
2 2
2 2
2 2
1 2
( ) ( )
,
( ) ( '( ) )
, ,
E[ '( )) ] E[ '( )) ]E[ ]
1
( ) { '( )}
2 1 2(
k k
k k a a
i j
ij
k k
a b ab k j k j
k j k j
b
b
y w y b u
dy B dy B
ds g dy dy d d
B B u w
g B B
u w w u w w
A
A Av Dv
A
   


 

 
   
 
 

 
 
  
  
  
 
  
 
    


 
 





e e
y y
e e e e


  
2
)
平均場近似
1
1 1
1
( )
conformal transformation!
( ) 1:
( )
ab ab
l s
ab ab
g A g
A
g A

 
 

 
  

 拡大(カオス、Lyapnov指数)
回転,拡大・縮小
曲率の力学
2 2
''( )( )( ) '( )
| |
l
ab a b a b
a b a b
ab ab ab
ab ab
H y
u
H
 
 

    
    
 

e
w e w e w e
H H H
H

  

 
Euler‐Schouten曲率
Affine connection
距離法則 (Amari, 1974)
21
( , ') ( ')
1
( , ') ' '
' 2
ii
i i
D x x x x
n
C x x x x x x
n
D A A C
 
  
  


本当か!
( , ' )
( )
l lD D
D D


x x
等距離
フラストレーション
フラクタル
(N + 1)点
;n l   
Fisher 情報行列と逆向き情報伝播
221
( , ) ( ; ) ( , )
2
l x W y x W e x y  
確率 model : 深層回路の多様体
2
2
( ) ; ~ (0,1)
1
( , : ) exp{ ( ( ; )) } ( )
2
[ log ( , : ) log ( , : )]x W W
y u N
p y x W c y x W q x
G E p y x W p y x W
ds dWGdW
  

 
  
  

Fisher information
 
 
1 1 1
2 1 1
1
' ...
, (1/ )
, 0 ~ (1/ ),
, 0 ~ (1/ ),
m l
l l l m
m m m m
l l l
il m x p
l m p
l l
i j p
G E
W W
W B BB B
W W W W
G W W E O n
G W W O n l m
G O n i j
 
   

 
  
 
  
  
  
   
  
   
     
  
 
 
  
 

x
w x x
w w
Y. Ollivier
Unitwise natural gradient
1
WW G l 
   
Y. Ollivier; Marceau‐Caron
Fisher information of unit
 
 
0
2
1 2 1 2
E E [( ') ]
{ , ,... } { * , *,... , *}:ortho-normal basis
* ,
x
n n
n
y w
G
w

  
  
   


xx
e e e e e e
w
e
x w w
w x
 
 
2
1
0 0 0 1
simila: r of rm
B C
G A
G
  

I

ww wb+ bw
w w
b
Input  x: independent and identically distributed, 0‐mean
Resnet(residual net)
1 1
2 2
1 1
l l l
v
V W 
   
 
 
  
 
 
x x x
Karakida theory
eigenvalues of  G
 21 1 1
, 1i i O
P n P
   
distorted Riemannian metric
数理科学は面白い:
天国で遊ぶ趣がある
信号処理、ゲーム理論、Wasserstein幾何

Infomation geometry(overview)