Manifold

流形学习LLE
汇报人：孙佩源
2015.05.07

Think Globally, Fit Locally:
Unsupervised Learning of Low Dimensional
Manifolds JMLR2003
• Lawrence K. Saul
University of Pennsylvania
• Sam T. Roweis
University of Toronto

Unsupervised learning
• Density estimation
• learn the parameters of a probabilistic model that can be used to predict or
assess the novelty of future observation
• Dimensionality reduction
• obtain more compact representations of the original data that capture the
information necessary for higher-level decision making
线性
非线性
主成分分析 PCA
线性判别分析 LDA
保留局部性质
不保留局部性质
LLE
LE
LTSA
基于距离
核函数
ISOMAP
MDS
KPCA

Dimensionality reduction (PCA)
Principal Component Analysis采用线性投影的方法进行降维，它的目
的是使得数据在给定的方向上投影会得到最大的方差
目标函数：
1
max { }T
w
Var w x


给定一组N个观测数据，为D维欧式空间中的点，将其映射
到维度的空间中，并最大化投影后的数据点的方差
一维情形
不失一般性，假设维空间一个单位向量，s.t. ，则数据点投影到该单位向量为
一个标量值：。
投影到上的点的均值：
方差为：
{ }nx nx
M D
1M 
D 1u 1 1 1T
u u  nx
1
T
nu x
1u
1
1 N
n
n
x x
N 
 
 
  
2
1 1 1 1
1
1
1
1
N
T T T
n
n
N
T
n n
n
u x u x u Su
N
S x x x x
N


 
  



给定一组N个观测数据，为D维欧式空间中的点，将其映射
到维度的空间中，并最大化投影后的数据点的方差
一维情形
问题转化为：
拉格朗日乘数法：
对求导并置为0，可得：
进一步可得：
{ }nx nx
M D
1M 
1 1
1 1
max{ }
. . 1
T
T
u Su
s t u u 
1 1 1 1 1(1 )T T
L u Su u u  
u 1 1 1Su u 为的特征向量1u S
1 1 1
T
u Su 

优点：对于椭球形分布的样本集有很好的效果，学习所得的主方向
就是椭球的主轴方向
缺点：对于非线性情况失效

Dimensionality reduction (MDS)
Multidimensional Scaling将高维空间中的点映射到低维空间中并尽量保持
每对节点间的距离不变
1. 距离矩阵
2. 目标函数

流形Manifold
设M是一个Hausdorff拓扑空间，若对每一点都有P的一个开邻域U和
的一个开子集同胚, 则称M为d维拓扑流形, 简称为d维流形.
𝑝 ∈ 𝑀
d
¡
M
x1
x2R2
Rn
z
x
x: coordinate for z
U
局部和一个低维欧式空间存在光滑的一一映射关系

例子：球面
• 三维欧式空间坐标
• 极坐标公式
0
0
0
sin cos
sin sin
cos
x x r
y y r
z z r
 
 

 
 
 

流形学习可行性
• 许多高维采样数据来自于潜在的一个低维流形
例如：对一个人不同位置不同姿势的面部采样，通常只由光照、
人的空间位置，头部姿势等决定。

LLE算法
• 前提假设
• 采样数据所在的低维流形在局部是线性的，即每个采样点可以用
它的近邻点线性表示。
• 学习目标
• 原始空间中局部邻域内的最优线性重组权值
• 低维流形中保持最优线性重组权值下计算最优嵌入
假设列向量，为D维空间中的采样数据，LLE算法计算得到d维列向
量，满足在高维空间中的邻居点重构系数对于降维后的同
样要保持关系
1 2
{ , , }N
X x x x L
1 2
{ , , }N
Y y y y L i
x ij
w i
y
i ij ij
i
y w y 

Step 1：Neighborhood Search
• 每个点选取最近的K个邻居节点（欧几里得距离）
• 一定范围内的K可以获取稳定的LLE结果
• 算法假设点的邻域为线性，过大的K会违反这个假设
• 算法复杂度为
• 使用K-D树复杂度为
2
( )O DN
( log )O N N

Step2: Constrained Least Squares Fits
• 计算权重矩阵，最小化线性重组误差：
• S.T.
• 1. 稀疏性：除了K个邻居节点外均为0
• 2. 平移不变性：
ijW
2
( )
k
i ij j
i j
E W X W X  
ijW
1ij
j
W 

• 旋转和伸缩不变性
旋转和伸缩变换可以用矩阵R表示，假设进行旋转或伸缩变换后邻居点权重向量为
即： 1 2, , ,
T
kv v v v L
1 1 2 2
1
1 1
1
1
1 1
k
i j j k k
j
k
i j j
j
k
i j j
j
k k
j j j j
j j
Rx v Rx v Rx v Rx v Rx
R Rx v R Rx
x v x
w x v x
w v

 


 
    







 
L

• 平移不变性
对每个数据点做平移t
1
1 1 1
( )
K
i j j
j
K K K
j j j j j
j j j
x t v x t
w x t v x v t
w v

  
  
  


   1j
j
w 

• 计算
1. 假设高维采样数据点，维度为D，则重构矩阵W为如下形式：1 2
{ , , }N
X x x x L
1 11 12 1
2 21 22 2
1 2
1 2
N
N
N N N NN
N
x w w w
x w w w
x w w w
x x x
 
 
 
 
 
 
L
L
M L L O L
L
L
可以一次对一个点计算W中的一列元素
2
i i j j
j
x w   

• 计算
2. 代价函数推导
2
1
2
1 2
2
2
( , , , )
( , , , )
( )
(( ) ) (( ) )
( ) ( )
( ) ( )
K
i i j j
j
i K
i i i
T
T T
T T
jk i j i k
x w
x Nw N n n n
Xw Nw X x x x
X N w
X N w X N w
w X N X N w
w Gw G x x
 
 

 
  
  
 
  
  
    

L
L

• 计算
3. 求解
使用拉格朗日乘法最小化
min
. . 1
T
i
T
w Gw
s t w I
 

( ) ( )
2 0
T T
L w w Gw w I
L
Gw I
w
Gw cI


 

  

 （c为常量，将其置为1，求解出w，再进行缩放使其和为1）

• 计算
4. G矩阵退化
如果邻居节点数K大于数据采样的维度D，则最小化误差将得到不止一组解
例如：二维平面的采样点选取4个邻居节点，则最小化误差将不止一组解
此时G矩阵为：

• 计算
4. G矩阵退化
 
2
jk jk jkG G Tr G
K

 
   
 
1
0
jk
if j k
otherwise


 

2
1 =

• 计算
5. 复杂度：
6. 代码：
3
( )O DNK

Step3: Eigenvalue Problem
• 基于高维空间中的重组矩阵，求在低维空间的象（），
使得低维空间的重构误差最小：
• S.T.
• 1. （消除平移自由）
• 2. （消除旋转自由和缩放自由）
2
( )
k
i ij j
i j
Y Y W Y   
0i
i
Y 
ijW iX iY
1
1
T
i i
i
YY I
N



d维

• 计算
1. 用表示矩阵Y的第i列，用表示权值矩阵W的第i列，用表示单位矩阵的第i
列，则代价函数表示为：
iy iw iI
2
1 1
2
1
2
1
( )
N N
i ij j
i j
N
i i
i
N
i i
i
y w y
YI Yw
Y I w
 



 
 
 


2 2
( )T T
i i i
i i
a a a trace A A A   由于
2
( )Y I W 
22 2 2 T
ij jiA a a A   由于
2
( )
( ( )( ) )
( )
T T
T T
T
I W Y
trace Y I W I W Y
trace YMY
 
  


• 计算
2. 使用拉格朗日乘法求解
( ) [ ( 1) ]
2 2 0
T T
T T
T T
L Y YMY YY N I
L
MY Y
Y
MY Y



   

  

 
的各列（的各行）为矩阵M的若干个最小的特征向量时，L取得最小值T
Y Y

• 计算
3. 舍弃零特征值对应的特征向量保留d个最小的非零特征值对应的特征向量
 
1
2
1 2
T
T
N d N
T
d d N
u
u
Y y y y
u


 
 
  
 
 
  
L
M

Manifold

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (11)

Similar to Manifold

Similar to Manifold (19)

Recently uploaded

Recently uploaded (10)

Manifold

Editor's Notes