テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)

Estimation of Multilinear Tensor Rank
テンソル多重線形ランクの推定法について
横田達也
名古屋工業大学
2017年6月27日テンソル勉強会
1

2
Introduction
Tensor is a general name of multi-dimensional array.
For the growth of information sensing, demands of tensor data
analysis are substantially increasing.
・
・
・
・
・
・
・
・
・
・
・
・
・・・
・・・
・・・
1d-tensor 2d-tensor 3d-tensor 4d-tensor 5d-tensor
Multi-channel time-series(2d)
Multi-channel
time-frequency signal(3d)
MRI data for multiple subjects(4d)
・・・
・・・
・・・
・・・
・・・
・・・
・・・
Subject 1 Subject 2 Subject N
Task 1
Task 2
Task M
Multi-channel time-frequency signals
for multiple mental tasks and subjects (5d)

テンソルの計算など
テンソルの線形変換
テンソルの分解
3
基礎編

N階のテンソルをで表し、
その成分を
または
で表す。
足し算(引き算)
同じ大きさの二つのテンソルの和は、
定数cに対するテンソルXの定数倍 cX は、
4
テンソルの計算(1)

アダマール積(Hadamard product)
同じ大きさの二つのテンソルのアダマール積は、
成分ごとの商(elementwise division)
同じ大きさの二つのテンソルの成分ごとの商は、
クロネッカー積(Kronecker product)
5

内積とノルム
同じ大きさの二つのテンソルの内積は、
X = Y のとき、フロベニウスノルムになる
6

テンソルの展開(Unforlding)
ベクトル化(vectorization)
7

n方向の行列化(n-way matricization)
8
-行列化の手順-
① テンソルをn方向へ
スライスする。
(In 個のスライス)
② 各スライスを行ベク
トルへ展開する。
(In 個のベクトル)
③ 各行ベクトルを上から
下に縦に並べる。

行列と行列の積
(I×J)行列・(J×K)行列 = (I×K)行列
テンソルと行列の積
(I×J×K)テンソル ×1 (L×I)行列 = (L×J×K)テンソル
(I×J×K)テンソル ×2 (L×J)行列 = (I×L×K)テンソル
(I×J×K)テンソル ×3 (L×K)行列 = (I×J×L)テンソル
9
=・
I
J
J
K K
I
I
J
K
×1
I
L = L
JK
I
L I
=
JK
L
JK
行列化
行列化
・

3階テンソルと3つの行列との積
10
I
J
K
×1
L = L
MN
×2
M
×3
N
I J K
I
L I
=
JK
L
MN
・・
MN
JK
行列化で表記すると
=IJK LMN・
ベクトル化で表記すると
IJK
LMN

いろいろなテンソル同士の積
外積 (s階テンソルとt階テンソルでs+t階テンソルになる)
11
I
J
K
L
JK
I
L
=
JK
L
JK
I I
L
=

一般的な線形変換
ベクトル化してみると考えやすい。
多重線形変換
12
テンソルの線形変換
任意の行列ではなく、特殊な線形変換になる
ベクトル式
テンソル式
任意の行列

一般の線形変換よりも少ない
行列の場合
3階テンソルの場合
n階テンソルの場合
13
多重線形変換の計算量
・・・
・・・
・・・
・・・

離散コサイン変換(DCT)
14
例：JPEG圧縮
一次元DCT基底
テンソルが
スパースになる
二次元DCT基底
+ ＋・・・+ +
低周波高周波
低
高
AC成分
DC成分
DC成分、差分ハフマン符号化
AC成分、ジグザグスキャンゼロランレングス符号化
量子化
ポイント：二次元DCT基底が分解可能！
C
T
C

テンソル分解
一つのテンソルを複数のテンソルまたは行列の掛け算の形に分解
する技術
15
テンソル分解
Tucker分解 CP分解
ポイント：分解可能な線形変換(基底)を考えている！

ベクトルデータの主成分分析
テンソルデータの多重線形変換に基づく主成分分析
16
テンソルデータに対する主成分分析
・・・  A
・・・
A
C
BT


Singular value decomposition for matrix
Higher order singular value decomposition (HOSVD)
17
テンソルに対する高階特異値分解
コアテンソルが全直交 (all-orthogonal)
テンソル
の行列化

テンソルをそれぞれの方向について行列化する
各行列を特異値分解すると各モードの基底行列が得られる
各基底ベクトルを用いた多重線形変換でコアテンソルが得られる
全直交性の証明
上式の行列化
証明
18
HOSVDの求め方

高階特異値分解はフルランクのみ
Tucker分解は低ランクを含む
19
高階特異値分解とTucker分解

データを低ランク分解モデルで近似可能なとき、
情報を削減できる。
部分空間が張れる。
モード特有の特徴パターンを抽出できる(かもしれない)。
予測に役立つ(補完、回帰)。
複数のモード(軸)に対して、別々の線形な変換をしたい
とき、実装上扱いやすくなる。
多次元のフーリエ変換
多次元のDCT変換など
上下左右斜めなどの情報を処理(微分など)に使いたいと
き、実装しやすい。
フィルタ、微分、曲率など
20
データをテンソルとして扱うことの利点

テンソルの低ランク分解
ランク推定
21
応用編

Tucker decomposition or
High order singular value decomposition (HOSVD) is
one of mathematical decomposition model for tensor.
It can be used for
dimensionality reduction (compression),
feature extraction (sparse / nonnegative / independent),
completion (estimation of missing value),
prediction (regression) and so on.
22
Tucker decomposition
～＝
T
Y A B
(I × J) (I × R) (R × J)(R × R)
D
=
Generalization
of matrix factorization

Low-rank approximation of matrix decomposition
Ex) R-rank approximation
What’s a multilinear tensor rank (MT rank)
Ex) (R1,R2,R3)-rank approximation of a 3D-tensor
Multilinear tensor rank is the size of core tensor
23
Low-rank approximation of tensor
～＝
T
Y A B
(I × J) (I × R) (R × J)(R × R)
D
Y
A D B
Y
G
(I1 × I2 × I3) (I1 × R1)
A
B
C
(R2 × I2)
(I3 × R3)
(R1 × R2 × R3)
T
＝～
Y
GA B
C

Appropriate accuracy and compression ratio are important for data
compression.
Rank is a trade-off parameter for both properties.
Compression ratio is linearly changed w.r.t. rank, but
Accuracy is non-linearly changed in many real problems.
It is important to estimate appropriate MT rank for compression
24
Compression & Rank
Higher rank
Lower rank
 High accuracy
 Low compression ratio
 Low accuracy
 High compression ratio
rank
Comp.ratio
rank
Accuracy

We assume that the observed data is generated by low-rank Tucker
model and additive noise.
Assumption : generated model can be characterized as Tucker model
Rank is an important parameter for the noise reduction
25
Noise reduction & Rank
rank
Accuracy
+
Too highToo low
 Over-fitting to noise Insufficient
to construct

テンソルのランク推定の研究について紹介
研究成果
スパースTucker分解を用いたテンソルランクの推定
T. Yokota, A. Cichocki. Multilinear tensor rank estimation via
sparse Tucker decomposition, In Proceedings of SCIS&ISIS2014,
pp. 478-483, 2014.
情報量基準を用いたテンソルランクの推定
T. Yokota, N. Lee, and A. Cichocki. Robust Multilinear Tensor
Rank Estimation Using Higher Order Singular Value
Decomposition and Information Criteria, IEEE Transactions on
Signal Processing, vol. 65, issue 5, pp. 1196-1206, 2017.
26
ランク推定の研究について紹介

ノイズ分散が既知と仮定する
コアテンソルがスパースと仮定する
スパースな低ランク分解を求めながら、不要な成分を取り
除いていくことで、ランクを推定する
国際学会で発表
T. Yokota, A. Cichocki. Multilinear tensor rank estimation via
sparse Tucker decomposition, In Proceedings of
SCIS&ISIS2014, pp. 478-483, 2014.
27
アプローチ(1)スパース制約の導入

Pruning Sparse Tucker Decomposition (PSTD)
L1-norm minimization of core tensor
Error bound of input tensor and reconstructed tensor
Orthogonal constraint of factor matrices
28
Proposed method & Algorithm
Orthogonal LS fix
Orthogonal LS fixfix fix
fix fix
fix Orthogonal LSfix fix
fix fixfix LASSO
…
…
Pruning step
(coefficient based)
sparse
Orthogonal

Main-problem
Sub-problem for U (orthogonal dictionary learning)
Criterion
Update rule
29
Sub-problem for U
Lagrange’s formalization Lagrange’s coefficient
Least squares solution
Orthogonalization

Sub-problem for G
We estimate optimal λ corresponding to ε by binary search.
Large λ  Sparse & Large error
Small λ  Dense & Small error
30
Sub-problem for G
Tensor form of original problem
Vector form in Lagrange’s method
Vector form of Y
Vector form of G
Error bound
For sparse coding
Error
λ
Non-linear monotonic
increasing function
 LASSO regression

We have sparse coefficient core tensor G
Detection of redundant slices
Pruning redundant slices & dictionaries for all directions
Value of nearly zero implies that the corresponding dictionary is
not used for representing data. (deleted by sparse coding)
31
Pruning step
Slice Unfold Sum of absolute (L1-norm)
relatively large
relatively large
nearly zero
relatively large
relatively small
nearly zero
relatively small
Prune !!
Prune !!

Data: synthetic data
Generated core tensor : (10 × 20 × 30)
Generated factor matrices: (25×10), (50×20), (75×30)
Input tensor is generated by
Convergence aspect 
Final objective value
1.5 e-2 ± 9,8 e-5
MT rank
Completely estimated
Sparsity of G
42.9 ± 0.626 %
Decreased iteration
99.9 %
32
Experiments: convergence
+
SNR = 10dB
Gaussian noiseTucker model
Applying PSTD algorithm

Data: synthetic data
(10 × 15 × 20), (20×10), (30×15), (40×20)
33
Experiments: MT rank estimation
+
SNR = 10dB
Gaussian noiseTucker model
Applying PSTD algorithm
Applying ARD Tucker [Morup & Hansen, 2009]
22
19
16
13
10
31
27
23
19
15
40
35
30
25
20
Mode-1
True rank: 10 ,
ARD Tucker: 13 – 19,
PSTD(proposed): 10
Mode-2
True rank : 15 ,
PSTD(proposed): 15
Mode-3
True rank : 20 ,
PSTD(proposed): 20,
PSTD could estimate MT rank completely!!!

We applied PSTD to image compression
We changed
SNR parameter = {25, 30, …, 45} for error bound
Quantization parameter: q in various values
34
Experiments: Image compression (1)
PSTD
(1024 × 1024)
(8×8×16384)
Bases of PSTD Bases of JPEG
Huffman coding
quantization(q) sorting
Sorting index
zero run-length Huffman coding
Huffman codingdifference
DC
AC
quantization(q) difference Huffman coding

35
PSTD outperformed JPEG in some domain
for each value of SNR parameter.

36
Best curve of PSTD tuning appropriate q PSTD
PSNR =
35.48 dB
Size =
212.9 Kbyte
Sparsity =
79.74 %
JPEG
PSNR =
35.17 dB
Size =
230.0 Kbyte
Sparsity =
76.74 %

ノイズの強さがあらかじめ分かっていなけらばならない。
計算時間が長め。
37
欠点

行列のランク推定に使われる情報量基準(MDL、AIC)をテ
ンソルに適用
その際に、低ランクTucker分解モデルにそのまま適用す
ると、低ランクテンソル特有のノイズに対する弱さが出て
しまう。
弱点を克服する工夫により精度を改善した。
論文誌で発表
T. Yokota, N. Lee, and A. Cichocki. Robust Multilinear Tensor
Rank Estimation Using Higher Order Singular Value
Decomposition and Information Criteria, IEEE Transactions on
Signal Processing, vol. 65, issue 5, pp. 1196-1206, 2017.
38
アプローチ２：情報量基準の導入

39
低行列ランク行列の固有値
低ランク行列：
I: 次元数
J: 標本数
白色ガウスノイズ：
データ行列：
理想の固有値実際の固有値

固有値の推定
ランク推定の指標
赤池情報量基準(AIC)
最小符号長(MDL), ベイズ情報量基準(BIC)
40
情報量基準を用いたランク推定
AIC/BIC
推定の固有値

行列のランク推定を用いる方法
ただし、行列分解モデルとはギャップがある。
R2,R3が既知と仮定したときの理想的な推定を以下のように考える。
共分散行列の分離モデル
41
低ランクテンソルのモード共分散
低ランク行列分解モデル低ランクテンソル分解モデル
固有値にノイズが上乗せされる

: HOSVDで得られるコアテンソルの行列化
: 真の低ランク分解で得られるコアテンソルの行列化(未知)
: ある並べ替え行列(未知)
42
固有値にノイズが上乗せされる理由

提案法1
アプローチ：X(1)で得られた固有値から上乗せ分を引きたい
: X(1)から計算した固有値行列
: ランク-サンプル比の推定値
: ノイズ分散の推定値
提案法2
アプローチ：HOSVDコアテンソルから固有値を再構成したい
: HOSVDのコアテンソルの行列化
: 推定した並べ替え行列
43
固有値の修正と提案手法

信号成分を含む二乗和は、含まない二乗和よりも大きくなる。
つまり、二乗和値をソートするような並べかえ行列を考える。
ランク-サンプル比の推定値は難しい。
しかし、十分小さな値をおけば良いことが実験から分かった。
44
並べ替え行列の推定
二乗和
ソート
ノイズ成分
信号成分

修正固有値とMDL(BIC)曲線, （ρが大きめ）
Ideal：R2, R3が既知としたときの固有値
MEET：固有値から定数を引き算したもの
SCORE: HOSVDコアテンソルから再構成した固有値
45
実験結果

修正固有値とMDL(BIC)曲線, （ρが小さめ）
Ideal：R2, R3が既知としたときの固有値
MEET：修正固有値が負になってしまう
SCORE: どんなにρが小さくても修正固有値は常に正
46
実験結果(2)

(ρ,σ)の値を動かしたときの推定精度の変化
標準のMDL：ρに依存しない
MEET: 負値にならない範囲のρで精度が向上
SCORE: 小さいρを採用すると飛躍的に精度が向上
47
実験結果(3)
標準MDL MEET SCORE

その他手法との比較
テンソルベースの手法,
(R1,R2,R3)の一組を一単位と
して全通りから、最適な組
を見つける。
MLREST: `Tensorlab’で実
装されている。L-曲線を描
き、そこから見つける。
DIFFIT : 寄与率を頼りに
組を見つける。
行列ベースの手法、テンソ
ルを行列化し、その行列に
対してランク推定をする。
SORTE、QDA: 固有値を微
分して、さらに前後の比を
みるような指標を用いてい
る。微妙な計算の違いがあ
る。
MDL：そのまま
LAP：ラプラス近似を用い
た確率的な評価指標
SCORE：提案手法
48
実験結果(4)

テンソルの多重線形な演算について紹介
テンソル分解とそのランク推定法について紹介
49
まとめ

テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)

Similar to テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank) (20)

More from Tatsuya Yokota

More from Tatsuya Yokota (8)

テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)