Research27. 有限次元データとシーケンスデータ
長さが固定されたデータ (有限次元データ):
(x1, . . . , xi , . . . , xd ) , xi ∈ R.
長さが可変なデータ (シーケンスデータ):
[(x1, . . . , xi , . . . , xT ) , T] , xi ∈ R, T ∈ N.
シーケンスデータでは,長さ T もデータに応じて変化する.した
がって,最初から次元を固定して考えることができない.
このようなデータの例として,動画,文章や時系列データ等が考え
られる
Beamer 11 月 25 日 2019 7 / 35
15. シーケンスモデリングに対する近年の動向
[2, 4] では,TCN を用いることによりある安定性を満たす RNN が近
似可能であることが示された.
また, [7] では音声生成モデリングにおいて,TCN が有効に働くこ
とがされた.また,[1] では,長期的な依存をとらえるタスクにおい
て,単純な TCN モデルでさえ RNN を超えることを数値実験的に示
している.
自然言語処理においては,アテンションを用いた Transformer という
モデル [8] が翻訳タスクにおいて強力な性能を発揮することを示し
ている.
このように,いくつかのタスクでは CNN と Attention を用いるモデ
リングが RNN を用いたモデリングよりも高い効果を発揮することが
わかってい る.
Beamer 11 月 25 日 2019 15 / 35
17. TCN の定義
シーケンスに対する CNN (TCN) の定義は,[3] と同じ定義を用いる.現
実では,この定義以外にさまざまな形の CNN が用いられる.
TCN (Temporal Convolutional Network)
m > 0, η(·) = ReLU(. . . ), W (i) ∈ Rpl+1×pi , b(i) ∈ Rpi , xt−m:t =
[xt−m, . . . , xi , . . . , xt]t (pl > 0, i = 1, . . . , L) として,定義されたニューラ
ルネットワーク,
yt = (W (L)
η(·) + b(L)
) ◦ · · · ◦ (W (i)
η(·) + b(i)
) ◦ · · · ◦ (W (1)
xt−m:t + b(1)
)
を幅 m の TCN モデルと呼ぶ.
Beamer 11 月 25 日 2019 17 / 35
18. 一般的なアテンションの定義 (有限次元の場合)
Attention(有限次元)
関数空間 x ∈ Rd , Bϕ > 0 とする.Fs, Fϕ を次のような性質を満たす関
数とする:
Fs =
{
s(·) : Rd
→ [0, 1] : ∀x ∈ Rd
,
Q∑
i=1
si (x) = 1
}
Fϕ =
{
ϕ(·) : Rd
→ Rd
: ∥ϕ∥∞ ≤ Bϕ
}
有限次元のアテンションモデルは一般的には次のように定義される:
ATN(Q, Fs, Fϕ) =
{ Q∑
i=1
si (x)ϕi (x) : si ∈ Fs, ϕi ∈ Fϕ
}
Beamer 11 月 25 日 2019 18 / 35
19. アテンション構造を持つモデルの例
Nadaraya Watson 推定量
K を K > 0 を満たすようなカーネルとする.データ,(xi , yi ) ∈ Rd × R が
得られた時,
ˆf (x) =
n∑
i=1
K(x − xi )
∑n
i=1 K(x − xi )
yi
を Nadaraya Watson 推定量と呼ぶ.
Nadaraya Watson 推定量は,si (x) =
∑n
i=1
K(x−xi )∑n
i=1 K(x−xi )
,ϕi (x) = yi
とした場合のアテンションモデルに一致する.
si (x) は一般には,x が xi に近ければ近いほど 1 に近い値をとるよう
なモデルにする.
Beamer 11 月 25 日 2019 19 / 35
20. シーケンスデータに対するアテンションモデル
アテンションモデルにも,TCN の場合同様様々な定義が考えられるがこ
こでは Transformer [8] から着想を得た次の定義を使用する.このような
アテンションを,マルチヘッドと呼ぶこともある.
アテンション (シーケンスモデル)
mc > 0, ˆf (·) : Rmc → R をあるモデルとする.アテンションモデルは,
W ∈ Rmc ×mc , c(·, ·, ·) : R3 → [0, 1] とする.また,
Ci = [ci (x1, xT , T − 1), . . . , ci (xT , xT , 0)]t
, |Ci |1 = 1
C = [C1, . . . , Cmc ]
として,アテンションモデルは次のように定義される:
ATN(ˆf , C) = ˆf
(
W [Ct
1x1:T , . . . , Ct
i x1:T , . . . , Ct
mc
x1:T ]t
)
Beamer 11 月 25 日 2019 20 / 35
22. 加法アテンション
あるニューラルネットワーク FNN : R3 → R を用いて,
ci (xt, xT , T − t) =
exp(FNN(xt, xT , T − t))
∑T
t=1 exp(FNN(xt, xT , T − t))
と書けるようなモデルを加法アテンションと呼ぶ.本発表では,加法ア
テンションを導入したモデルについて話を進める.これ以降では ci すべ
てについてこれを仮定する.
Beamer 11 月 25 日 2019 22 / 35
23. TCN とアテンションの比較
図 6 のように CNN は局所的な情報に注目し,アテンションは全体に
注目する.
さらに,アテンションは次元 T に応じて全結合の構造を記述できて
いる.
また,ある位置同士の依存関係をらえて重みづけすることができる.
Figure: CNN(右) とアテンション (左)
Beamer 11 月 25 日 2019 23 / 35
25. 結果 1:仮定
シーケンスの分布に関する仮定
x = [(x1, . . . , xT ), T] の確率分布,Px に関してある,Tϵ が存在して
Px (T ≥ Tϵ) ≤ ϵ が成立する.
1 ≤ q ≤ 2Q に対して,E[Tq] < ∞
畳み込みに対する仮定
f (x) =
∑k
T−t=0 aT−txt とする.
a+
i = ai 1ai >0,a−
i = ai 1ai <0 とおく.ある α > 0 が存在して
∑k
T−t=0 a+
t ≥ αk,
∑k
T−t=0 a−
t ≥ αk を仮定する.
Beamer 11 月 25 日 2019 25 / 35
26. 結果 1:TCN は加法アテンションモデルにより近似可能
Theorem 5.1 (アテンションによる TCN の近似)
これらの仮定を満たすとき,∀ϵ > 0 に対し,ReLU 加法注意を用いたアテ
ンション
ˆf (x) = w+
∑T
t=0 c+(xt, xT , T − t)xt − w−
∑T
t=0 c−(xt, xT , T − t)xt が存
在し,
∥f (x) − ˆf (x)∥2
L2(Px ) ≤ Cϵ
Q
Q−1 , C > 0
が成立する.
ここでは,ReLU 加法アテンションを用いているが,tanh を用いた
場合についても証明は可能.
Beamer 11 月 25 日 2019 26 / 35
27. 証明についての概略:Step1
相異なる整数,n1 < n2 < · · · < nk に関して,
H(x) =
k∑
i=1
˜ai 1x=ni + B1x>nk
, ˜ai , B ∈ R
とする.ある 2 層の ReLU ニューラルネットワーク ˆFNN(x) が存在して,
∀n ∈ N+
, ˆFNN(n) = H(n)
とできる.
Beamer 11 月 25 日 2019 27 / 35
28. 証明についての概略:Step2
A+ =
{
t : t ∈ [k], a+
t > 0
}
とする.仮定より,次の式を定義することが
可能となる.
H(xt, xT , T − t) =
∑
T−t∈A+
(log a+
T−t)1T−t=i − B1T−t /∈A+
.
この時,分布に対する仮定 P(T ≥ Tϵ) ≤ ϵ となる Tϵ を用いて,
B = log Tϵ
ϵ とすれば, H に関する加法注意の重み関数は T ≤ Tϵ の時,
∀T − t ∈ A+, c+(xt, xT , T − t) =
aT−t
∑
t∈A+
aT−t + ϵ
Tϵ
∀T − t /∈ A+, c+(xt, xT , T − t) =
ϵ
Tϵ
∑
t∈A+
aT−t + ϵ
Tϵ
.
を満たす.
Beamer 11 月 25 日 2019 28 / 35
29. 証明についての概略:Step2
w+ =
∑
i∈A+
a+
i と置くと,
∥
∑
T−t∈A+
a+
T−txt − w+
T∑
t=0
c(xt, xT , T − t)xt∥L2(Px )
≤ ∥
∑
T−t∈A+
a+
T−txt − w+c(xt, xT , T − t)xt∥L2(Px )
+ ∥w+
∑
T−t /∈A+
c(xt, xT , T − t)xt∥L2(Px )
ここで,T ≤ Tϵ の時,仮定より上式右辺第1項,第2項は ϵ
α で抑えられ
る.したがって,全体は 2
α ϵ で抑えられることになる.
Beamer 11 月 25 日 2019 29 / 35
30. 証明についての概略:Step2
T ≥ Tϵ の時,∆ =
∑
T−t∈A+
a+
T−txt − w+
∑T
t=0 c(xt, xT , T − t)xt は,
どんな T に対しても,w+T で抑えられるので,
E[∆21T>Tϵ ] ≤ w2
+E[T21T>Tϵ ] が成立する.ここで,仮定より,
E[T2Q] < ∞ だからヘルダーの不等式より,
E[∆2
1T>Tϵ ] ≤ w2
+E[T2Q
]
1
Q ϵ
Q−1
Q
が成り立つ.これらの結果を合わせると,
∥∆2
∥2
L2(Px ) ≤ CQϵ
Q−1
Q , CQ > 0
となる.
Beamer 11 月 25 日 2019 30 / 35
33. 考察と今後の方針
TCN がアテンションモデルにより近似可能であることを示したが,
ここで用いられている定義以外の TCN に対しても同様のことがいえ
るだろうか?(おそらく言えます).
アテンションモデルは,どのような関数クラスを表現できるのだろ
うか? (TCN は xT−m:T の入力だけに依存するヘルダー関数であれば
minimax optimality を達成できる. [6])
どれだけ複雑な特徴量選択規則を記述できるのか?
長さ T の分布に対する依存性をより詳細に記述できるか?
加法モデル以外のアテンションの場合は? (内積モデル等)
Beamer 11 月 25 日 2019 33 / 35
34. Reference I
[1] Shaojie Bai, J. Zico Kolter, and Vladlen Koltun.
An empirical evaluation of generic convolutional and recurrent networks for sequence
modeling, 2018.
[2] Boris Hanin and Mark Sellke.
Approximating continuous functions by relu nets of minimal width.
ArXiv, abs/1710.11278, 2017.
[3] Joshua Hanson and Maxim Raginsky.
Universal approximation of input-output maps by temporal convolutional nets.
ArXiv, abs/1906.09211, 2019.
[4] John Miller and Moritz Hardt.
Stable recurrent models.
In International Conference on Learning Representations, 2019.
[5] Kenta Oono and Taiji Suzuki.
Approximation and non-parametric estimation of resnet-type convolutional neural networks,
2019.
Beamer 11 月 25 日 2019 34 / 35
35. Reference II
[6] Johannes Schmidt-Hieber.
Nonparametric regression using deep neural networks with relu activation function.
ArXiv, abs/1708.06633, 2017.
[7] Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex
Graves, Nal Kalchbrenner, Andrew Senior, and Koray Kavukcuoglu.
Wavenet: A generative model for raw audio, 2016.
[8] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez,
L ukasz Kaiser, and Illia Polosukhin.
Attention is all you need.
In I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and
R. Garnett, editors, Advances in Neural Information Processing Systems 30, pages
5998–6008. Curran Associates, Inc., 2017.
Beamer 11 月 25 日 2019 35 / 35