Research2

アテンションネットワークの推定精度の解析
奥本翔
指導教員:鈴木大慈准教授
数理情報学専攻数理第 6 研究室修士１年
11 月 25 日 2019
Beamer 11 月 25 日 2019 1 / 35

1 研究の動機
2 問題設定とシーケンスデータについて
3 シーケンス学習の手法
4 TCN とアテンションの定義
5 研究の進捗
6 今後の方針
Beamer 11 月 25 日 2019 2 / 35

1 研究の動機
5 研究の進捗
6 今後の方針
Beamer 11 月 25 日 2019 3 / 35

研究の目標と動機
シーケンスモデルリングにおいて，CNN，アテンションモデルが
RNN の推定精度を上回ることが実験的に報告されている． [8, 7, 1]
また，いくつかの研究では [4, 3]，CNN がある条件を満たす RNN を
近似することが可能であることが示されている．しかし，具体的な
推定精度は導出されていない
そこで，この研究ではシーケンスモデリングにおける CNN，アテン
ションモデルの推定精度を解析することが目標である．
本発表では，シーケンスに対する CNN (TCN) とアテンションモデ
ルを紹介したのちに，現在の進捗について報告する．
Beamer 11 月 25 日 2019 4 / 35

1 研究の動機
5 研究の進捗
6 今後の方針
Beamer 11 月 25 日 2019 5 / 35

問題設定
本資料で対象にする問題設定を与える．
回帰問題
いま，得られたデータ (xi , yi ) について，関数 f ◦ ∈ F と σ > 0 が存在し，
yi = f ◦
(xi ) + ϵi , ϵi ∼ N(0, σ2
)
であると仮定する．この時，f ◦ を推定することが目標となる．推定量 ˆf
に対する誤差は，
∥f ◦
− ˆf ∥L2(Px )
で測る．
Beamer 11 月 25 日 2019 6 / 35

有限次元データとシーケンスデータ
長さが固定されたデータ (有限次元データ)：
(x1, . . . , xi , . . . , xd ) , xi ∈ R.

長さが可変なデータ (シーケンスデータ)：
[(x1, . . . , xi , . . . , xT ) , T] , xi ∈ R, T ∈ N.
シーケンスデータでは，長さ T もデータに応じて変化する．した
がって，最初から次元を固定して考えることができない．
このようなデータの例として，動画，文章や時系列データ等が考え
られる
Beamer 11 月 25 日 2019 7 / 35

固定次元データに対する推定精度
固定次元データに対する深層モデルの近似・推定精度については，すで
にいくつかの研究でレートが示されている．
関数空間 d 次元ヘルダー空間 d 次元ヘルダー空間
モデル全結合 NN [6] CNN [5]
近似精度 (パラメータ数 N) Õ(N−β
d ) Õ(N−β
d )
推定精度 (データ数 n) Õ(n
− β
2β+d ) Õ(n
− β
2β+d )
これらのバウンドは，次元 d に対する依存性が出てきている．した
がって，シーケンスデータにこのバウンドを適用すると極めて緩い
バウンドになってしまう．
Beamer 11 月 25 日 2019 8 / 35

1 研究の動機
5 研究の進捗
6 今後の方針
Beamer 11 月 25 日 2019 9 / 35

シーケンス学習に用いられる手法
一般にシーケンスは次元が可変かつ，膨大な値になることが多いた
め全結合 NN でトレーニングすることは難しい．
そこで，一般的には RNN，TCN，Attention といったアーキテクチャ
が用いられる．
近年の自然言語処理や，時系列モデリング，また画像モデリング等
ではアテンションを用いたネットワークがよく用いられている．
Beamer 11 月 25 日 2019 10 / 35

RNN
RNN では，得られたデータを時間の順番に写像して，次の層へ送る．
Figure: RNN
Beamer 11 月 25 日 2019 11 / 35

TCN(CNN)
TCN では，時間方向に対して畳み込みを行い，次の層へ送る．この処理
を何度も行うことにより長期的，複雑な依存関係をとらることが目標で
ある．
Figure: CNN
Beamer 11 月 25 日 2019 12 / 35

アテンション (注意機構)
アテンションでは，シーケンスの要素同士の依存・位置関係から重要な
要素を取り出して次の層へ伝達する．このような構造により，TCN，
RNN よりも高い近似能力を持つことが期待される．
Figure: アテンション
Beamer 11 月 25 日 2019 13 / 35

アテンションはシーケンスモデルに対する全結合
一般的に，シーケンスモデリングの際には長さの膨大さや計算量の
観点から全結合なネットワークは利用できない．
しかし，アテンションでは結合係数を有限個のパラメータでパラメ
トライズした関数としてみなすことで全結合に近い構造を実現して
いるとみることができる．
Figure: アテンション
Beamer 11 月 25 日 2019 14 / 35

シーケンスモデリングに対する近年の動向
[2, 4] では，TCN を用いることによりある安定性を満たす RNN が近
似可能であることが示された．
また， [7] では音声生成モデリングにおいて，TCN が有効に働くこ
とがされた．また，[1] では，長期的な依存をとらえるタスクにおい
て，単純な TCN モデルでさえ RNN を超えることを数値実験的に示
している．
自然言語処理においては，アテンションを用いた Transformer という
モデル [8] が翻訳タスクにおいて強力な性能を発揮することを示し
ている．
このように，いくつかのタスクでは CNN と Attention を用いるモデ
リングが RNN を用いたモデリングよりも高い効果を発揮することが
わかっている．
Beamer 11 月 25 日 2019 15 / 35

1 研究の動機
5 研究の進捗
6 今後の方針
Beamer 11 月 25 日 2019 16 / 35

TCN の定義
シーケンスに対する CNN (TCN) の定義は，[3] と同じ定義を用いる．現
実では，この定義以外にさまざまな形の CNN が用いられる．
TCN (Temporal Convolutional Network)
m > 0, η(·) = ReLU(. . . ), W (i) ∈ Rpl+1×pi , b(i) ∈ Rpi , xt−m:t =
[xt−m, . . . , xi , . . . , xt]t (pl > 0, i = 1, . . . , L) として，定義されたニューラ
ルネットワーク，
yt = (W (L)
η(·) + b(L)
) ◦ · · · ◦ (W (i)
η(·) + b(i)
) ◦ · · · ◦ (W (1)
xt−m:t + b(1)
)
を幅 m の TCN モデルと呼ぶ．
Beamer 11 月 25 日 2019 17 / 35

一般的なアテンションの定義 (有限次元の場合)
Attention(有限次元)
関数空間 x ∈ Rd , Bϕ > 0 とする．Fs, Fϕ を次のような性質を満たす関
数とする:
Fs =
{
s(·) : Rd
→ [0, 1] : ∀x ∈ Rd
,
Q∑
i=1
si (x) = 1
}
Fϕ =
{
ϕ(·) : Rd
→ Rd
: ∥ϕ∥∞ ≤ Bϕ
}
有限次元のアテンションモデルは一般的には次のように定義される:
ATN(Q, Fs, Fϕ) =
{ Q∑
i=1
si (x)ϕi (x) : si ∈ Fs, ϕi ∈ Fϕ
}
Beamer 11 月 25 日 2019 18 / 35

アテンション構造を持つモデルの例
Nadaraya Watson 推定量
K を K > 0 を満たすようなカーネルとする．データ，(xi , yi ) ∈ Rd × R が
得られた時，
ˆf (x) =
n∑
i=1
K(x − xi )
∑n
i=1 K(x − xi )
yi
を Nadaraya Watson 推定量と呼ぶ．
Nadaraya Watson 推定量は，si (x) =
∑n
i=1
K(x−xi )∑n
i=1 K(x−xi )
，ϕi (x) = yi
とした場合のアテンションモデルに一致する．
si (x) は一般には，x が xi に近ければ近いほど 1 に近い値をとるよう
なモデルにする．
Beamer 11 月 25 日 2019 19 / 35

シーケンスデータに対するアテンションモデル
アテンションモデルにも，TCN の場合同様様々な定義が考えられるがこ
こでは Transformer [8] から着想を得た次の定義を使用する．このような
アテンションを，マルチヘッドと呼ぶこともある．
アテンション (シーケンスモデル)
mc > 0, ˆf (·) : Rmc → R をあるモデルとする．アテンションモデルは，
W ∈ Rmc ×mc , c(·, ·, ·) : R3 → [0, 1] とする．また，
Ci = [ci (x1, xT , T − 1), . . . , ci (xT , xT , 0)]t
, |Ci |1 = 1
C = [C1, . . . , Cmc ]
として，アテンションモデルは次のように定義される:
ATN(ˆf , C) = ˆf
(
W [Ct
1x1:T , . . . , Ct
i x1:T , . . . , Ct
mc
x1:T ]t
)
Beamer 11 月 25 日 2019 20 / 35

マルチヘッドアテンション
マルチヘッドとは，CNN におけるチャネルとほぼ同じ概念である．直感
的には，多チャネル CNN の重みの部分をアテンションの関数に変えたも
のであるととらえられる．
Figure: マルチヘッドアテンション
Beamer 11 月 25 日 2019 21 / 35

加法アテンション
あるニューラルネットワーク FNN : R3 → R を用いて，
ci (xt, xT , T − t) =
exp(FNN(xt, xT , T − t))
∑T
t=1 exp(FNN(xt, xT , T − t))
と書けるようなモデルを加法アテンションと呼ぶ．本発表では，加法ア
テンションを導入したモデルについて話を進める．これ以降では ci すべ
てについてこれを仮定する．
Beamer 11 月 25 日 2019 22 / 35

TCN とアテンションの比較
図 6 のように CNN は局所的な情報に注目し，アテンションは全体に
注目する．
さらに，アテンションは次元 T に応じて全結合の構造を記述できて
いる．
また，ある位置同士の依存関係をらえて重みづけすることができる．
Figure: CNN(右) とアテンション (左)
Beamer 11 月 25 日 2019 23 / 35

1 研究の動機
5 研究の進捗
6 今後の方針
Beamer 11 月 25 日 2019 24 / 35

結果 1:仮定
シーケンスの分布に関する仮定
x = [(x1, . . . , xT ), T] の確率分布，Px に関してある，Tϵ が存在して
Px (T ≥ Tϵ) ≤ ϵ が成立する．
1 ≤ q ≤ 2Q に対して，E[Tq] < ∞
畳み込みに対する仮定
f (x) =
∑k
T−t=0 aT−txt とする．
a+
i = ai 1ai >0，a−
i = ai 1ai <0 とおく．ある α > 0 が存在して
∑k
T−t=0 a+
t ≥ αk,
∑k
T−t=0 a−
t ≥ αk を仮定する．
Beamer 11 月 25 日 2019 25 / 35

結果 1:TCN は加法アテンションモデルにより近似可能
Theorem 5.1 (アテンションによる TCN の近似)
これらの仮定を満たすとき，∀ϵ > 0 に対し，ReLU 加法注意を用いたアテ
ンション
ˆf (x) = w+
∑T
t=0 c+(xt, xT , T − t)xt − w−
∑T
t=0 c−(xt, xT , T − t)xt が存
在し，
∥f (x) − ˆf (x)∥2
L2(Px ) ≤ Cϵ
Q
Q−1 , C > 0
が成立する．
ここでは，ReLU 加法アテンションを用いているが，tanh を用いた
場合についても証明は可能．
Beamer 11 月 25 日 2019 26 / 35

証明についての概略:Step1
相異なる整数，n1 < n2 < · · · < nk に関して，
H(x) =
k∑
i=1
˜ai 1x=ni + B1x>nk
, ˜ai , B ∈ R
とする．ある 2 層の ReLU ニューラルネットワーク ˆFNN(x) が存在して，
∀n ∈ N+
, ˆFNN(n) = H(n)
とできる．
Beamer 11 月 25 日 2019 27 / 35

A+ =
{
t : t ∈ [k], a+
t > 0
}
とする．仮定より，次の式を定義することが
可能となる．
H(xt, xT , T − t) =
∑
T−t∈A+
(log a+
T−t)1T−t=i − B1T−t /∈A+
.
この時，分布に対する仮定 P(T ≥ Tϵ) ≤ ϵ となる Tϵ を用いて，
B = log Tϵ
ϵ とすれば， H に関する加法注意の重み関数は T ≤ Tϵ の時，
∀T − t ∈ A+, c+(xt, xT , T − t) =
aT−t
∑
t∈A+
aT−t + ϵ
Tϵ
∀T − t /∈ A+, c+(xt, xT , T − t) =
ϵ
Tϵ
∑
t∈A+
aT−t + ϵ
Tϵ
.
を満たす．
Beamer 11 月 25 日 2019 28 / 35

w+ =
∑
i∈A+
a+
i と置くと，
∥
∑
T−t∈A+
a+
T−txt − w+
T∑
t=0
c(xt, xT , T − t)xt∥L2(Px )
≤ ∥
∑
T−t∈A+
a+
T−txt − w+c(xt, xT , T − t)xt∥L2(Px )
+ ∥w+
∑
T−t /∈A+
c(xt, xT , T − t)xt∥L2(Px )
ここで，T ≤ Tϵ の時，仮定より上式右辺第１項，第２項は ϵ
α で抑えられ
る．したがって，全体は 2
α ϵ で抑えられることになる．
Beamer 11 月 25 日 2019 29 / 35

T ≥ Tϵ の時，∆ =
∑
T−t∈A+
a+
T−txt − w+
∑T
t=0 c(xt, xT , T − t)xt は，
どんな T に対しても，w+T で抑えられるので，
E[∆21T>Tϵ ] ≤ w2
+E[T21T>Tϵ ] が成立する．ここで，仮定より，
E[T2Q] < ∞ だからヘルダーの不等式より，
E[∆2
1T>Tϵ ] ≤ w2
+E[T2Q
]
1
Q ϵ
Q−1
Q
が成り立つ．これらの結果を合わせると，
∥∆2
∥2
L2(Px ) ≤ CQϵ
Q−1
Q , CQ > 0
となる．
Beamer 11 月 25 日 2019 30 / 35

結果の解釈
定理 5.1 により，畳み込みがアテンションにより表現できることが
示された．ある安定性を持つ RNN が TCN によって近似されること
はすでに示されている [3, 4]．
近似の精度は，シーケンスの長さの期待値 E[T2Q] に依存すること
より長期的な依存を持つモデルであればあるほど難しくなると考え
られる．
アテンションは，TCN 自体を近似できるので当然安定性を持つ
RNN も近似可能であることがわかる．
Beamer 11 月 25 日 2019 31 / 35

1 研究の動機
5 研究の進捗
6 今後の方針
Beamer 11 月 25 日 2019 32 / 35

考察と今後の方針
TCN がアテンションモデルにより近似可能であることを示したが，
ここで用いられている定義以外の TCN に対しても同様のことがいえ
るだろうか？(おそらく言えます)．
アテンションモデルは，どのような関数クラスを表現できるのだろ
うか? (TCN は xT−m:T の入力だけに依存するヘルダー関数であれば
minimax optimality を達成できる． [6])
どれだけ複雑な特徴量選択規則を記述できるのか？
長さ T の分布に対する依存性をより詳細に記述できるか？
加法モデル以外のアテンションの場合は? (内積モデル等)
Beamer 11 月 25 日 2019 33 / 35

Reference I
[1] Shaojie Bai, J. Zico Kolter, and Vladlen Koltun.
An empirical evaluation of generic convolutional and recurrent networks for sequence
modeling, 2018.
[2] Boris Hanin and Mark Sellke.
Approximating continuous functions by relu nets of minimal width.
ArXiv, abs/1710.11278, 2017.
[3] Joshua Hanson and Maxim Raginsky.
Universal approximation of input-output maps by temporal convolutional nets.
ArXiv, abs/1906.09211, 2019.
[4] John Miller and Moritz Hardt.
Stable recurrent models.
In International Conference on Learning Representations, 2019.
[5] Kenta Oono and Taiji Suzuki.
Approximation and non-parametric estimation of resnet-type convolutional neural networks,
2019.
Beamer 11 月 25 日 2019 34 / 35

Reference II
[6] Johannes Schmidt-Hieber.
Nonparametric regression using deep neural networks with relu activation function.
ArXiv, abs/1708.06633, 2017.
[7] Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex
Graves, Nal Kalchbrenner, Andrew Senior, and Koray Kavukcuoglu.
Wavenet: A generative model for raw audio, 2016.
[8] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez,
L ukasz Kaiser, and Illia Polosukhin.
Attention is all you need.
In I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and
R. Garnett, editors, Advances in Neural Information Processing Systems 30, pages
5998–6008. Curran Associates, Inc., 2017.
Beamer 11 月 25 日 2019 35 / 35

Research2

Recommended

Recommended

More Related Content

Similar to Research2

Similar to Research2 (7)

Recently uploaded

Recently uploaded (8)

Research2