再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会

Chapter 7: 再帰型ニューラルネット
機械学習プロフェッショナルシリーズ輪読会
~深層学習編~
佐野正太郎

前章までの流れ
 順伝播型や自己符号化器では入出力次元数が固定
ニューラルネット










6.0
5.0
2.0
入力ベクトル出力ベクトル






1.0
9.0
固定次元
固定次元

本章で扱う問題
 サンプル毎に系列長が違うデータをどう扱うか？
ニューラルネット










1.0
9.0
3.0
入力ベクトル系列出力ベクトル系列










6.0
5.0
2.0










2.0
4.0
6.0
 





1.0
9.0






6.0
3.0






7.0
3.0

固定次元
固定次元
可変
入力と同じ系列長

応用
 自然言語処理
 途中までの文章から次の単語を順次予測
 音声認識
 短時間フレーム毎の音素認識
We can get an idea of the quality of the leaned feature
1
x 2
x 3
x 4
x 5
x 6
x 7
x 8
x 9
x 10
x 11
x
11
y
w ʌ n n nʌʌʌʌww

トピック
 Recurrent Neural Network (RNN)
 系列量が異なるサンプルの予測・学習
 Long Short-Term Memory (LSTM)
 より長い系列の予測・学習
 Connectionist Temporal Classification (CTC)
 時間フレーム単位のラベル付けが不要なRNN学習

略語
 FFNN
 Feed Forward Neural Network
 順伝播型ニューラルネットワーク
 RNN
 Recurrent Neural Network
 再帰型ニューラルネットワーク
 BP
 Back Propagation
 誤差逆伝播法

Recurrent Neural Network (RNN)

RNNの構造
 3層FFNNに前時刻からのディレイ入力が付加
 ネットワークの使い方が違う！
 FFNNでは順伝播計算が1回だけ
 再帰型では系列長だけ順伝播計算を繰り返す
t
z1
t
z2
1
1
t
z
1
2
t
zt
x1
t
x2
t
y1
t
y2
t
z1
t
z2
t
x1
t
x2
t
y1
t
y2
FFNN RNN

RNNによる系列予測
t
x  2
x 1
x

t
x  2
x 1
x
0
z

t
x  2
x
1
y
1
z

t
x 
1
y
2
x
1
z
1
z

t
x 
1
y2
y
2
z

t
x 
2
y 1
y
3
x
2
z
2
z

t
x 
2
y 1
y




2
y 1
y
t
x
t
y
1t
z


RNNの順伝播計算
 現時刻の入力と前時刻の中間層出力からを計算
 入力層 → 中間層
現時刻の入力前時刻からの入力
t
z1
t
z2
1
1
t
z
1
2
t
zt
x1
t
x2
t
y1
t
y2
1t
z
t
x t
y

RNNの順伝播計算
 中間層 → 出力層 (FFNNと同様)
t
z1
t
z2
1
1
t
z
1
2
t
zt
x1
t
x2
t
y1
t
y2

RNNの重み学習 (BPTT)
 学習法： Back Propagation Through Time (BPTT)
 RNN =「深さが系列長のFFNN」→ 展開してBPを適用
1
1x
1
2x
0
1z
0
2z
2
1x
2
2x
1
1z
1
2z
3
1x
3
2x
2
1z
2
2z
1
1y
1
2y
t
x1
t
x2
1
1
t
z
1
2
t
z
2
1
t
y
2
2
t
y
2
1y
2
2y
t
y1
t
y2
t
z1
t
z2
1
1
t
y
1
2
t
y
・・・

復習：FFNNの重み学習 (BP)
 サンプル毎に目的関数の勾配でパラメタを更新

 勾配の計算：連鎖規則で問題を分解
t
ju f t
jz
t 層目の第 j ユニット
定義から
微分可能
中間層の場合
直接微分できない

 更に連鎖規則を適用
定義から
微分可能

 δの漸化式が得られる
 出力層のδは活性化関数の定義から微分可能
 出力層から再帰的に δを計算
 全ての δ が計算できれば全ての重み勾配も計算できる

 各層（時刻）で出力を持つのでδの漸化式が異なる
出力系列
1
1x
1
2x
0
1z
0
2z
2
1x
2
2x
1
1z
1
2z
3
1x
3
2x
2
1z
2
2z
1
1y
1
2y
t
x1
t
x2
1
1
t
z
1
2
t
z
2
1
t
y
2
2
t
y
2
1y
2
2y
t
y1
t
y2
t
z1
t
z2
1
1
t
y
1
2
t
y
・・・

RNNの重み学習（BPTT法）
t
ku
1
1
t
u
1
2
t
u
t
v1
out
f
t
v2
out
f
・・・・・・
2
1
t
u
2
1
t
u
・・・
t
y1
t
y2
・・・
が目的関数に
影響する範囲
f
f
f
f
f

 BPTTにおけるδの漸化式
次時刻への入力を
経由した微分連鎖
出力層への入力を
経由した微分連鎖

漸化式
定義から
微分可能

・・・
T

1, Tout

1T

2, Tout

2T
1
 2

2,out
1,out
 Tout,


 RNNをサンプル系列長のFFNNに展開
 展開されたFFNNにBPを適用
 普通のBPとの違い
 δの漸化式に各時刻の出力が反映される

復習：勾配消失問題
ネットワークが深すぎると
学習がうまくいかない！

LSTM
 RNNの問題点
 BPTTで展開されるFFNNは入力系列長の深さを持つ
 勾配消失問題により長い系列の学習が困難
 LSTM
 中間層に状態(長期記憶)を与えることで長い系列に対応
 RNNの中間ユニットをメモリユニットに置きかえた構造

 LSTMにおける中間ユニット (メモリユニット)
 ユニットは状態を持つ (メモリセル)
 中間ユニットが青枠内のモジュール群に置き換わる
 活性化関数 (１回目)
 入力ゲート
 状態計算 (前状態との加算)
 活性化関数 (２回目)
 出力ゲート
メモリユニット
入力層出力層
入力層
t
ju t
jz
t
jsf f
tI
jg ,
tO
jg ,
f
f
t
jsj
中間層
(前時刻)
tI
jg , tF
jg , tO
jg ,

 各メモリユニットの状態計算
前時刻の
状態
入力層の
加重和
忘却ゲート入力ゲート
入力層出力層
入力層
t
ju t
jz
t
jsf f
中間層
(前時刻)
tI
jg , tF
jg , tO
jg ,

 各メモリユニットからの出力計算
現状態の
活性化値
出力ゲート
入力層出力層
入力層
t
ju t
jz
t
jsf f
tI
jg ,
中間層
(前時刻)
tF
jg , tO
jg ,

メモリユニット：ゲートの計算
 入力/忘却/出力ゲートもネットワーク構造を持つ
 入力ゲート
 忘却ゲート
 出力ゲート
中間層ユニットへの入力と同じ計算
（異なる重みを学習）

LSTM
入力層中間層出力層
入力
ゲート
忘却
ゲート
出力
ゲート
メモリ
セル
中間層
入力

LSTMの学習
 学習すべきパラメタ
① 中間層入力への重み
② 入力ゲートへの重み
③ 忘却ゲートへの重み
④ 出力ゲートへの重み
⑤ 出力層への重み
１１
２２
３３
４４
５５

LSTMの学習
 更に２つのユニットがあると考える
 状態から状態への恒等写像ユニット
 状態に活性化関数を作用させるユニット
 入力重みは常に１
t
jz
t
ju f t
js ft
js id
fff
出力層
入力層
入力層
中間層
(前時刻)
tI
ju , tF
ju , tO
ju ,

LSTMの学習
 それぞれのユニットについて δ を計算
 i.e., 目的関数のユニット入力に関する微分
 それぞれの出力先を経由した微分連鎖を計算（？）
out

O
F
I

 cell
 
~

LSTMの学習
Tout,

TO,
T

~T
cell
T
1, TO
1~ T

TI ,
TF,~

1T
cell
1, Tout

・・・
 RNNの学習同様に漸化式で全ての δ を計算
 全ての δ がわかれば全ての重み勾配が計算可能

Connectionist Temporal Classification (CTC)

CTC
 理想の訓練データ
 現実の訓練データ
w ʌ n n nʌʌʌʌww
ここからここまで ”wʌn”

CTC
 問題設定
 入力：ベクトル系列
 出力：ラベル系列
 サンプル毎の目的関数
T
xxX ,,1

||1
,, l
lll 
)|(log XlpEn 
入出力の系列長は
必ずしも一致しない
出力はソフトマックス層

CTCによる学習
・・・
T
1T
2T
1
 2

out

 厳密な出力系列は知らないけどBPTTを適用したい
 各時刻・各出力ユニットのが計算できればOK！
1, Tout
2, Tout
2,out
1,out
 Tout,


CTCによる学習
どうやって
計算するか？

p(l|X) の計算
 出力層に空白ラベル＿のユニットを追加
a b a b _

p(l|X) の計算
 入出力の系列長を揃えたい
 空白ラベル＿が存在すると仮定
 各正解ラベルを(空白ラベルor同じラベル)の連続で埋める
""abl 
__,_,_,,,ba
__,_,,,, baa
ba _,_,_,_,,
bbbaaa ,,,,,

系列長６の場合
RNNからの出力ラベルは
この中のどれか
（確率的にしか分からない）

p(l|X) の高速計算
どうやって
計算するか？
どうやって
もっと速く
計算するか？

1 2 3 4 5 6
時刻状態
_
a
_
b
_
全パスの確率和)|( Xlp
2
_y
2
ay
2
ay
2
by
2
_y

1 2 3 4 5 6
時刻状態
ある時刻に着目
_
a
_
b
_

1 2 3 4 5 6
時刻状態
この状態を通るパスと
_
a
_
b
_

全部の確率和を足すと
1 2 3 4 5 6
時刻状態
_
a
_
b
_
)|( Xlp

… t …
時刻状態
…
s
…

s
tstsXlp ),(),()|( 
α(s, t) は
前半パスの
確率和
β(s, t) は
後半パスの
確率和

)1,()1,1(),( )(')('  tsytsyts t
sl
t
sl 
α(s, t) は
漸化式で
計算
状態
_
a
_
b
_
1 2 3 4 5 6
時刻
t
sly )('
)1,1(  ts
)1,( ts
(sが空白の場合)

)1,()1,1()1,2(),( )(')(')('  tsytsytsyts t
sl
t
sl
t
sl 
α(s, t) は
漸化式で
計算
状態
_
a
_
b
_
1 2 3 4 5 6
時刻
)1,1(  ts
)1,( ts
)1,2(  ts
t
sly )('
(sが空白以外の場合)

1
_)1,1( yt=1 の場合
状態
_
a
_
b
_
1 2 3 4 5 6
時刻
1
)(')1,2( sly
動的計画法でαの計算を高速化
（βも同様）

p(l|X) の微分計算
どうやって
計算するか？
速くなった！

p(l|X) の微分計算
 p(l|X) の微分も α と β から計算可能
ラベル j に
対応する
状態の集合

CTCによる学習
 p(l|X)とp(l|X) の微分が分かった → が計算可能
out


CTCによる学習
 が計算可能 → BPTTが適用できる
・・・
T

1, Tout

1T

2, Tout

2T
1
 2

2,out
1,out
 Tout,

out


CTCによる予測
 RNN出力から冗長でない系列へとデコードしたい










1.0
9.0
3.0
入力ベクトル系列冗長なラベル系列










6.0
5.0
2.0










2.0
4.0
6.0










2.0
4.0
6.0
bba ,_,,
ab
本当に欲しい出力

CTCによる予測
 愚直な計算だと時間かかる
 厳密解を速く計算する方法は知られていない

再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会

More Related Content

What's hot

Viewers also liked

Similar to 再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会

More from Shotaro Sano

再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会