ニューラルネットワーク勉強会4

ニューラルネットワーク
勉強会
第4回
柳本豪一

本日の予定
リカレントニューラルネットワークで言語モデルを構
築します。
• リカレントニューラルネットワークを構築する

リカレントニューラルネットワーク言語モデル
一般的なリカレントニューラルネットワーク
入力層
隠れ層(t)
出力層
隠れ層(t-1)

リカレントニューラルネットワーク言語モデル
一般的なリカレントニューラルネットワーク
入力層
隠れ層(t)
出力層
隠れ層(t-1)
コンテキストユニット

言語モデルの特徴
過去の入力を考慮した予測が可能
フィードバックにより隠れ層に履歴が保存
→多層NNに比べPerplexityは改善
長期におよぶ過去の情報の保存は困難
フィードバック結合の重み行列の固有値の問題
固有値が1より大きい→発散
固有値が1より小さい→消失

言語モデルの特徴
過去の入力を考慮した予測が可能
フィードバックにより隠れ層に履歴が保存
→多層NNに比べPerplexityは改善
長期におよぶ過去の情報の保存は困難
フィードバック結合の重み行列の固有値の問題
固有値が1より大きい→発散
固有値が1より小さい→消失
Long Short Term Memory(LSTM)の登場
(次回)

入出力
1-of-nコーディングにより単語を入力
EmbedIDを使って分散表現を作成
Softmax関数を使った単語の予測
softmax_cross_entropy関数を利用

Chainerでの実装
FunctionSetを用いてニューラルネットワークを構成
model = FunctionSet(
embed = F.EmbedID(V, R),
x_to_h = F.Linear(R, H),
h_to_h = F.Linear(H, H), //フィードバック
h_to_y = F.Linear(H, V),
)

Chainerでの実装
フィードバックの実装
• 1文ごとに隠れ層を初期化
• 単語ごとに隠れ層の状態を計算し、次の計算に利用
→ 関数による実装
def forward(sent):
loss = Variable(np.zeros((), dtype=np.ﬂoat32))
h = Variable(np.zeros((1, H), dtype=np.ﬂoat32))
for cur_word, next_word in zip(sent[:-1], sent[1:]):
h, new_loss = forward_one_each(h, cur_word, next_word)
loss += new_loss
return loss

Chainerでの実装
フィードバックの実装
• 1文ごとに隠れ層を初期化
• 単語ごとに隠れ層の状態を計算し、次の計算に利用
→ 関数による実装
def forward_one_step(h, cur_word, next_word):
i = Variable(np.array([cur_word], dtype=np.int32))
t = Variable(np.array([next_word], dtype=np.int32))
x = model.embed(i)
h = F.tanh(model.x_to_h(x) + model.h_to_h(h))
y = F.tanh(model.h_to_y(h))
return h, F.softmax_cross_entropy(y, t)

ライブコーディング
リカレントニューラルネットワークを用いた言語モデ
ルの構築

ニューラルネットワーク勉強会4

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (17)

Recently uploaded

Recently uploaded (10)

ニューラルネットワーク勉強会4