[論文紹介]A long short term memory framework for predicting humor in dialogues1. A Long Short-Term
Memory Framework
for Predicting Humor
in Dialogues
Dario Bertero and Pascale Fung
NAACL2016
紹介者 尾形朋哉
2016/7/7 1
7. Convolution Neural Network
多次元の入力素性ベクトル→embed層(低次元の密なベクトル)
各入力素性に対してそれぞれconvolutionとmax poolingが行われ、結合された
ものがLSTMのencoderに与えられる。
convolutionで特徴マップを生成
max poolingで最も顕著な特徴を持ってくる
入力素性
単語
one-hotベクトル
各単語がどれだけユーモアを引き起こしやすいかをモデル化
文字3グラム
bag of character 3gramベクトル
word2vec(text9 wikipedia corpus)
一般的な意味の近さをモデル化
2016/7/7 7
10. Experiments
Corpus
The Big Bang Theory , season 1~6
字幕ファイル
135エピソード
1589シーン
42.8%がオチを含んでいる
80% トレーニングセット(35,856発話)
10% Devセット(3,904発話)
10% テストセット(3,903発話)
2016/7/7 10
11. Experiments
Setup
CNNとLSTMの隠れ層 100
Convolutionのウインドウサイズは5
LSTMの出力の後にDropout正則化層を、softmax出力層にL2正則化を適用する
それぞれのシーンをトレーニングとして通常のBackpropagationで学習
Baseline
L2正則化をしたCRF
発話の1-2-3gram
発話の1-2-3gram
過去4つ(文脈窓)の1-2-3gram
上記二つの組み合わせ
Others
CNNを全てLSTMの文Encoderに置き換えたものとの比較も行った
2016/7/7 11