Disconnected Recurrent Neural Networks for Text Categorization

Disconnected Recurrent
Neural Networks for Text
Categorization
Baoxin Wang, ACL2018
M1 米田航紀

概要
• テキスト分類でRNNとCNNが使用されている
• RNN
• 文脈を捉えることができる
• テキスト全体を記憶することはコストがかかる
• テキスト分類の鍵となる部分を見落とすことがある
• CNN
• 局地的な位置不変性を捉えることができる
• 文全体を捉えづらい
RNNに入力するデータを制限することでRNNに
位置不変性を加えたDRNNを提案
2

DRNN
• RNN部分としてGRUを使用する
𝑥 𝑡:時刻tにおける入力
ℎ 𝑡:GRUの隠れ層の状態
3

DRNN
• RNNとの違いは入力
• 予め設定したk(window size)個のみRNNに入力する
→その時刻の語と直前のk-1個を入力する
• 最初の文字等、語数が足りない場合はゼロベクトルでパディング
• 語のパターンが同じなら文中のどこで出現しても同じ出力
4

DRNN
• 1次元畳み込みのCNNのように見なすこともできる
5

DRNN
• DRNNは様々なモデルに使用できるが、ここではテキスト分類を行う
• 各ステップの出力をMLPに入力して分類する
• 位置不変性で最も重要な特徴を抽出するためプーリングする
6

実験設定
• 使用するデータセットは7種類
• window sizeと語彙数は右下図
• それぞれの語はNLTKでトークン化
• 語彙にない場合はUNKとする
• word embeddingのプレトレーニングに
300D GloVe 840Bを使用
• その他パラメータは以下の通り
• 最適化方法：Adadelta
• ε：1e-6
• ρ：0.95
• 目的関数：クロスエントロピー
• バッチサイズ：128
• 入力次元：300
• 隠れ層：300
7

実験①
• テキスト分類の誤り率を他の手法と比較
• 全ての手法と比較して上回った
• 設定が必要なのはwindow sizeのみなのでチューニングが楽
8

実験② 内容
• 図のDGRUをCNNやRNNに置き換えて性能を比較する
9

実験② 結果
• CNNと比較した場合、DGRUが性能を上回った
• CNNと違いDRNNはwindow sizeを大きくしてもオーバー
フィッティングしない
• RNNと比較した場合でもDRNNが性能を上回った
10

実験② 分類結果
• DRNNはCNNのように局所的な位置不変性を捉えることができ、
RNNのように文脈を捉えることができることが分かった
case1:negative case2:positive
CNN 不正解正解
GRU 正解不正解
DGRU 正解正解
11

実験③ 内容
• より良いモデルにするために以下
をそれぞれ比較する
• DRNNに使用するRNNは何が良いか
• naive RNN
• GRU
• LSTM
• プーリング方法はどれが良いか
• Max
• Mean
• Attentive
12

実験③ 結果
• RNNはGRUが最も良い結果となった
• naive RNNはwindow size が大きくなると勾配が消失した
• プーリングはMaxが最も良い結果となった
13

実験④ 内容
• window sizeはどうすれば最適かそれぞれ比較する
• サイズを同じにして複数のデータセットで訓練する
• AG
• DBP
• Yelp P
• 同じデータセットでそれぞれサイズを変えて訓練する
• DBP
• Yelp P
• 30k
• 120k
• 480k
14

実験④ 結果
• 違うデータセットでは最適となるwindow sizeが違う(a)
• 同じデータセットではサイズが違ってもwindow sizeによ
る誤り率の変化の仕方はあまり違いはない(b)(c)
新たなデータセットを使用するときは訓練データを
小さくして最適なwindow sizeを見つけるのが良い
15

結論
• キーフレーズと長期依存性の両方を獲得するた
めRNNに位置不変性を組み込んだ
• 7つのデータセットで他の手法より高い性能を
発揮した
• どのモデルやパラメータが適切か実験をした
16

Disconnected Recurrent Neural Networks for Text Categorization

Recommended

Recommended

More Related Content

More from harmonylab

More from harmonylab (20)

Recently uploaded

Recently uploaded (11)

Disconnected Recurrent Neural Networks for Text Categorization