More Related Content
More from harmonylab (20)
Disconnected Recurrent Neural Networks for Text Categorization
- 2. 概要
• テキスト分類でRNNとCNNが使用されている
• RNN
• 文脈を捉えることができる
• テキスト全体を記憶することはコストがかかる
• テキスト分類の鍵となる部分を見落とすことがある
• CNN
• 局地的な位置不変性を捉えることができる
• 文全体を捉えづらい
RNNに入力するデータを制限することでRNNに
位置不変性を加えたDRNNを提案
2
- 7. 実験設定
• 使用するデータセットは7種類
• window sizeと語彙数は右下図
• それぞれの語はNLTKでトークン化
• 語彙にない場合はUNKとする
• word embeddingのプレトレーニングに
300D GloVe 840Bを使用
• その他パラメータは以下の通り
• 最適化方法:Adadelta
• ε:1e-6
• ρ:0.95
• 目的関数:クロスエントロピー
• バッチサイズ:128
• 入力次元:300
• 隠れ層:300
7
- 14. 実験④ 内容
• window sizeはどうすれば最適かそれぞれ比較する
• サイズを同じにして複数のデータセットで訓練する
• AG
• DBP
• Yelp P
• 同じデータセットでそれぞれサイズを変えて訓練する
• DBP
• Yelp P
• 30k
• 120k
• 480k
14
- 15. 実験④ 結果
• 違うデータセットでは最適となるwindow sizeが違う(a)
• 同じデータセットではサイズが違ってもwindow sizeによ
る誤り率の変化の仕方はあまり違いはない(b)(c)
新たなデータセットを使用するときは訓練データを
小さくして最適なwindow sizeを見つけるのが良い
15