[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS

Quasi-Recurrent Neural Networks
James Bradbury, Stephen Merity, Caiming Xiong, Richard Socher
17/02/01

アジェンダ
• 書誌情報
• 背景
• 関連研究
• 提案モデル
• 実験・結果
• 結論

書誌情報
• ICLR2017 Accepted Paper
• Poster Presentation
• 採点（6, 7, 5, 7）
• Author
• Salesforce Researchのグループ
• Last authorはRecursive NNのRichard Socher

背景
• RNN
• 深層学習で系列データを扱う場合、標準的になってきている
• 並列計算ができない
• ⻑い系列を扱いにくい
• CNN
• 系列データを扱う際にも有⽤であることが⽰されている
• 並列計算が可能
• QRNN（提案⼿法）
• CNN-like：並列計算を時系列、ミニバッチの次元について可能
• RNN-like：⼊⼒系列の順序全体が出⼒に影響を与える

関連研究
• Strongly-typed recurrent neural networks
• Convolutional-recurrent models
• ByteNet
• QRNN encoder-decoderモデルが似ている

提案モデル
• QRNNはCNNにおける畳み込み層とプーリング層に対応する
2層からなる
• ⼊⼒として系列⻑Tでn次元のベクトルX∈RT×nを受け取り、
時系列⽅向に畳み込みを⾏う
• 畳み込みの際に未来の情報を含まないようにするため、
Masked convolution（系列⽅向にfilter幅に応じたpadding）を⾏う
• Z, F, Oを下の式に応じて得る
• Zの活性化関数はtanh, F, Oではシグモイド関数
• *は時系列⽅向へのMasked Convolutionを表す

提案モデル
• Pooling
• 3つのpoolingを提案
• f-pooling
• fo-pooling
• ifo-pooling

提案モデル
• Regularization
• Recurrent connectionに対して提案されている正則化のうち、
zoneoutを⽤いる（variational inference-based dropoutは使えない）
• Zoneoutは以下で実装可能
• Densely-connected layers
• Sequence classificationタスクにおいては、QRNNの各層間に
skip-connectionを⼊れた⽅が良い
• Encoder-Decoder Models
• Vl: l層の最終のencoding state

実験・結果
• QRNNの精度および実⾏時間を検証するため下記の実験を⾏う
• Sentiment Classification
• Language Modeling
• Character-level Neural Machine Translation

実験・結果
• Sentiment classification: IMDb Dataset
• 映画についてのレビューおよび採点のデータ
• X: レビュー⽂章（英語、⾃然⾔語）
• y: 対象についてpositive/negativeの評価（⼆値分類）
• 分類精度にて評価（従来のLSTMとの実⾏時間の差も合わせて⽐較）

実験・結果
• 4層のdensely-connected QRNNで最も良い精度
• 256unit/layer, 300次元word vector(GloVe embedding)
• Dropout = 0.3, L2 regularization = 4 × 10-6
• Minibatch = 24, RMSprop, learning rate = 0.001,
α=0.9, ε=10-8

実験・結果
• IMDb sentiment analysis
• LSTMと同程度の精度である⼀⽅、エポックあたりの時間は1/3程度

実験・結果
• 隠れ層の可視化

実験・結果
• Language modeling: Penn Treebank
• コーパスの⼀種であり、各⽂に統語構造の注釈が付与されたもの
• Word-level predictionを⾏う
• 929k training words, 73k validation words, 82k test words
• Vocabularyは10k
• Perplexityにて評価（低い⽅が良い）

実験・結果
• 2層、640 unit/layer（32の倍数の⽅が計算効率が良いらしい）
• Penn Treebankは⽐較的⼩さいデータセットであり、
過学習を防ぐことが重要となる
• 最適化はSGD + momentumで⾏い、学習率は最初の6epochの
間、1に設定された後、減衰率0.95で⼩さくなる（計72epoch）

実験・結果
• Penn Treebank language modeling task
• 通常のLSTM（正則化なし）と⽐較して良いperplexity
• 正則化を⾏なった場合も、highly competitive

実験・結果
• Batchあたりの処理時間
• Chainer default LSTM, 最適化されたcuDNNによるLSTMと⽐較して、
QRNNでは “RNN” 部分の計算時間が減少している

実験・結果
• Character-level neural machine translation:
IWSLT English-German spoken language translation task
• Sequence-to-sequence QRNNを評価する
• ドイツ語 -> 英語の翻訳（Character levelのsegmentation）
• 209,772sentence pair (TEDxから)
• 187 Unicode code points

実験・結果
• 4層、320unit/layer、dropoutまたはL2regularizationなし
• 最初の畳み込み層のfilter幅 = 6、その他はfilter幅 = 2
• 最適化はAdamにて⾏い、計10epoch実施

実験・結果
• IWSLT English-German spoken language translation task
• Character-level LSTMを上回る精度
• Word-level attentionによるbase lineとほぼ同程度

結論
• RNNとCNNの良い部分を合わせたようなQRNNを提案
• 複数のタスクにおいて、従来のLSTMと同程度または
少し上回る性能を⽰す
• Epochあたりに要する時間は25 ~ 50%程度になった

[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [DL輪読会]QUASI-RECURRENT NEURAL NETWORKS

Similar to [DL輪読会]QUASI-RECURRENT NEURAL NETWORKS (19)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (8)

[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS