Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Sentence-State LSTM for Text
Representation
by Y.Zhang etc
担当: @Quasi_quant2010
ACL2018読み会1
【ACL2018読み会】
本論文を読んだ動機
- どの様にセンテンスをベクトル表現すれば良いか -
 センテンスを単語系列と考えてRNN
 本論文でのベースライン(BiLSTM)
 本論文でのベースライン(BiLSTM + Attention)
 センテンスから...
概要
- パラグラフ方向にLSTMを適用 -
 パラグラフをセンテンス系列・センテンスを単語系列と考えて
センテンスをグローバル特徴量・単語をローカル特徴量と考え
パラグラフ方向にLSTMを適用した
 h(t,i) : i-thの単語の隠れ...
アイディア①
- 単語(ローカル特徴量)の更新方法 -
ACL2018読み会4
wi-1, t wi , t wi+1 , t
wi-1,t-1 wi ,t-1 wi+1,t-1
Word
Embedding(t-1)
Hidden
Embed...
アイディア②
- センテンス(グローバル特徴量)の隠れベクトルの更新方法 -
ACL2018読み会5
w0, t-1 w1,t-1 wn+1,t+1
Sentence
Embedding(t-1)
Word
Embedding(t-1)
wi,...
イメージ
ACL2018読み会6
問題設定
- センテンス分類 -
 センテンスがあるトピックに属するか否かの教師データを用意
 Text Classification(Liu, etc, 2017)
 評価指標はAccuracy
 前処理 :高頻度単語を削除、未知語は...
結果
- 評価値のwindow依存性 -
 TimeStep t は、S-LSTMの時間方向の長さ(エポックではない)
 ローカル特徴量更新時におけるWindowサイズには依存してない
 センテンス分類にはグローバル特徴量が有効。ローカル...
結果
- グローバル特徴量を除去した場合の性能 -
 gを除去すると、81.76%(t=11)まで性能が下がる
 gのノードを追加しても性能は変わらなかった
ACL2018読み会9
81.76%
結果
- 16種類のデータセットでの結果 -
 S-LSTMの売りは大きく二つ
 パラグラフ方向にLSTMを走らせる
 t-番目内におけるローカル特徴量の更新は並列化できる
 学習時に11個センテンスをサンプリングすれば性能が安定するら...
考察
- センテンス間のアライメントを考えなくてよいのか -
 センテンス間の関係(アライメント)を考えなくてよいのか
 学習時のセンテンスサンプリングの方法
 例えば100個のラベル付センテンスがある
 公開コードでは、ここから幾つか...
考察
- パラメータ推定方法(勾配情報の伝播) -
 S.Hahn, etc
 なぜDropoutが汎化に寄与するのかを経験的に調べた文献
 MnistデータでDropout有り無しの場合を調べた
 表は特に各レイヤーの勾配の絶対値を平...
考察
- パラメータ推定方法(勾配の加速) -
 Momentum
 Momentum Restart Scheme
 Aggregated Scheme
 通常のMomentumやNesterov Momentumにより、目
的関数の...
考察
- Restart Scheme(NAG) -
 振動する理由は
[B.O’Donoghue, etc]
 モメンタムを微分方程式で表
すと、ある条件では調和振動
子の方程式となる
 大きく二つのテクニック
 目的関数が増加したら...
考察
- Aggregated Scheme(AggMo) -
 最適なモメンタムパラメータβを求めるのは難しいので、複数
の係数βで更新したパラメータをアグリゲーション
 そもそも、各FeatureWeightに対して最適なβは異なる
...
考察
- AggMoイケてるかも -
 x,y二種類の変数が与えられた時の最適化問題(Non-Convex)
 (x,y)=(0,0)で最適値をとる目的関数
 βがゼロ (=SGD、青)・ NAG(黄色)では、フラットな領域から抜け出せな...
参考文献
 Sentence Embedding
 [G.Zhe, etc] Learning Generic Sentence
Representations Using Convolutional Neural
Networks, EM...
Upcoming SlideShare
Loading in …5
×

Sentence-State LSTM for Text Representation

3,121 views

Published on

ACL2018読み会 Sentence-State LSTM for Text Representation
#arxivtimes_acl

Published in: Science

Sentence-State LSTM for Text Representation

  1. 1. Sentence-State LSTM for Text Representation by Y.Zhang etc 担当: @Quasi_quant2010 ACL2018読み会1 【ACL2018読み会】
  2. 2. 本論文を読んだ動機 - どの様にセンテンスをベクトル表現すれば良いか -  センテンスを単語系列と考えてRNN  本論文でのベースライン(BiLSTM)  本論文でのベースライン(BiLSTM + Attention)  センテンスから局所情報をCNNで獲得して、group by  本論文でのベースライン(CNN)  パラグラフをセンテンス系列・センテンスを単語系列と考えて 階層RNN  Query Suggestionを構築する際、ユーザー毎のセッションデータ を作り、階層構造を入れたencoder-decoderが有名  上記以外に、センテンス内の係受け情報や項構造を付加す ることも考えられる ACL2018読み会2
  3. 3. 概要 - パラグラフ方向にLSTMを適用 -  パラグラフをセンテンス系列・センテンスを単語系列と考えて センテンスをグローバル特徴量・単語をローカル特徴量と考え パラグラフ方向にLSTMを適用した  h(t,i) : i-thの単語の隠れベクトル表現 at t-th センテンス  i = 1,…,n t = 1,…,T  n : t-thのセンテンスに含まれる単語数  T : パラグラフがT個のセンテンスを持つ  g(t) : ベクトル表現 at t-th センテンス  t番目とt+1番目のセンテンスのアライメントは考慮しない  学習時には、センテンスのidリストを一様乱数からサンプリング ACL2018読み会3
  4. 4. アイディア① - 単語(ローカル特徴量)の更新方法 - ACL2018読み会4 wi-1, t wi , t wi+1 , t wi-1,t-1 wi ,t-1 wi+1,t-1 Word Embedding(t-1) Hidden Embedding(t-1) Sentence Embedding(t-1) Word Embedding(t) Hidden Embedding(t) h(t,i) g(t-1,i) h(t-1,i-1) h(t-1,i) h(t-1,i+1)
  5. 5. アイディア② - センテンス(グローバル特徴量)の隠れベクトルの更新方法 - ACL2018読み会5 w0, t-1 w1,t-1 wn+1,t+1 Sentence Embedding(t-1) Word Embedding(t-1) wi,t Hidden Embedding(t-1) Word Embedding(t) Hidden Embedding(t-1) Sentence Embedding(t) ・・・ ・・・ g(t,i) g(t-1,i) h(t-1,0) h(t-1,1) h(t-1,n+1)
  6. 6. イメージ ACL2018読み会6
  7. 7. 問題設定 - センテンス分類 -  センテンスがあるトピックに属するか否かの教師データを用意  Text Classification(Liu, etc, 2017)  評価指標はAccuracy  前処理 :高頻度単語を削除、未知語は<unk>  事前学習 : Glove(300次元)  NN回り  Softmax Layer  センテンスのグローバル特徴量g(t)を使って分類  Adam Optimizer  Dropout is 0.5  Gradient Clipping at 3  L2 regularization(0.001) ACL2018読み会7
  8. 8. 結果 - 評価値のwindow依存性 -  TimeStep t は、S-LSTMの時間方向の長さ(エポックではない)  ローカル特徴量更新時におけるWindowサイズには依存してない  センテンス分類にはグローバル特徴量が有効。ローカル特徴量単体では相対 比効果がないが、グローバル特徴量にアグリゲーションされると有効 8
  9. 9. 結果 - グローバル特徴量を除去した場合の性能 -  gを除去すると、81.76%(t=11)まで性能が下がる  gのノードを追加しても性能は変わらなかった ACL2018読み会9 81.76%
  10. 10. 結果 - 16種類のデータセットでの結果 -  S-LSTMの売りは大きく二つ  パラグラフ方向にLSTMを走らせる  t-番目内におけるローカル特徴量の更新は並列化できる  学習時に11個センテンスをサンプリングすれば性能が安定するらしい  S-LSTMとBiLSTMと比べると、短い時間で高い性能  パラグラフ方向にLSTMを走らせるため、CNNを使った場合 よりは時間がかかる ACL2018読み会10
  11. 11. 考察 - センテンス間のアライメントを考えなくてよいのか -  センテンス間の関係(アライメント)を考えなくてよいのか  学習時のセンテンスサンプリングの方法  例えば100個のラベル付センテンスがある  公開コードでは、ここから幾つかのセンテンスをランダムサンプリング  つまり、tとt+1番目のセンテンスの関係を考慮していない  例えば、検索のセッションデータを考える  あるユーザーのセッション/dayを一か月持つとする  するとセッション/day内のレコードはマルチインテントとなっている  さらに、t日目とt+1日目のセッションは不連続なインテントとなる  なので、 t日目のセッションデータが与えられた時、t+1日目の最 初の検索クエリをナイーブに予測することは難しい ACL2018読み会11
  12. 12. 考察 - パラメータ推定方法(勾配情報の伝播) -  S.Hahn, etc  なぜDropoutが汎化に寄与するのかを経験的に調べた文献  MnistデータでDropout有り無しの場合を調べた  表は特に各レイヤーの勾配の絶対値を平均したもの  表(Layer3はOutput Layer)からわかるように、Dropoutがある ほうが、勾配情報が伝播していることがわかる  レイヤーに60個と59個のノードがあっても性能は変わらない  Dropoutの定説  Dropoutは勾配情報の伝播を促進させる ACL2018読み会12
  13. 13. 考察 - パラメータ推定方法(勾配の加速) -  Momentum  Momentum Restart Scheme  Aggregated Scheme  通常のMomentumやNesterov Momentumにより、目 的関数の学習が加速されることはよく知られる  ただし、Momentumはパイパーパラメタの調整をしないと、 目的関数が振動することも知られている  [B.O’Donoghue, etc]  それを防ぐ方法として、上記二つの方法がある ACL2018読み会13
  14. 14. 考察 - Restart Scheme(NAG) -  振動する理由は [B.O’Donoghue, etc]  モメンタムを微分方程式で表 すと、ある条件では調和振動 子の方程式となる  大きく二つのテクニック  目的関数が増加したらベータ をゼロにしてモメンタムを消す  加速の方法と勾配の内積が せいになったらベータをゼロにし てモメンタムを消す  勾配はnegative方向 ACL2018読み会14
  15. 15. 考察 - Aggregated Scheme(AggMo) -  最適なモメンタムパラメータβを求めるのは難しいので、複数 の係数βで更新したパラメータをアグリゲーション  そもそも、各FeatureWeightに対して最適なβは異なる  それを見つけるより、異なるβで求めたパラメータを平均したほ うが安定する  [J.Lucas, etc]には、損失関数がconvex+smoothで正則化 項がconvex+non-differentiable、の設定で収束を証明  画像分類の例で、ResNetを各Optimizerで精度比較  言語モデルの例で、LSTMを各Optimizerで精度比較 ACL2018読み会15
  16. 16. 考察 - AggMoイケてるかも -  x,y二種類の変数が与えられた時の最適化問題(Non-Convex)  (x,y)=(0,0)で最適値をとる目的関数  βがゼロ (=SGD、青)・ NAG(黄色)では、フラットな領域から抜け出せない  NAG(緑)は最適値を目指すも振動しながらオーバーフィット  AggMo(赤)はフラットな領域を脱出しつつ、振動することなく最適値へ収束 ACL2018読み会16
  17. 17. 参考文献  Sentence Embedding  [G.Zhe, etc] Learning Generic Sentence Representations Using Convolutional Neural Networks, EMNLP, 2017  Parameter Estimation  [S.Hahn, etc] Gradient Acceleration in Activation Functions, arXiv, 1806.09783v1, 2018  [B.O’Donoghue, etc] Adaptive Restart for Accelerated Gradient Schemes, JFCM, vol15(3), p715-732, 2015  [J.Lucas, etc], Aggregated Momentum_Stability Through Passive Damping, arXiv, 1804.00325v1, 2018 ACL2018読み会17

×