7. Attentional Tree-to-Sequence Model
• ⼊⼒⽂を⼆分⽊で表現し, ⼦ノードから親ノード
のベクトルを計算
• f_tree は Tree-LSTM1)
• 全ての親ノードに対して Attention の重みを同
様に計算
1) K. S. Tai et al., “Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks”, ACL-IJCNLP 2015
10. BlackOut1)
• Decoder の各 softmax の計算で 全てのボキャ
ブラリに対する内積を計算するのは⼤変
• negative sampling に基づく近似 BlackOut
により, 計算量を減らす
• の代わりに
• を計算
1) Ji et al., “BLACKOUT: SPEEDING UP RECURRENT NEURAL NETWORK LANGUAGE MODELS WITH VERY LARGE VOCABULARIES”, ICLR 2016
11. Beam Search
• Beam Search: decode の各ステップで, 確率
の⾼い k 個を計算し, 最後にスコアの⾼いパスを
採⽤
1)
1) Le, “Sequence to Sequence Learning for NLP and Speech”, Deep Learning School (http://www.bayareadlschool.org/)