17. 生成モデルについて
Transformerの構造③ • デコーダ
→ Attention層で重み付けして来たものに対して、最
終的にどういう出力がいいか判断して、出力する。
Self-Attention層(マスクあり)
入力文章内の照応関係(類似度や重要度)を獲得する層。
Positional Encoding層
単語の位置情報を埋め込む層。
Source-Target-Attention層
異なる文章同士の照応関係(類似度や重要度)を獲得する層。
出典:”Attention Is All You Need”
17
18. 生成モデルについて
“Attention Is All You Need”
• Attention層自体は、すでに2015年あたりに登場。
→ RNNの「あまりにも長文になると精度が下がってしまう問題」を
解決するために使われてはいた。
→ リカレント層を取り除くという発想には至らなかった。
• リカレント層がなくてもAttention層だけで十分じゃないか!
→ “Attention Is All You Need”
18
Transformer
→ リカレント層を取り除いて、Attention層 でモデルを構成