関連研究
• Attentionの計算コスト削減
– 線形化や低ランク行列の積、スパース化による近似
(Childet al., 2019; Wang et al., 2020; Kitaev et al., 2020; Zhai et al., 2021; Roy et al., 2021;
Schlag et al., 2021; Tu et al., 2022)
– 計算量と表現力はトレードオフ
(Mehta et al., 2022; Dao et al., 2022c)
• Attentionの演算子としての冗長性
– Attention機構が言語処理に利用しているのは、
二次的な能力のほんの一部とする証拠が増えている
(Olsson et al., 2022; Dao et al., 2022c)
5