第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)
第六回全日本コンピュータビジョン勉強会資料です。今回は、 UniT: Multimodal Multitask Learning with a Unified Transformer を紹介します。提案手法であるUniTは自然言語、ビジョン、 Vision and Language のタスクをそれぞれ統一的に解けるTransformer になります。
Multi Head Attentionとは
•Multi Head AttentionとはAttentionの各⾏列の次元を細かく分
断してまとめたもの(512次元のものを64次元のもの8つに
分断するイメージ)
• Multi Head AttentionにはMulti Head Cross Attentionと
Multi Head Self Attentionに分けることができる
[3]より引⽤
10.
Multi Head CrossAttentionと
Multi Head Self Attention
• Multi Head Cross AttentionとMulti Head Self Attentionとは、
Queryの対象を出⼒先とするか⼊⼒先とするかの違いで分か
れる
[4]より引⽤
11.
提案⼿法UniTの概要
• いろんな分野で活躍しているならば、すべて解けるよね
• MultiHead Self Attentionを使ったimage encoderと
Multi Head Self Attentionを使ったtext encoderと
Multi Head Cross AttentionとMulti Head Self Attentionを使った
decoderで構成されているDNNを作った