UniT: Multimodal Multitask
Learning with a Unified
Transformer
Ronghang Hu 1 Amanpreet Singh1
1 Facebook AI Research
資料作成者: 尾崎安範
尾崎安範 (@alfredplpl)
• 例によって⾃⼰紹介
サイバーエージェント 研究員 兼
⼤阪⼤学 招聘研究員 兼
⼤阪⼤学 ⽯⿊研究室 社会⼈博⼠2年⽣
← NTT研(開発寄り) 研究員
← 東⼤ 情報理⼯
最近やっていること
ロボット接客における通⾏⼈認識の研究開発
認識にTransformer
使いたい
TL; DR
• 画像や⽂章、 タスクを⼊⼒すると、
タスク応じた出⼒を返すTransformerを作ったよ︕
背景
• Transformerが提案されてから、 Transformerは⾃然⾔語や画
像、映像、⾳などの広い分野で成功を収めている
• (読者の⼼︓Transformerって何︖)
←⾃然⾔語⽤Transformer、
BERTのアーキテクチャ([1]より引⽤)
←画像検出⽤Transformer、
DETRのアーキテクチャ
([2]より引⽤)
[1] Devlin et al., “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” arXiv 2019
[2] Carion et al., “End-to-End Object Detection with Transformers,” arXiv 2020
そもそもTransformerとは
トランスフォーマー
コンボイの謎
HI-SCORE 999999999
1 PLAYER
2 PLAYERS
トランスフォーマー
コンボイの謎
HI-SCORE 999999999
1 PLAYER
2 PLAYERS
そもそもTransformerとは
そもそもTransformerとは
• Attentionという数式を特徴とするDNN
• Encoder(図左)とDecoder(図右)から
構成されている
これはNLPのEncoder-Decoderモデルを拡張したため
[3]より引⽤
[4]より引⽤
[3] Vaswani et al., “Attention Is All You Need,” arXiv 2017
[4] Ryobot., “論⽂解説 Attention Is All You Need (Transformer),” 2020,
https://deeplearning.hatenablog.com/entry/transformer
そもそもAttentionとは
• AttentionとはKeyとQueryから適切なValueを返す数式
KQVはそれぞれEmbeddingした値に重みをそれっぽくかけたもの
• TransformerではMulti Head Attentionとして使われている
[4]より引⽤
Multi Head Attentionとは
• Multi Head AttentionとはAttentionの各⾏列の次元を細かく分
断してまとめたもの(512次元のものを64次元のもの8つに
分断するイメージ)
• Multi Head AttentionにはMulti Head Cross Attentionと
Multi Head Self Attentionに分けることができる
[3]より引⽤
Multi Head Cross Attentionと
Multi Head Self Attention
• Multi Head Cross AttentionとMulti Head Self Attentionとは、
Queryの対象を出⼒先とするか⼊⼒先とするかの違いで分か
れる
[4]より引⽤
提案⼿法UniTの概要
• いろんな分野で活躍しているならば、すべて解けるよね
• Multi Head Self Attentionを使ったimage encoderと
Multi Head Self Attentionを使ったtext encoderと
Multi Head Cross AttentionとMulti Head Self Attentionを使った
decoderで構成されているDNNを作った
image encoderの概要
• 全体的にDETRっぽい構造になっている
まず画像をconvnet (今回はResNet-50っぽいもの) で
Embedding。
その結果をMulti-Head Self Attentionでどの領域に注⽬
すべきかを学習
Feed ForwardなNNで何かしらを学習させる
これをN回繰り返すと、それっぽい隠れ変数が出⼒さ
れる
text encoderの概要
• 全体的にBERTのような構造をしている
まずはtext embedding
その結果をMulti-Head Self Attentionでどの領域に注
⽬すべきかを学習
Feed ForwardなNNで何かしらを学習させる
これをN回繰り返すと、それっぽい隠れ変数が出⼒
される
decoderの概要
• 全体的にDETRっぽい構造らしい
task indexやそれをEmbeddingする理由がまずよくわから
ない
とにかくタスクに関するSelf Attentionを求めるらしい
とにかくEncoderたちの出⼒とEmbeddingされたtask index
をCross Attetionして、隠れ変数を吐き出してくれるらし
い
タスク間で重みを共有させる (shared) かさせないか
(separate) で条件を分けてAblation Studyするらしい
headまわりの概要
• トランスフォーマー コンカイの謎
Object detectionタスクにおいてはDETRとBUTDを合体したものを使った
らしい
他のタスク(識別タスク)は出⼒に対してCrossEntropyLossを損失関数し
たNNになるらしい
headまわりをどのように切り替えるかはよくわからない
評価実験
• シングルタスクで解くよりかはマルチタスクで解いたほうが
性能は良くなった
タスク特化のTransformerと⽐較
• タスク特化のTransformerと⽐べても近い値はでるらしい。
定性的な結果
• それっぽくはできている
まとめ
• 画像や⽂章、 タスクを⼊⼒すると、
タスク応じた出⼒を返すTransformerを作ったよ︕
発表者の感想
• ガチでごった煮
マシンパワーをひたすらにこき使いまわしている⼿法
• マルチモーダルにしたら性能が良くなるかというと
そうでもないらしい
以前のCVPRの論⽂[5]でも指摘はされていたがそのとおりであった
• これどう考えても某某某某に投稿されている論⽂だと思うが、
あまりに⼤切なところが抜けていて⼤丈夫かなと思った
コードを読めばわかるのだろうか・・・︖
[5] Wang et al., “What makes training multi-modal classification networks hard?,” CVPR
2020
おまけ
• UniTとは別だが似た⼿法として、General Purpose Visionとい
う⼿法がある
[6] Gupta et al., “Towards General Purpose Vision Systems,” arXiv 2021
General Purpose Visionの問題と⼿法([6]より引⽤)

第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)