第六回全日本コンピュータビジョン勉強会資料　UniT (旧題: Transformer is all you need)

UniT: Multimodal Multitask
Learning with a Unified
Transformer
Ronghang Hu 1 Amanpreet Singh1
1 Facebook AI Research
資料作成者: 尾崎安範

尾崎安範 (@alfredplpl)
• 例によって⾃⼰紹介
サイバーエージェント研究員兼
⼤阪⼤学招聘研究員兼
⼤阪⼤学⽯⿊研究室社会⼈博⼠２年⽣
← NTT研（開発寄り）研究員
← 東⼤情報理⼯
最近やっていること
ロボット接客における通⾏⼈認識の研究開発
認識にTransformer
使いたい

TL; DR
• 画像や⽂章、タスクを⼊⼒すると、
タスク応じた出⼒を返すTransformerを作ったよ︕

背景
• Transformerが提案されてから、 Transformerは⾃然⾔語や画
像、映像、⾳などの広い分野で成功を収めている
• （読者の⼼︓Transformerって何︖）
←⾃然⾔語⽤Transformer、
BERTのアーキテクチャ（[1]より引⽤）
←画像検出⽤Transformer、
DETRのアーキテクチャ
（[2]より引⽤）
[1] Devlin et al., “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” arXiv 2019
[2] Carion et al., “End-to-End Object Detection with Transformers,” arXiv 2020

そもそもTransformerとは
トランスフォーマー
コンボイの謎
HI-SCORE 999999999
1 PLAYER
2 PLAYERS

トランスフォーマー
コンボイの謎
HI-SCORE 999999999
1 PLAYER
2 PLAYERS

• Attentionという数式を特徴とするDNN
• Encoder（図左）とDecoder（図右）から
構成されている
これはNLPのEncoder-Decoderモデルを拡張したため
[3]より引⽤
[4]より引⽤
[3] Vaswani et al., “Attention Is All You Need,” arXiv 2017
[4] Ryobot., “論⽂解説 Attention Is All You Need (Transformer),” 2020,
https://deeplearning.hatenablog.com/entry/transformer

そもそもAttentionとは
• AttentionとはKeyとQueryから適切なValueを返す数式
KQVはそれぞれEmbeddingした値に重みをそれっぽくかけたもの
• TransformerではMulti Head Attentionとして使われている
[4]より引⽤

Multi Head Attentionとは
• Multi Head AttentionとはAttentionの各⾏列の次元を細かく分
断してまとめたもの（512次元のものを64次元のもの８つに
分断するイメージ）
• Multi Head AttentionにはMulti Head Cross Attentionと
Multi Head Self Attentionに分けることができる
[3]より引⽤

Multi Head Cross Attentionと
Multi Head Self Attention
• Multi Head Cross AttentionとMulti Head Self Attentionとは、
Queryの対象を出⼒先とするか⼊⼒先とするかの違いで分か
れる
[4]より引⽤

提案⼿法UniTの概要
• いろんな分野で活躍しているならば、すべて解けるよね
• Multi Head Self Attentionを使ったimage encoderと
Multi Head Self Attentionを使ったtext encoderと
Multi Head Cross AttentionとMulti Head Self Attentionを使った
decoderで構成されているDNNを作った

image encoderの概要
• 全体的にDETRっぽい構造になっている
まず画像をconvnet (今回はResNet-50っぽいもの) で
Embedding。
その結果をMulti-Head Self Attentionでどの領域に注⽬
すべきかを学習
Feed ForwardなNNで何かしらを学習させる
これをN回繰り返すと、それっぽい隠れ変数が出⼒さ
れる

text encoderの概要
• 全体的にBERTのような構造をしている
まずはtext embedding
その結果をMulti-Head Self Attentionでどの領域に注
⽬すべきかを学習
Feed ForwardなNNで何かしらを学習させる
これをN回繰り返すと、それっぽい隠れ変数が出⼒
される

decoderの概要
• 全体的にDETRっぽい構造らしい
task indexやそれをEmbeddingする理由がまずよくわから
ない
とにかくタスクに関するSelf Attentionを求めるらしい
とにかくEncoderたちの出⼒とEmbeddingされたtask index
をCross Attetionして、隠れ変数を吐き出してくれるらし
い
タスク間で重みを共有させる (shared) かさせないか
(separate) で条件を分けてAblation Studyするらしい

headまわりの概要
• トランスフォーマーコンカイの謎
Object detectionタスクにおいてはDETRとBUTDを合体したものを使った
らしい
他のタスク（識別タスク）は出⼒に対してCrossEntropyLossを損失関数し
たNNになるらしい
headまわりをどのように切り替えるかはよくわからない

評価実験
• シングルタスクで解くよりかはマルチタスクで解いたほうが
性能は良くなった

タスク特化のTransformerと⽐較
• タスク特化のTransformerと⽐べても近い値はでるらしい。

定性的な結果
• それっぽくはできている

まとめ
• 画像や⽂章、タスクを⼊⼒すると、
タスク応じた出⼒を返すTransformerを作ったよ︕

発表者の感想
• ガチでごった煮
マシンパワーをひたすらにこき使いまわしている⼿法
• マルチモーダルにしたら性能が良くなるかというと
そうでもないらしい
以前のCVPRの論⽂[5]でも指摘はされていたがそのとおりであった
• これどう考えても某某某某に投稿されている論⽂だと思うが、
あまりに⼤切なところが抜けていて⼤丈夫かなと思った
コードを読めばわかるのだろうか・・・︖
[5] Wang et al., “What makes training multi-modal classification networks hard?,” CVPR
2020

おまけ
• UniTとは別だが似た⼿法として、General Purpose Visionとい
う⼿法がある
[6] Gupta et al., “Towards General Purpose Vision Systems,” arXiv 2021
General Purpose Visionの問題と⼿法（[6]より引⽤）

第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)

More Related Content

What's hot

Similar to 第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)

More from Yasunori Ozaki