Paper_UTNet.pptx
- 1. UTNet:
A Hybrid Transformer Architecture
for Medical Image Segmentation
Yunhe Gao, Mu Zhou, Dimitris Metaxas
Accepted by MICCAI 2021
- 9. Attention (2/8)
→ Couv → ReLU → Conv → GAP → Affine →
背景も含めて
画像全体の特徴を平均化
大量のデータを用いることで
前景のみを注目するようにはなるが…
↓
CNNで表現するには,
学習が大変になっているのでは?
↓
Attention
明示的に特定の画像箇所に注目するような
機能をNN上で表現できる →背景は見ない
- 13. Attention (6/8)
𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 𝑄, 𝐾, 𝑉 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥
𝑄𝑇
𝐾
𝑑
𝑉
input Memory
output
√次元数で除算することで
勾配消失を防ぐ
𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 𝒒, 𝐾, 𝑉 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥
𝒒𝑇
𝐾
𝑑
𝑉
𝐪𝐊 = 𝒒 𝒌1, 𝒌2, … , 𝒌𝑛 = 𝒒𝒌1, 𝒒𝒌2, … , 𝒒𝒌𝑛
𝑠𝑜𝑓𝑡𝑚𝑎𝑥
𝒒𝑇
𝐾
𝑑
𝑉 = 𝑷𝑽 = 𝑝𝒗1, 𝑝𝒗2, … , 𝑝𝒗𝑛
内積を√dで割って
SoftMax
Vの重み付き和
- 14. Attention (7/8)
Q
K
V
input
memory
𝒒1 𝒒2, … , 𝒒𝑛
𝒌1 𝒌2, … , 𝒌𝑛
𝒗1 𝒗2, … , 𝒗𝑛
V1,V2に大きい重み
⇒V1,V2に近いベクトルが出る
q1について考える
• 内積で類似度を計算する
(q1とKすべての内積を取る
• 似ているキーに関するバリューを重み付け
• Vの和を取る
*内積=類似度
2つのベクトルが同じ向き⇒内積大
別の向き⇒0
逆の向き⇒-大
すなわち,内積はベクトルの類似度
- 18. Self Attention(4/4)
a2について考える
• q2は各キーに対して,類似度を計算する
• SoftMaxすると,それぞれ値が出てきた
[小説]と類似度が高いキーは[人気]と[小説]
これらが[小説]のベクトルの
特徴として,バリューの重み付け和に反映される
この 小説 は 人気 です
q1 k1 v1
a1 a2 a3 a4 a5
q2 k2 v2 q3 k3 v3 q4 k4 v4 q5 k5 v5
a21=q2*k1 a22=q2*k2 a24=q2*k4
a23=q2*k3 a25=q2*k5
Softmax
a21’ a22’ a23’ a24’ a25’
0.07 0.3 0.01 0.7 0.02
- 20. Multi Head Self Attention
各単語に対して
1組のQ, K,Vを持たせるのではなく,
複数のヘッドを作って
それぞれのヘッドで潜在表現を計算する
a1
q11 k11 v11 q12 k12 v12
ヘッドを複数用意することで
それぞれが異なる潜在表現の空間から
有益な情報を取ってこれる
- 38. ロバスト性の分析
※ ロバスト性 … 外部からどれだけ影響しにくいか
今回は,Trainにないデータをどれだけ性能を出せるか
• C,Dを見ると,本手法が最もロバスト性が高い
(局所的なテクスチャだけでなく,グローバルな関係を見れている
Editor's Notes
- UTNet:
医用画像セグメンテーションのためのハイブリッドトランスフォーマーアーキテクチャ
を紹介します.
- では,まずイントロから説明していきます.
- 次にSelfAttentionを説明しましょう.
- 次にMultiHeadSelfAttentionです.
- 最後に,PositionEncodingという技術もあるのですが,ちょっとこれは省かせてください.
- やっとここまでで前提知識が終わりまして,
本手法では何を提案しているかという話に入ります.
- 最後に実験です.
- ベースはU-Netです.
U-Netは,エンコーダ・デコーダ型のネットワークです.
単純なデコーダでは,位置情報が捉えられません.
そこで,各階層でエンコーダの特徴マップをデコーダの特徴マップに結合します.
そうすることによって,アップサンプリング時に位置情報が加わり,位置情報が補完できるというモデルです.
- SelfAttentionとCNNの比較ですが,
SelfAttentionは,前の隠れ層すべての位置を把握します
これに対して,CNNは局所的な参照しかできません.
下の図のようになっています.