Stacked Semantics-Guided
Attention Model for Fine-Grained
Zero-Shot Learning
2020/10/15
1
論文情報
タイトル
Stacked Semantic-Guided Attention Model for Fine-
Grained Zero-Shot Learning
著者
Ji, Zhong and Fu, Yanwei and Guo, Jichang and Pang,
Yanwei and Zhang, Zhongfei
出典
Advances in Neural Information Processing Systems 2018
概要
Zero-Shot Learningにおける画像の局所領域へ重み付け
するためのattention map生成手法の提案
2
Zero-Shot Learningについて
• Zero-Shot設定に関して
学習時には出現しないクラスのラベルを予測するタスク(主に分類)
• どうやって解決するのか
• 特徴量空間と補助情報(意味空間)を組み合わせて分類
3
ResNet
等
特徴ベクトル
• 属性空間
• 単語埋め込み空間
• 知識グラフ
等
seenクラス:学習に使うクラス
unseenクラス:テストで使うクラス𝑠𝑒𝑒𝑛 ∪ 𝑢𝑛𝑠𝑒𝑒𝑛 = ∅
モデルの概要
特徴量空間と意味空間の対応関係を学習したい
人間は見たことのない画像を見たとき,局所的な情報から
属するクラスを推定
4
特徴抽出 Semantic Guided Attention
visual-semantic matching
局所領域の重要度による重み付け
①
②
提案手法
Stacked semantic-guided attention networks
主に2つのネットワークから構成
① local embedding network
単純な2層のNN
② semantic guided network
• 𝐕𝐼を𝐕𝐺に圧縮(平均)→3層のNNへ入力
• 中間層の出力がクラス意味特徴量近づくように学習
5
提案手法
Stacked semantic-guided attention networks
① local embedding network
② semantic guided network
𝑔(⋅)の第2層の出力は以下の損失で学習
6𝑝:各領域の特徴次元, 𝑚:画像領域の数,𝑑:潜在空間の次元数,𝑞:意味空間の次元数
𝐖𝐺,𝑆 ∈ ℝ 𝑞×𝑝, 𝐖𝐺,𝐴 ∈ ℝ 𝑑×𝑞
𝐕𝐼 ∈ ℝ 𝑝×𝑚, 𝐖𝐼,𝐴 ∈ ℝ 𝑑×𝑝, ℎ ⋅ :ReLU
𝐬:クラスの意味的特徴
第2層の出力が意味特徴と類似するように学習
提案手法
Stacked semantic-guided attention networks
2つのネットワークを潜在空間へ写像
各領域におけるattention分布
7
提案手法
Stacked semantic-guided attention networks
attention分布に基づいた各領域の重み付き特徴ベクトル
attention featureには重み付け前のベクトルと足し合わせたものを使用
8
෤𝐯𝑖 = 𝑝𝑖 𝐯𝑖, 𝐯𝑖:i番目の領域の特徴ベクトル
𝐮𝑖 = ෥𝐯𝑖 + 𝐯𝑖
提案手法
Stacked semantic-guided attention networks
実際にはattention層を複数重ねたもの(S2GA)を用いる
𝑘番目のattention層の出力
最終的に𝐾回繰り返し得られたattention map 𝐮 𝐺を埋め込みに使う
9
𝐔𝐼
0
, 𝐮 𝐺
0
は𝐯𝐼, 𝐯 𝐺で初期化
提案手法
Visual-semantic matching model
2層のネットワークで意味的特徴を視覚空間に埋め込む
attention map 𝐮 𝐺と意味的特徴の埋め込みベクトル𝐯𝑠の差を小さくする
最終的な予測ラベル
10
𝐖 𝐸 ∈ ℝ 𝑝×𝑞, 𝐛 𝐸 ∈ ℝ 𝑞
埋め込み行列 バイアス
𝑠. 𝑡.
最も確率の高いクラスのindexを予測する
実験設定
• データセットはCUBとNABirdsの2種類
• 鳥類のデータセット
• 属性,局所領域へのアノテーションつき
• 局所領域へのアノテーション(7属性分(NABirdsは6属性))
画像特徴量の扱い方で2種類
• GTA(Grand-Truthを使用)
• DET(SPDA-CNNフレームワーク[1])
• クラス意味特徴量
• 属性を使用
• Word2vec,TF-IDFでも実験
次元数はPCAである程度の大きさに削減
11
[1]:Zhang, Han, et al. "Spda-cnn: Unifying semantic part detection and abstraction for
fine-grained recognition." Proceedings of the IEEE Conference on Computer Vision and
Pattern Recognition. 2016.
実験結果
CUBに対する結果
12
V:VGGNet
G:GoogleNet
A:Attribute
W:word2vec
他の手法を凌駕
※annotationデータに重点を置いた比較手法が存在しないことに注意
実験結果
CUBとNABirdsに対する結果
13
SCS:親カテゴリを共有
SCE:親カテゴリが排他
改善は見られるが大きな差はない
排他的な設定ではseen/unseen間の知識の伝達が難しい
他の手法と視覚特徴量を同じものを使用した場合の結果
実験結果
attention機構の効果
14
baselineはattention layerを使用しない結果
A:attribute
W:word2vec
T:TF-IDF
attention layerを使用した方が精度は良好
2層以上で精度が安定
実験結果
Zero-Shot Retrieval
クラス間の弁別性能に関する実験
15
他のクラスと似ている
クラスは誤分類が多い
まとめ
• 提案手法
Zero-Shot Learningにおけるattention機構を用いた
局所領域への重みづけ手法
• 感想
annotationデータが使える状況では高い精度だが,
annotationデータが使えない状態での精度はあまり
高くないので汎用的に優れているとは言えない
16

Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介