「解説資料」Large-Scale Few-shot Learning: Knowledge Transfer With Class Hierarchy

1DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Takumi Ohkuma, Nakayama Lab M1
Large-Scale Few-Shot Learning: Knowledge
Transfer With Class Hierarchy

自己紹介
 大熊拓海（オオクマタクミ）
 東京大学情報理工学系研究科創造情報学専攻中山研究室 M1
 専門はfew-shot learning関連
 現在の研究テーマはfew-shot learningにおける適切なトレーニングデータ選択
について
2

書誌情報
題名：Large-Scale Few-Shot Learning: Knowledge Transfer
With Class Hierarchy
会議：CVPR 2019
著者：Aoxue Li, Tiange Luo, Zhiwu Lu, Tao Xiang and Liwei
Wang
3
スライド中の図で引用が特に明記されていないもの
は、全て紹介する論文のものです

概要
 多クラスデータセットに対しては、既存研究のfew-shot
learning(FSL)手法の有効性が低くなる
 クラスの階層構造を用いた手法を提案し、多クラスデータ
セットに対するFSLの精度を向上させることに成功

Few-shot learning
 事前知識を利用することで、対象となるタスクのデータが少数であ
る場合に高い精度でモデルを学習することが目的
 本論文で着目する画像分類タスクにおいては、事前知識をソースク
ラス、対象となる分類タスクのクラスをターゲットクラスと呼ぶ。
 ソースクラスの教師有り画像は大量に利用できるが、ターゲットク
ラスの教師有り画像は高々数枚しか利用できない。枚数がN枚の時、
N-shot learningと呼ばれる

ベースとなる手法(NN)
ソースクラスを用いて、特徴量
(Feature extractor)を学習
ターゲットクラスの教師データ(少数)
を用いて、特徴空間上でnearest
neighbor(NN) search
（引用元）[3]（引用元）[2]
• 「事前知識(ソースクラス)を用いて学習された特徴量上で、ターゲッ
トクラスの教師データの特徴ベクトルに最も近いクラスに分類する」
というクラス分類器が学習される。

多クラスデータセットに対するFSL
 本論文では、Few-shot learningのベンチマークとして主流であるmini-
Imagenetではなく、より多クラスを含むILSVRC2012/2010における精度
を高める。
mini-Imagenet ILSVRC2012/2010
ソースクラス 64クラス 1000クラス
ターゲットクラス 36クラス 360クラス

多クラスでの問題点
 多クラスデータセット対して、従来手
法の有効性が薄くなる
 多くの手法が、ベースライン手法である
simple nearest neighbor (NN) search とほ
とんど差がない
 ターゲットクラスが多数なので、これ
を適切に分類できる特徴量の学習が困
難なのではないか？（僕の解釈です）
 この問題を解決できるような手法を提
案したい

クラスの階層構造
• Source ClassとTarget Classの両者に共通しているSuperclassを学習に利
用することで転移性能を高めることができるのではないか？
• 近いクラスが近い特徴空間に対応するようになる？

提案手法
 クラスの階層構造を既存手法のNNに導入
• 通常の分類器のclassification層をHierarchical Prediction Netで置き換える
• Test時の計算は既存手法と同じNearest Neighbor Search

Hierarchical Prediction Net
• Hierarchical Prediction Netは、通常の分類器を複数階層のスーパークラ
スを予測できるように拡張したネットワーク
• Step1で各階層の分類に特化した特徴量を取り出し、Step2で自身とより
下位の特徴量を入力として各階層のクラスorスーパークラスを予測する

損失関数
𝑝𝑙𝑖 = 𝐹𝑙𝑖
1
𝐺 𝑥 𝑖 = 0, … , 𝑛
𝑝𝑙𝑖 = 𝐹𝑙𝑖
2
⊕ 𝑗=0
𝑖
𝑝𝑙𝑗 𝑖 = 1 … , 𝑛
𝐿 𝑥, 𝑌 = 𝐿 𝑐𝑙𝑠 𝑦𝑙0, 𝑝𝑙0 +
𝑖=1
𝑛
λ𝑖 𝐿 𝑐𝑙𝑠 𝑦𝑙𝑖, 𝑝𝑙𝑖
• ソースクラスを用いたトレーニング過程では、以下で定義される損失関数
𝐿 𝑥, 𝑌 を最小化する
• 𝐿 𝑥, 𝑌 は通常のクラス分類に対する損失関数に加え、すべての階層のスー
パークラス分類の損失関数の和となっている
𝑛:スーパークラスの階層数
𝐺:feature extractor
𝐹𝑙𝑖
1
:Step1の𝑖番目の階層に対応するFC
𝐹𝑙𝑖
2
:Step2の𝑖番目の階層に対応するFC
⊕:concatenation演算
𝐿 𝑐𝑙𝑠: クロスエントロピー損失関数
𝑥:入力画像
𝑦𝑙𝑖: 𝑖層目の階層のスーパークラス(0番目は通常のクラス)
𝑌: 𝑦𝑙𝑖を全て合わせたもの
𝑝𝑙𝑖: 𝑖番目の階層のスーパークラスの予測値
λ𝑖:各階層に対する重みハイパーパラメータ

実験 (条件設定)
＜条件設定＞
 用いるデータセットはILSVRC2012/2010
 特徴抽出に用いるCNNはResNet50
 クラスの階層構造はskip-gram text model[1]で学習された
word vector空間におけるk-meansで生成
 3階層のスーパークラスを持ち、数は下から順に200, 40, 8
 momentumSGDで20エポック学習

実験 (既存手法との比較)
 ベースライン(NN)と提案手法(Ours)、更
に3つの既存手法[4, 5, 6]を用いK-shotで
実験を行った。
 既存手法がベースラインと大差ないう
え、1-shotでは負けている
 それに対し、提案手法は1-shotから5-
shotまで全てにおいて高い精度を実現
できている。
 提案手法はクラスの階層構造以外は
ベースラインと全く同じなので、階層
構造の有効性が示せている

実験(ソースクラスのみの階層構造)
 K-meansを用いて階層構造を作成
する際、基本的にはソースクラス
とターゲットクラスの両方を用い
るが、ソースクラスのみを用いた
場合でも精度は殆ど劣化しない。
 ソースクラスのみから未知のター
ゲットクラスの分類に必要な特徴
量が学習できているので、この特
徴量は別のターゲットクラスに大
しても汎用的に利用できると考え
られる。

実験 (スーパークラス数と精度)
 スーパークラスの階層数や
数を変えての実験結果
 階層数は3の時が最も精度が
良く、続いて2、1と4は低く
なった（それでもベースラ
インよりは高い）
 階層数3でスーパークラスを
変化させた場合は、あまり
精度の差が出ない
 精度に重要なのは階層数で
あり、多すぎても少なすぎ
ても精度は良くならない
階層数を変えての実験
スーパークラス数を
変えての実験

結論
 既存手法は多クラスデータセットに対するfew-shot learningで
精度が出にくい、という問題をクラスの階層構造を導入するこ
とで改善
 提案手法は基本的にベースラインであるNNと階層構造部分を
除けば同じなので、純粋な階層構造による効果が確かめられた
 階層構造を作成する上で最も重要なパラメータは階層数である

個人的な感想
 階層構造を構築するに際して用いるword vectorの特徴空間の学習に外部
データを用いているので、純粋にSOTAを達成したとは言い難い気がする。
但し実用的観点からすると非常に有効な手法であると思う。
 本論文では多クラスデータセットに対して、既存手法があまり有効では
ないという主張だったが、実はminiImagenetなどの小規模データセット
に対しても適切なfine-tuningのみの手法と大差がないとの研究もある[7]。
 要するにfew-shot learningの手法の有効性自体が疑問視されている。
 Word vectorの様に別の情報を加えたマルチモーダル学習や、適切なソー
スクラスを選ぶ (自分の研究テーマ)といった事前知識面の工夫にももっ
と焦点が当てられるべきだと思う。

引用
1. Tomas Mikolov, et al: Distributed representations of words and phrases and their
compositionality. NIPS, 2013.
2. Wei-Yu Chen, et al: A closer look at few-shot classification. ICLR, 2019
3. Jake Snell, et al: Prototypical networks for few-shot learning. NIPS, 2017
4. Bharath Hariharan and Ross Girshick: Low-shot visual recognition by shrinking and
hallucinating features. ICCV, 2017.
5. Yu-Xiong Wang, et al: Low-shot learning from imaginary data. CVPR, 2018
6. Matthijs Douze, et al: Low-shot learning with large-scale diffusion. CVPR, 2018.
7. Aoxue Li, et al: Large-Scale Few-Shot Learning: Knowledge Transfer With Class Hierarchy.
ICLR, 2019.

「解説資料」Large-Scale Few-shot Learning: Knowledge Transfer With Class Hierarchy

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Takumi Ohkuma

More from Takumi Ohkuma (10)

「解説資料」Large-Scale Few-shot Learning: Knowledge Transfer With Class Hierarchy