Integration and Automation in Practice: CI/CD in Mule Integration and Automat...
Free lunch for few shot learning distribution calibration
1. Free Lunch for Few-shot Learning:
Distribution Calibration
パン@オンライン
2. 書籍情報
n タイトル︓Free Lunch For Few-shot Learning: Distribution Calibration
n ICLR 2021(オーラル)
n 点数︓7,7,7
n この論⽂を端的にいうと︓
n 特徴空間で、⼗分な量の訓練データの分布をもとに、新規クラスのデータ分布を推定する
n 推定されたデータ分布からサンプリングし、ロジスティック回帰したらめっちゃ精度でた
few-shot learning初⼼者なので
間違っていたら教えて下さい
3. few-shot learningの問題設定
n そもそもfew-shot learningってどんな問題設定なのか︖
n これがわからないと⼿法もよくわからない
n 少ない枚数のデータを使って訓練して、分類するんでしょ︖
n まあ、そうです。
n 各クラス1枚の画像の訓練データだけを使ってテスト時に5種類のどの
クラスに属しているかをあてる
n 無理ゲーw
5. few-shot learningの問題設定
n まとめると、訓練データには2種類ある
n ベースクラスとよばれる⼤量の画像データ(∞-way ∞-shot)
n ノベルクラスからサンプルされる少数の画像データ(N-way K-shot)
n ※ ベースクラスとノベルクラスはかぶりがない
n どうやってテストする︖
n ノベルクラスからサンプルされたデータがN種類のどのクラスであるのかを予測し検証する
n → じゃあ、ベースクラスで学習したモデルを
ノベルクラスのデータを使ってfine-tuningすればいいのでは︕
n ナイーブにはそうで、普通に精度けっこうでる
8. 関連研究︓ Prototypical Networks for Few-shot Learning
n 例えば3-way 5-shotのサポートセット(S)をベースク
ラスからサンプルし、特徴空間の中⼼点を求める
n なんらかの距離関数を使い、新しいデータ(クエリ
セット)と中⼼点の距離をもとめ、ソフトマックスで
クラスを予測し、学習する
n 上記を何度も繰り返すことで、少数データからクラス
を予測するすべを学ぶ(メタラーニング)
14. 提案⼿法︓細かいテクニック・ハイパラ
n ノベルクラスのデータをガウス分布に従うようにするために、Tukey’s Ladder of Powers
Transformation を⾏う
n λ乗するだけ
n 実験ではλ = 0.5
n 分散度合いをヒューリスティクスに決めている︖
n 実験ではα = 0.21 or 0.3
n (αIとか⾜すことはあるけどαを⾜すのか...)
n 何個のベースクラスの分布を利⽤するのか
n 実験では k = 2
n 何個くらいサンプルするのか
n 実験では750くらい
15. 実験︓データセット
n few-shotでよく使われるのはCUB・miniImageNetというデータセット
n この論⽂では上記に加えてtieredImageNetというデータセットも使って検証している
n 昔はオムニグロットとか使われてたイメージだが、精度がサチってきて最近では使われなくなっ
てきたイメージ
n CUB︓
n 200クラスあり、全体で11788サンプル存在し、サイズは84x84x3
n ベースクラス100、検証クラス50、ノベルクラス50
n いろんな⿃が写ってる
n miniImageNet︓
n 100クラスあり、各クラスごとに600サンプル存在し、サイズは84x84x3
n ベースクラス64、検証クラス16、ノベルクラス20
n ILSVRC-12から取り出された
n tieredImageNet︓
n 608クラスあり、各クラス平均的に1281サンプル存在する
n ベースクラス351、検証クラス97、ノベルクラス160
n ILSVRC-12から取り出された
16. 実験︓評価⽅法
n ノベルクラスからサンプルされる訓練データは5way-1shot or 5way-5shotとする
n つまり、訓練データは各クラス1枚か5枚で、5クラス分類をするということ
n もちろんベースクラスは無限に使うことができる
n 上記⼀回だけだと信頼度がなくなるので、10000回繰り返して平均正解率を求める
n テストデータは各訓練データに対し1個︖書いてない
23. 感想
n 全体としてアイデアは単純で⾯⽩いし、結果も出ているようにみえる
n ただ、精度に⼀番貢献しているのはヒューリスティクス部分なのではないかと思ってる
n Manifold Mixup for Few-shot Learning (WACV 2020)も同じくらい精度でてるけど⽐較していない
のは気になった
n よく読めば理由はわかるかも
n あと、最後の結論にベースクラスとノベルクラスのドメインが異なった場合はfuture workに
するとかいてあり、ベースクラスの分布をもとにノベルクラスの分布が作ることができなく
なるので、それはできないのは当然だなという感じがした
n そういった問題設定を解こうとしている論⽂もいくつかある
n ex) Cross-Domain Few-Shot Classification via Learned Feature-Wise Transformation (ICLR 2020)