Domain Generalization via Model-Agnostic Learning of Semantic Features

NeurIPS’19 読み会 in 京都
2020/2/11
Yamato OKAMOTO
Domain Generalization
via Model-Agnostic Learning
of Semantic Features

自己紹介岡本大和（おかもとやまと）
 ～’13 京都大学知能情報専攻映像メディア分野
 ～’16 システムエンジニア
 ～’18 機械学習＋IoT屋さん
 ’18～ Business Developer 兼 Researcher
興味ある事
 顧客現場でちゃんと役に立つ機械学習モデルを作りたい
 夢は京都をポスト・シリコンバレーにすること
⇒ ところで、そろそろ京都に帰りたい（※東京へ転勤になって２年目）
Twitter: RoadRoller_DESU
Rugby World Cup
In JAPAN

これまで私がやってきた研究
だいぶ前
 『Domain-Adaptation』に夢中
けっこう前
 『Feature-Disentangle』に夢中
ちょっと前
 『Federated-Learning』に夢中
最近
 『Domain-Generalization』と『Active-Learning』に夢中
現場適応や！！
脱・ブラックボックスや！！
世の中、データや！！
今日はこの話
こっちはサーベイ資料公開中
https://www.slideshare.net/yamatookamoto5/survey-active-learning

今日お話しすること
Domain-Generalizationとは？
『Domain』に対して
『Generalize(一般化)』すること

ドメインの課題
このドメインで学習同じドメインで評価
機械学習モデルは学習データと同じようなドメインでしか
性能が出ないという課題を抱えている
ドメインとはデータセットにかかるバイアスのようなもので、
バイアス込みで学習したモデルは、異なるバイアスのデータに転用が困難になる
モデル構築
異なるドメインで評価
⇒ 高性能を達成
⇒ 性能がでない

Domain-Generalizationは従来よりタフな問題設定
Source Domain
（１つ以上）
Target Domain
（１つだけ）
Supervised
Learning
（使用しない）
データ：あり
教師ラベル：あり
理想的だけど
手間が膨大
Unsupervised
Domain Adaptation
データ：あり
データ：あり
教師ラベル：なし
ラベル作成の
手間を省略
Domain
Generalization
データ：あり
データ：なし
教師ラベル：なし
最も手間が
かからない
これらで学習ここで評価
『Domain Generalization』はTarget-Domain-Dataを
そもそも知らない状況で性能向上を目指す、最もタフな問題設定と言える

どんなところが難しいの？
ドメイン相違に左右されない特徴量を捉えて学習ドメインへの過適合を防ぎたい
Domain-Generalizationの難しさは
“ドメイン相違に左右されないモデル”を“限られたデータ”で構築する点
ドメインバイアスの定義が困難
ドメインが異なるとデータがどう変わ
るのか抽象的で定義困難。そのため、
従来の過学習対策手法では学習データ
への過適合を防げても学習ドメインへ
の過適合を防げない可能性がある。
必要データ量のキリがない
がむしゃらに異なる複数ドメインから
データを集めて学習すれば、モデルが
一般化される期待もあるが、データ量
がどれだけ必要なのかわからないため
現実的な策ではない。
DATA DATA
what type of difference?

Domain-Generalizationの論文
CVPR’19（3本）
• Domain Generalization by Solving Jigsaw Puzzles
• DLOW: Domain Flow for Adaptation and Generalization
• Multi-adversarial Discriminative Deep Domain Generalization for Face
Presentation Attack Detection
ICML’19（1本）
• Feature-Critic Networks for Heterogeneous Domain Generalization
NeurIPS’19（1本）
• Domain Generalization via Model-Agnostic Learning of Semantic Features
今年度も大量の論文が発表された『Domain-Adaptation』に比べて
『Domain-Generalization』はまだ出始めたばかり

研究でよく使われる学術データセット
Office+Caltech、VLCSなど
• 撮影環境や背景条件が異なる画像の
データセット
• ただし、どれも写真
PACS
• Photo, Art, Cartoon, Sketchの
4ドメインの画像データ
• 犬やギターなどを含む7クラスの
Object-Classifier問題
PACSのように4ドメインを含むデータでは、３つのドメインで学習して、
（学習に使わなかった）残り１つのドメインで評価するのが基本

Deeper, Broader and Artier Domain Generalization (ICCV’17)
VLCS PACS
Domain Generalizeの研究にPACSデータはうってつけだと述べた論文
PACSデータセットでは
ドメインごとに特徴量の分布が異なる
（というか、難しすぎでは？？）
学習済みモデルを
異なるドメインに
転用したときの
性能劣化も激しい

Deeper, Broader and Artier Domain Generalization (ICCV’17)
VLCS PACS
Domain Generalizeの研究にPACSデータはうってつけだと述べた論文
PACSデータセットでは
ドメインごとの特徴量分布が明らかに異なる
（というか、難しすぎでは？？）
学習済みモデルを
異なるドメインに
転用したときの
性能劣化も激しい
や、これは無理じゃね・・？
!?

Domain Generalization by Solving Jigsaw Puzzles (CVPR’19)
Object-ClassifierとJigsaw(パズル復元)のマルチタスクで学習する
Object-Classification-Loss
𝜃𝑓(share)
𝜃𝑐
𝜃 𝑝
S：ドメイン数
N：クラス数
K：画像ごとに生成するJigsaw-sample数
Jigsaw-Loss
シャッフルパターンが膨大なので（ n*nのGrid
で区切るとn2!）、ハミング距離が大きくなるよ
うにP個だけ選別する
Jigsaw-Classifierはシャッフルパターンを予測
してP次元のベクトルを出力
Object-Classifierはシャッフルされていないサ
ンプルのみ学習
Unsupervised-Domain-Adaptationにも応用可

Feature-Critic Networks
for Heterogeneous Domain Generalization (ICML’19)
メタラーニングによってDomain-Generalizationを実現
３つのネットワーク
θ：特徴量抽出部
Φ：クラス識別部
ω：特徴量評価部
３つのLoss
LCE ：クラス識別が正しくできているかどうかのLoss
Laux ：ネットワークωによる特徴量の評価スコア
Lmeta：特徴抽出部をLaux有りと無しで学習したとき差分
学習ドメインをtrainとvalidに分割
train-domain
1.クラス識別できるよう学習
2.クラス識別できるよう学習
＋ωによる評価が大きくなるよう学習
valid-domain
1.より2.の方がvalidで高性能となるよ
うにωを学習

本日の紹介論文
 Domain Generalization via Model-Agnostic Learning
of Semantic Features
Jigsaw
(CVPR’19)
Feature-Critic
(ICML’19)
Semantic Feature
(NeurIPS’19)
C,P,Sで学習
Artで評価
67.63 64.89 70.35
A,P,Sで学習
Cartoonで評価
71.71 71.72 72.46
A,C,Sで学習
Photoで評価
89.00 89.94 90.68
A,C,Pで学習
Sketchで評価
65.18 61.85 67.33
Average 73.38 72.10 75.21
PACSデータで
SoTA達成

提案手法のネットワーク構造
Iteration毎に学習データを
train-domain(Di)と
valid-domain(Dj)に分割
Fψはデータから
特徴量を抽出
特徴量空間
Mφは特徴量を
さらに低次元へ射影
Tθは特徴量から
クラス識別をする

KEY: メタラーニングとメトリックラーニングの導入
Task Loss
• trainでのみクラス識別の教師付き学
習をする
Local Loss
• 特徴量を低次元に射影したとき、
（ドメインに関係なく）同じクラス
が近い＆異なるクラスが遠いほど
Lossは小さくなる
• trainとvalidの両方で学習
Global Loss
• 『クラスAとクラスBは混同しやすい、
クラスCは混同しにくい』といった
Confusion-Matrixを算出
• これらがtrainとvalidのドメイン間で
類似するように学習

Global-Lossによるクラス間の関係性の保存
ドメインごとに各クラスの平均特徴量ベクトルを算出
平均特徴ベクトルをTθに入力して識別結果を得る
Train-domainとvalid-domainで識別結果が類似するように学習
『クラスAとBは混同しやすい』,『クラスAとCは似ていない』などの
クラス間の関係性を保ちながら異なるドメイン間で分布を近づける
(敵対学習でdomain-confusionするよう分布を重ねるよりもsoftなalignmentと言える)
c:クラス、Dk:ドメイン、n:データ数、y:教師ラベル、x:データ
τ:softmaxの温度param、特に調整の必要なし
C:クラス数、Di:train-domain、Dj:valid-domain、KL:symmetrized Kullback–Leibler

Local-Lossによるクラス間の関係性の保存
ネットワークMφで特徴量を低次元空間へ落とし込む
同じクラスは近く、異なるクラスは遠くなるよう学習
（contrastive-loss または tripret-loss を使用）
Global-Lossが比較的softなalignmentだったので
ここでしっかり特徴量空間が整理できる（仮説）
z:特徴量
y:教師ラベル、znとzmのクラスが同一か異なるかで算出法を切り替える

提案手法により形成された特徴量空間
ドメインに特化しすぎていない（=Domain-invariant）
特徴量空間を形成できていると言える
クラスごとに色分け
• クラスが混同することなく特徴量空
間でクラスタ形成している
ドメインごとに色分け
• 同じドメインでも、クラスが異なれ
ば異なるクラスタに属している

従来手法との比較
従来手法ではドメインクラスタやクラスクラスタが混在する
異なるクラス間で分布が近いため混同しやすい状態だったりする
提案手法
従来手法

まとめ
 Domain-Generalizationは学習ドメインとは異なる未知ドメインへの
ロバストを向上させる研究
 紹介論文では、クラス間の関係性を保存しつつ、メトリックラーニン
グすることでSoTAを達成した
所感
 Domain-Adaptationの従妹のような研究分野だと思っている
 Domain-Generalization向けに既存手法を改造＆適応させた研究が今
後たくさん出てくると予想
 PACSデータセット以外にも何かないんかね、、、

Domain Generalization via Model-Agnostic Learning of Semantic Features

Recommended

Recommended

More Related Content

What's hot

What's hot (16)

Similar to Domain Generalization via Model-Agnostic Learning of Semantic Features

Similar to Domain Generalization via Model-Agnostic Learning of Semantic Features (20)

More from Yamato OKAMOTO

More from Yamato OKAMOTO (20)

Recently uploaded

Recently uploaded (10)

Domain Generalization via Model-Agnostic Learning of Semantic Features