CVPR 2020の動向・気付き・メタサーベイ 

1
飯田啄巳(センスタイムジャパン), 田丸黎(JAIST), 飯田琢矢

Group 3: Adversarial Learning
CVPR2020の動向

- 攻撃防御を通したAdversarial Learningの理解

- 機械学習モデルの説明性

- データセットのバイアスと再評価

- 汎化テストの重要性

- 頑健性を持つ学習





Adversarial Learningを通じた機械学習の理解

2
新たなタスク+現実タスクに対するAdversarial Learning



機械学習のパイプラインにおける脆弱性の説明と改善

攻撃、防御のイタチごっこから、 

本来の目的の機械学習に対する説明性へとシフト
本当にそのモデルは対象を学習しているの?

3
• 学習における懸念点 

• - 懸念 #1 :従来の過学習 → 正解データ以外を排除してしまう 

• - 懸念 #2 : 適応的過学習 → データ分析で統計的に重要な結果のみを重視した場合(テストデータを過信した場
合)、偽陽性のリスクが高まってしまう(p-hacking) 

• - 懸念 #3 : ベンチマークに対する過学習 → データセットのバイアスによって学習に影響が出る 



















データセット≠現実世界

4
Background bias

- 背景にも意味があり、背景だけで学習させると背景を識別できる 

- 背景を変えた画像で学習させると識別精度が顕著に下がった 









Adversarial Backgrounds 

- worst-caseな背景を使ってもモデルが 87.5%で正しく前景の物体を識別してしまう 









Background-Robust models 

- 背景を変えながら学習させると全体の精度は下がるがbackground-robustなモデルになる 







データセットのバイアス

5
最大の画像データセット ImageNetで実験

ラベルの真偽

- 間違ってはいないけど、画像のメインではないものがラベリングされている 











膨大過ぎて間違いは存在する(スケールしない) 

正解ラベルが1つなのはおかしい 



- ImageNetの1000クラスのアノテーションは人間には難しい 

→ 複数のモデルのTop-5の予測から一番適しているラベルを選ぶ 

複数のラベルがあれば複数の物体が存在する画像も正しく識別できる! 



Human-Based Evaluation 

- モデルの結果を人間が正す 

- 専門家でなくとも正解ラベルが求められる 

データセットの作成方法に問題がある 

これからの学習とデータセット

6
p-hackingを防ぐために 

- 新たなテストデータセットを作成(Dataset Replication) 

- 新たなデータセットを作る上で、Flickrから正しくラベリングされた頻度が多い画像を使用 





統計的バイアス

- 単純なアノテーターの少なさによるバイアスが存在(Statistical Bias) 

- バイアスを減らしたところ精度は改善 









今後の課題



# データから学習される他のバイアスは?

# バイアスを加味してどのようにモデルを学習させるのか?

# ベンチマークの問題を解決するための新たな指標は?
7
汎化テスト

Adversarial Examplesをただ誤認識させるタスクとして捉えるのではなく、

人とDNNの認識の違いを見渡す問題として見ていく研究が進んできた。



今回のCVPRでは、XAIやFairnessのセッションも追加されたこともあり、

DNNの認識の解釈や傾向を分析していく重要性が増してきている。



CVPRチュートリアルセッションの汎化テスト(Testing Generalization)は、

Adversarial Examplesの観点から、そのDNNの認識傾向、人との差を見ていくセッショ
ンとなっており、これから重要になるテーマといえる。

8
そのテスト、汎化テストになってる?

汎化しているかのテストは”単なるi.i.dな”テストセットでは不十分

・モデルはシェイプではなくテクスチャを重視する傾向にある

・同じデータセットを分割したテストセットでテストしても同じテクスチャが維持されている

・テスト時は違う変換をしたデータ(o.o.d data)でテストしたほうが良い。







n個の変換(データ拡張) 
 n+1個目の変換

(out-of-distribution data) 

人はシェイプ、モデルはテクスチャを重視している

テスト時は違う変換で

i.i.dなテストセットでテスト可能な範囲は限られている。データ分布
と異なるデータ(o.o.d)でもテストしていくべき

9
より汎化させるには?

通常のタスクよりも難しい問題を用意する

・人でも間違えるようなデータを作る(Mixupとかが近い)

 --> 複数モデルで合意がとれないようなデータを作る









人間でも判別が難しいデータを生成(右図) 

モデルで合意が取れないデータを生成

人の認識を騙す?

10
画像としては全く違うのに、認識確率がすべて同じ 

人には全く違う画像に見えるが、DNNには違いがわからないデータを生成

全く違うデータなのに、出力を同じにできてしまう。

Metameric examplesというのが生まれ始めた?

・Adversarial Examplesは、モデルの認識結果 

・Metameric Examplesは、人の認識結果 

を変えているとも解釈できる 

11
Adversarial Robustnessの歩み (1/2)

①最初はノイズがない本物の画像のパッチを用意して

 パッチをあてていくことでノイズ除去を行う試み

 



























DeepFoolなどの攻撃手法にも頑健性を示した 

②しかし防御手法を回避する 

攻撃手法が出てくる↓ 

12
Adversarial Robustnessの歩み (2/2)

③Adversarial training 

- 正則化項をLossに加えることで頑健性が向上





④Feature denoising

- 敵対的摂動を加えた画像は特徴マップに

ノイズが含まれるのでこれを取り除く機構を

追加することで頑健性が向上



13
現状の課題は? -私たちは正しい問題に取り組めているのか- (1/2)

・ノイズの敵対的摂動に対する対処だけでは不十分

- 例えば下のように画像に二本の白い線を加えた場合、

Lp-normは非常に大きくなってしまう。

これだけの事でも我々はどう対処してよいか分かっていない























・あらゆる攻撃を網羅的に防ぐような想定は適切ではないかもしれない 

- 攻撃者が専門知識を持っていると考えて対処しようとすると、

考えなければいけない設定は膨大になってしまう



14
現状の課題は? -私たちは正しい問題に取り組めているのか- (2/2)

・データセットに大きなバイアスがある

- 画像は西洋のものが多い

- 英語での検索をベースに考えられている





このバイアスのためクラウドビジョンシステムの

精度が西洋文化の国では高く、他の国は低くなる

問題が起こっている














【CVPR 2020 メタサーベイ】Adversarial Learning