Adversarial Examples 分野の動向（メタサーベイ追加版）

Adversarial Examples 分野の動向
- History and Trends of Dark Arts -
福原吉博 (@gatheluck), ⾕村朋樹（@tanimutomo）
http://xpaperchallenge.org/
メタサーベイ追加版

#2
主な対象
• AEsについてほぼ事前知識が無く, これまでの流れと最新研究の動向を知りたい⽅.
• これまでの研究で分かっている範囲でのAEsの最も有⼒な原因候補を知りたい⽅.
• AEsはモデルの安全性についての話で, ⾃分の研究に関係することはまず無いと考え
ていたCV分野の⽅.
-> 今年になって画像⽣成への応⽤研究も出てきています.
• AEs 分野のメタサーベイに興味がある⽅.
※AEs周りの研究をされている⽅は, 既に知っている内容が多いと思います.

#3
注意
• 本⽇の発表内容および資料は出来る限り誤りの無いよう勤めておりますが, 発表者
⾃⾝もまだまだ理解が⼗分で無いため間違った内容を含む可能性があります.
• 2019年09⽉上旬の時点までの研究内容から資料を作成しているため, 今後の研究
で覆る可能性のある情報を含みます.（AEsの分野では割と頻繁に起こります.）
• 発表者はAEsを重要かつ⾯⽩い研究領域と思っていますが, そうでは無い（5年後に
後悔するかもしれない研究領域）との指摘もあります.
https://futurecv.github.io/

#4
1. 導⼊
2. 事前準備
3. 攻撃・防御編
4. 原因・性質分析編
5. 最新動向・今後の課題
6. メタサーベイ (New)
7. 有⽤な資料・参考⽂献 (New)
⽬次

Waseda University School of Applied Physics in Tokyo
導⼊
#5

導⼊
#6
Adversarial Examples (AEs) とは︖
: 攻撃者によって意図的にモデルが間違えるように設計された⼊⼒.
※摂動のみを対象とするより狭い定義の仕⽅もあります.
本⼈も Dark Arts と⾔ったりしているGANと並んでGoodfellow⽒が指摘した闇の1つ

導⼊
Adversarial Examples (AEs) とは︖
例）画像分類器に対しての攻撃
摂動を加える
+ = =+
# =
[Goodfellow et al., 2015] [Madry et al., 2018]
パッチを合成する
[Brown et al., 2017]
幾何学変換を作⽤させる 3Dの物体を加⼯する
A
[Sharif et al., 2016] [Eykholt et al., 2018] [Athalye et al., 2018][Xiao et al., 2018] [Kanbak et al., 2018]
※他タスク (物体検知, ⾳声認識, ⾃然⾔語処理) におけるAEsもあります.

導⼊
#8
何故AEsの研究をする必要があるのか︖
安全性の向上のため
• 機械学習モデルを社会実装する上で, AEsに対する脆弱性は安全保障上の問題
となる.
-> 特にAEsの転移性（transferability）の⾼さは⼤きな問題.
機械学習モデルのより深い理解のため
• AEsに対する脆弱性の原因の分析は, これまで明らかにされていなかった機械
学習モデルの性質の理解につながる.

事前準備
#9

事前準備
AEs関連の研究の分類
攻撃⼿法の提案防御⼿法の提案原因・性質の分析その他
• 論⽂をまとめる都合上, AEs関連の研究を以下の4つに（主観的に）分類して
います.
-> ⼿法・研究を紹介する際は⾊でどの種類の研究かを⽰すようにしています.
• その他は, 「AEsの⼿法の他タスクへの応⽤」や「評価指標の提案」など.
#10

事前準備
Threat Model（脅威モデル）
White box Black box
• 攻撃者はモデルの情報を
すべて⼊⼿可能
・アーキテクチャ
・パラメータ etc.
※使⽤されている防御⼿法
の情報も含む場合がある.
• 攻撃者はモデルの情報を
⼊⼿出来ない.
• クエリの送信は可能.
※不可とする場合もある.
[Kannan et al., 2018]
Gray box
• 攻撃者はモデルの情報の
⼀部を⼊⼿可能.
• 何の情報が⼊⼿可能かは
論⽂毎に異なる.
※Gray boxをBlack boxの
１種と扱うことも多い.
• 攻撃や防御が⾏われる際の状況設定に⽤いられる. (主に攻撃者の持つ情報の設定.)
• 多くの防御⼿法は攻撃を 𝑳 𝒑-ノルムで制約された摂動に限定している.
[Carlini et al., 2017]
※この資料では主にWhite boxの設定での⼿法を中⼼にまとめています.
[Goodfellow et al., 2018]
#11

事前準備
#12
頑健性の評価指標
Robust Accuracy
• 特定の攻撃⼿法で作られたAEsの分類精度.
• 攻撃⼿法を 𝐿'-ノルムで制約された摂動に限定する場合が多い.
CLEVER (Cross Lipschitz Extreme Value for nEtwork Robustness)
• モデルのLipschitz定数を⽤いた, 攻撃⼿法に依存しない評価尺度.
• Gradient Masking（勾配マスキング）をする⼿法を過⼤に評価してしまう︖
UAR (Unforeseen Attack Robustness)
• 未知の攻撃に対する頑健性の尺度. （𝐿'
-ノルムで制約されない攻撃を含む場合の尺度.）
※防御⼿法は通常の精度に影響を与えるものもあるため, Standard Accuracyも同時に報告する.
[Weng et al., 2018]
[Kang et al., 2019]
[Goodfellow, 2018]

攻撃・防御⼿法編
#13

#14
この章で話す内容
• “Arms Race (軍拡競争)”と表現される, これまで提案されてきた攻撃・防御
⼿法の⼤まかな流れ.
• 基本的 (かつ今も使⽤されている) 攻撃・防御⼿法.
o 攻撃︓Projected Gradient Descent (PGD)
o 防御︓Adversarial Training (AT)
※上記以外は概要しか説明しません.

攻撃・防御⼿法編（History of Arms Race）
2019
2014
2018
2015
DeepFool
[Dezfooli et al.]
2016
2017
JSMA
[Papernot et al.]
FGSM
[Goodfellow et al.]
C&Wʼs At.
[Carlini et al.]
BIM
[Kurakin et al.]
L-BFGS
[Szegedy et al.]
蒸留
敗北
勾配の難読化
敗北
AT
[Goodfellow et al.]
Defensive Distillation
[Papernot et al.]
Universal Perturbation
[Dezfooli et al.]
SparseFool
[Modas et al.]
YOPO
[Zhang et al.]
Free AT
[Shafahi et al.]
AT by PGD
[Madry et al.]
Obfuscated Gradients
[Athalye et al.]
Virtual AT
[Miyato et al.]
AEsの
存在が指摘
Certified Def.
[Raghunathan et al.]
Probable Rob.
[Wong et al.]
3D AEs
[Athalye et al.]
Joint AT
[Tramer et al.]
Logit Pairing
[Kannan et al.]
mixup
[Zhang et al.]
GCE Loss
[Chen et al.]
COT
[Chen et al.]
Elastic
[Xiao et al.]
Fog,Snow,Gabor
[Kang et al.]
Cascade AT
[Na et al.]
Defense-GAN
[Samangouei et al.]
SAP
[Dhillon et al.]
PGD
[Madry et al.]
CURE
[Dezfooli et al.]
Feature Denoising
[Xie et al.]
PixelDefend
[Song et al.]
Randomization
[Xie et al.]
Transformation
[Guo et al.]
LID
[Ma et al.]
Distributional Rob.
[Sinha et al.]
Reluplex
[Katz et al.]
One Pixel At.
[Su et al.]
ManiFool
[Kanbak et al.]
Unrestricted AEs
[Song et al.]
AT-GAN
[Wang et al.]
Natural AEs (GAN)
[Zhao et al.]
PATE
[Papernot et al.]
検出
困難
弱い防御の
複合も弱い
Label Smoothing
[Warde-Farley et al.]
Arms Race
開始
Statistical
Det.
[Li et al.]
Adv. Retraining
[Grosse et al.] [Gong et al.]
Input PCA
[Hendrycks et al.]
Dim. Reduction
[Bhagoji et al.]
Dropout
[Feinman et al.]
Topological Det.
[Corneanu et al.]
検出による
防御勾配の難読化
による防御
TRADES
[Zhang et al.]
防御⼿法攻撃⼿法
蒸留による
防御
[Carlini et al.][He et al.]
※スペースの関係で含められていない
重要論⽂があることに注意して下さい.
※公開時期はarXivへの公開を優先して
プロットしています.

#17
Fast Gradient Sign Method (FGSM)
• 最も単純な摂動ベースの攻撃⼿法の1つ.
• 重みを固定し, Lossを増加させるように⼊⼒画像を1度更新する.
※通常の画像分類の学習では, 「⼊⼒画像を固定し, Lossを減少させるように重みを更新」している.
𝜹 = 𝜀*
⋅ sign(∇2 𝐿(3𝑘5(𝒙), 𝑡))
𝜹 ' ≤ 𝜀
𝜹 ∶ 敵対的摂動
𝒙 ∶ ⼊⼒画像
𝑡 ∶ 教師ラベル
𝜃 ∶ パラメータ
3𝑘 ⋅ ∶ 分類器
𝐿 ⋅ ∶ Loss関数 𝜀 ∶ 摂動の最⼤値
panda 57.7% gibbon 99.3%
𝜹𝒙 𝒙 + 𝜹
Goodfellow et al., “Explaining and Harnessing Adversarial Examples”, ICLR 2015.
[Goodfellow et al. 2015]
AEsの例として超有名な pandagibbon (FGSMの例)

#18
Projected Gradient Descent (PGD)
• 摂動ベースの攻撃⼿法で最も強⼒なものの1つ.
-> 防御⼿法の評価に⽤いられることが多い.
• FGSMと同様の更新を 𝑝-ノルム球の内部で反復的に⾏う.
※初期値を 𝑝-ノルム球の中でランダムに⾏う点がBIMと異なる.
※ステップ幅は 𝛼 = 𝜀 / √s とするのが良いらしい.
𝒙 ∶ ⼊⼒画像
𝐿 ⋅ ∶ Loss関数
𝜀 ∶ 摂動の最⼤値
𝛼 ∶ ステップ幅
𝑠 ∶ ステップ数
[Kurakin et al., 2016]
𝜹(BCD) = 𝑃F(𝜹 B + 𝛼 ⋅ sign(∇2 𝐿(3𝑘5(𝒙 + 𝜹 B ), 𝑡))
𝜹 ' ≤ 𝜀
𝑃F # ∶ 半径 𝜀 の球への射影
Madry et al., “Towards Deep Learning Models Resistant to Adversarial Attacks”, ICLR 2018.
[Madry et al., 2018]
[Kang et al., 2019]
FGSMと同じ計算
例) ResNet-50, ImageNet
Std. Acc: 75.8%
Rob. Acc: 0.78%
𝑙H-PGD
(𝜀 =0.005)

#19
Adversarial Training (AT)
• 最初期に提案された防御⼿法. (PGD+ATは現状で最も頑健な防御の1つ.)
• AEsを学習データに追加することでモデルを頑健にする.
-> AEsによって最⼤化されたLossを最⼩化するように重みを学習する.
min
5
3𝑅KLM(3𝑘5, 𝐷) = min
5
1
|𝐷|
Q
𝒙,R ∈T
max
𝜹∈W(𝒙)
𝐿(3𝑘5 𝒙 + 𝜹 , 𝑡)
敵対的摂動によるLossの最⼤化
重みの更新によるLossの最⼩化
𝐷 ∶ 学習データ
Δ ∶ 有効な摂動の集合
𝒙 ∶ ⼊⼒画像
例) ResNet-50(AT), ImageNet
Std. Acc: 71.5%
Rob. Acc: 81.3%
𝑙H-PGD
(𝜀 =0.005)

#20
• 最初期に提案された防御⼿法. (PGD+ATは現状で最も頑健な防御の1つ.)
• AEsを学習データに追加することでモデルを頑健にする.
-> AEsによって最⼤化されたLossを最⼩化するように重みを学習する.
min
5
3𝑅KLM(3𝑘5, 𝐷) = min
5
1
|𝐷|
Q
𝒙,R ∈T
max
𝜹∈W(𝒙)
𝐿(3𝑘5 𝒙 + 𝜹 , 𝑡)
敵対的摂動によるLossの最⼤化
重みの更新によるLossの最⼩化
𝐷 ∶ 学習データ
Δ ∶ 有効な摂動の集合
𝒙 ∶ ⼊⼒画像
例) ResNet-50(AT), ImageNet
Std. Acc: 71.5%
Rob. Acc: 81.3%
𝑙H-PGD
(𝜀 =0.005)
Adversarial Training しておけば問題解決では︖
-> 残念ながらそんなに簡単ではなかった...

#21
問題点
• 計算コストが⼤きい.
-> PGD(イテレーション数20~40)を⽤いると学習のコストも20~40倍に...
• 精度と頑健性のトレードオフ問題.
-> 頑健性が向上すると, 通常の精度が低下する︖ (詳細は後述.)
• 学習データに追加しなかったAEsにも頑健になっている︖
-> min max 最適化の内側のmaxがAEsの⽣成⼿法に依存してしまっている...
-> 様々な⼿法で⽣成したAEsを全て学習データに追加すれば⼤丈夫か︖(詳細は後述.)
[Su et al., 2018]

Introduction
#22
問題点
-> 頑健性が向上すると, 通常の精度が低下する. (詳細は後述.)
ここから怒涛の Arms Race (軍拡競争)になる...
https://www.ploughshares.org/issues-analysis/article/welcome-new-nuclear-arms-race

#24
Defensive Distillation vs C&Wʼs Attack
Defensive Distillation
• 蒸留を⽤いて滑らかな識別平⾯を学習する
ことでAEsに対して頑健なモデルを獲得.
• CIFAR-10でAEsによる攻撃の成功率を約
5％まで削減と主張.
[Papernot et al., 2016] C&Wʼs Attack
• AEsの⽣成に使⽤する⽬的関数を包括的に
調査し, 強⼒な新しい攻撃⼿法を提案.
-> Defensive Distillation を破った.
• Targetのラベル以外で最⼤のlogitとtarget
のラベルのlogitが⼀定値を超えるまで最適
化を⾏う.
※確率ではなくlogitの差をとるのは重要な違い.
蒸留を⽤いた防御の流れ
Papernot et al., “Distillation as a Defense to Adversarial Perturbations against Deep Neural Networks”, S&P 2016.
Carlini et al., “Towards Evaluating the Robustness of Neural Networks”, S&P 2017.

#26
Detection based Defense vs C&Wʼs Attack
Detection based Defense
• 分類器による検出.
• PCAによる検出.
• 分布の⽐較による検出.
• 正則化よる検出.
C&W + Attacker Loss
• 各検出⼿法に特化したlossを提案し, C&Wʼs
attackと組み合わせた.
-> 10種類の検出⼿法を破った.
• 防御⼿法を考える際は, 提案する防御⼿法に
特化した攻撃も想定する必要があることを
指摘.
Carlini et al., “Adversarial Examples Are Not Easily Detected: Bypassing Ten Detection Methods”, ACM Workshop on Artificial Intelligence and Security 2017.

#28
9 SoTA Def. ICLR 2018 vs Obfuscated Gradients
9 SoTA Def. in ICLR 2018
・ATベース.
・微分不可能操作で勾配を計算不可にする.
・勾配を確率的にする.（⼊⼒を確率的に変換.）
・勾配を消失・発散させる.
Obfuscated Gradients
• 勾配の難読化⼿法を３種類に分類し, それぞ
れに対して攻撃⼿法を提案.
• ICLR2018に投稿されていた９つの防御⼿法
に適⽤.
-> 7つが破られる. (ICLR2018採択から3⽇後.)
• ATベースの2つの⼿法は破られなかった.
[Athalye et al., 2018]
Athalye et al., “Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples”, ICML 2018.
[Madry et al., 2018] [Na et al., 2018]
[Buckman et al., 2018] [Guo et al., 2018]
[Ma et al., 2018]
[Dhillon et al., 2018] [Xie et al., 2018]
[Song et al., 2018] [Samangouei et al., 2018]

Introduction
#30
Probable Robustness
• 終わりが⾒えないArms Raceから抜けだしたい...
-> 確実に頑健なモデルを構成するにはどうしたら良い︖
• ⼊⼒ごとにAEsによって出⼒が変化し得る領域を全て求めて, その領域全てで
正しく分類出来れば良い.
※ただし, 攻撃は 𝐿'-ノルムで制約された摂動を仮定.
• 計算コストの問題
-> Convex outer bound を取って近似.
[Wong et al., ICML 2018]
Wong et al., “Provable defenses against adversarial examples via the convex outer adversarial polytope”, ICML 2018.

Introduction
#31
Probable Robustness
• 終わりが⾒えないArms Raceから抜けだしたい...
-> 確実に頑健なモデルを構成するにはどうしたら良い︖
• ⼊⼒ごとにAEsによって出⼒が変化し得る領域を全て求めて, その領域全てで
正しく分類出来れば良い.
※ただし, 攻撃は 𝐿'-ノルムで制約された摂動を仮定.
• 計算コストの問題
-> Convex outer bound を取って近似.
[Wong et al., ICML 2018]
Wong et al., “Provable defenses against adversarial examples via the convex outer adversarial polytope”, ICML 2018.
しかし, ⼤きなモデルやデータセットへのスケールは難しい
-> 結局ATが有望そう...（でも問題があった.）

#32
問題点
[Su et al., 2018]

#33
問題点
[Su et al., 2018]
この3つを解決出来ればATで良さそう.

#34
問題点
[Su et al., 2018]

• 勾配情報を再利⽤することで伝搬回数を削減してATを⾼速化.
-> ポントリャーギンの最⼤原理を⽤いて, AEsは１層⽬とカップリングしていることを⽰して正当化.
• MNISTとCIFAR-10をResNetで学習し, 4~5倍⾼速に同程度の結果を得た.
#36
ATの⾼速化 (YOPO / Free AT) [Shafahi et al., 2019] [Zhang et al., 2019]
Shafahi et al., “You Only Propagate Once: Accelerating Adversarial Training via Maximal Principle”, NurIPS 2019.
Wide ResNet34, CIFAR-10 の結果

#37
問題点
[Su et al., 2018]

#38
問題点
[Su et al., 2018]
残りの問題点は︖
-> 次の章でまた出てきます.

#39
この章のまとめ
• 攻撃⼿法と防御⼿法は今だに“Arms Race”を続けている.
• ⼀時は有効と思われた, 蒸留や勾配の難読化による防御は破られてしまった.
-> 防御⼿法を考える際は, 提案する防御⼿法に特化した攻撃も想定する必要がある.
• 現状ではATとその派⽣⼿法が有望そう.
-> しかし, 問題点もある.
• Probable / Certified Defenseは強⼒だが, 現状ではスケールが難しい.

原因・性質分析編
#40

#41
この章で話す内容
• 現在AEsの原因として有⼒な説である「特徴量原因説」について.
• 前章で取り上げたATによって⽣じる「精度と頑健性のトレードオフ問題」の
原因について.
• AEsに脆弱なモデルと頑健なモデルが“⾒ているもの“について.

#42
そもそもAEsに対する脆弱性は何故⽣じるのか︖
• モデルの⾮線形性︖
• モデルの線型性︖
• 学習データ数の不⾜︖
• モデルの⾼次元性︖
• 学習データの分布の複雑性︖
• TrainとTestの分布の差︖
• 精度と頑健性の両⽴は無理︖
• 獲得している特徴量が原因︖
[Szegedy et al., 2014]
[Schmidt et al. 2018]
[Gilmer et al. 2018]
[Su et al. 2018]
[Shafahi et al. 2019]
[Tsipras et al. 2019]
[Ilyas et al. 2019]
[Zhang et al. 2019]

#43
そもそもAEsに対する脆弱性は何故⽣じるのか︖
• モデルの⾮線形性︖
• モデルの線型性︖
• 学習データ数の不⾜︖
• モデルの⾼次元性︖
• 学習データの分布の複雑性︖
• TrainとTestの分布の差︖
• 精度と頑健性の両⽴は無理︖
• 獲得している特徴量が原因︖
[Szegedy et al., 2014]
[Schmidt et al. 2018]
[Gilmer et al. 2018]
[Su et al. 2018]
[Shafahi et al. 2019]
[Tsipras et al. 2019]
[Ilyas et al. 2019]
[Zhang et al. 2019]

#44
特徴量原因説
• モデルが獲得している特徴量の性質が脆弱性の原因とする説を提唱.
-> 脆弱性はデータセット中に含まれる「分類に有効かつ脆弱」な特徴量を学習した結果.
特定のデータセットを⽤いて画像分類問題を教師あり学習する場合,
①「分類に有効」かつ「摂動に頑健」な特徴量 (robust feature)
②「分類に有効」かつ「摂動に脆弱」な特徴量 (non-robust feature)
の両⽅を学習した結果として脆弱になると説明.
-> 通常の学習では精度を最⼤化出来れば良く,
①を優先して獲得する動機は無い.
• ①や②のような特徴量の存在を実験から確認.
有効頑健
特徴量
[Ilyas et al., 2019]
Ilyas et al., “Adversarial Examples Are Not Bugs, They Are Features”, NeurIPS 2019.
論⽂中で仮定されている特徴量の分類

実験︓「分類に有効」かつ「摂動に脆弱」な特徴量の存在の確認
• Non-robust な特徴量のみを学習出来るデータセットを作成し, ResNet-50を学習.
-> 通常のデータセットで中程度の精度達成. (CIFAR-10で80%以上の Top1 Acc.)
Robust: Pig
Non-Robust: Pig
通常のデータセット
Pig
Robust: Pig
Non-Robust: Cat
Non-robust データセット
PGDでCat
Classへ
Pig
特徴量原因説 [Ilyas et al., 2019]
通常のデータセットでの精度(%)

実験︓「分類に有効」かつ「摂動に脆弱」な特徴量の存在の確認
• Non-robust な特徴量のみを学習出来るデータセットを作成し, ResNet-50を学習.
-> 通常のデータセットで中程度の精度達成. (CIFAR-10で80%以上の Top1 Acc.)
Robust: Pig
Non-Robust: Pig
通常のデータセット
Pig
Robust: Pig
Non-Robust: Cat
Non-robust データセット
PGDでCat
Classへ
Cat
特徴量原因説 [Ilyas et al., 2019]
通常のデータセットでの精度(%)

#49
Not Bugs, They Are Features
• AEsの転移性の⾼さについても⼀定の説明が可能.
-> 複数のモデルが, 同⼀の「有効かつ脆弱」な特徴量を学習してるため︖
• 脆弱な特徴量を獲得し易いモデルほど, 転移攻撃の成功率も⾼いことを確認.
-> 構造による制約で頑健な特徴量を優先的に獲得するように出来る可能性︖
• VGGは他のアーキテクチャとは性質が異なる︖
-> 他の論⽂でも⽰唆
-> Style Transfer との関係︖
Non-robust な特徴量の獲得のし易さ
転移攻撃の成功率
[Su et al., 2018]
[Nakano, 2019]
[Brendel et al., 2019]

#50
Not Bugs, They Are Features
• 「有効かつ脆弱」な特徴量は何処から⽣じる︖
-> データセットと我々が観測する実世界との不整合から.
データセットのバイアス問題を指摘背景のみで⾏動認識
[He et al., 2016]

攻撃・防御⼿法編 (再訪)
#51
問題点
-> 頑健性が向上すると, 通常の精度が低下する︖
[Su et al., 2018]

#52
問題点
->「有効かつ脆弱」な特徴量が使えなくなった結果.
[Tsipras et al., 2019]
[Su et al., 2018]

#53
問題点
[Su et al., 2018]
原因分かったのは良いが, 精度下がるのは嬉しくない...
-> 何か他に朗報はないのか︖そもそも,「頑健かつ有効」な特徴量ってどんな特徴量︖

#54
脆弱な(≈通常の学習をした)モデルが”⾒ているもの”
テクスチャへの依存局所的な特徴への依存[Geirhos et al., 2019] [Brendel et al., 2019]
• ImageNetで学習したCNNは形状より,
テクスチャ情報に⼤きく依存した意思
決定をしていることを確認.
• 需要野が⼩さく局所的な特徴しか⾒れない
ResNetの変異型 (BagNet) と元のResNetの
類似性の⾼さから局所特徴への依存を指摘.
Geirhos et al., “ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness”, ICLR 2019.
Brendel et al., “Approximating CNNs with Bag-of-local-Features models works surprisingly well on ImageNet”, ICLR 2019.
tabby cat
grey fox
Siamese cat
71.1%
17.3%
3.3%
63.9%
26.4%
9.6%
Indian elephant
indri
black swan
画像中でどの程度まで離れた矩形領域が特徴量に影響するか

#55
脆弱な(≈通常の学習をした)モデルが”⾒ている”もの
テクスチャへの依存局所的な特徴への依存[Geirhos et al., 2019] [Brendel et al., 2019]
• ImageNetで学習したCNNは形状より,
テクスチャ情報に⼤きく依存した意思
決定をしていることを確認.
• 需要野が⼩さく局所的な特徴しか⾒れない
ResNetの変異型 (BagNet) と元のResNetの
類似性の⾼さから局所特徴への依存を指摘.
Geirhos et al., “ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness”, ICLR 2019.
Brendel et al., “Approximating CNNs with Bag-of-local-Features models works surprisingly well on ImageNet”, ICLR 2019.
tabby cat
grey fox
Siamese cat
71.1%
17.3%
3.3%
63.9%
26.4%
9.6%
Indian elephant
indri
black swan
画像中でどの程度まで離れた矩形領域が特徴量に影響するか
⼈間とは異なる情報に基づいて意思決定をしている.
-> モデルの決定の解釈が⼈間には難しい...

頑健な(≈ATをした)モデルが”⾒ているもの”
形状を捉えやすい︖ ⼤域特徴を捉えやすい︖[Tsipras et al., 2019]
[Itazuri et al., 2019]
• 獲得される特徴量, sensitivity map の両⽅
でエッジのような形状と関係のある部位に
反応することを確認.
• 画像の⼤域構造を破壊することによる精度の低下
速度の⽐較から, より⼤きな構造を捉えていること
を確認.
Tsipras et al., “Robustness May Be at Odds with Accuracy”, ICLR 2019.
Brendel et al., “Interpreting Adversarially Trained Convolutional Neural Networks”, ICML 2019.
Itazuri et al., “What Do Adversarially Robust Models Look At?”, arXiv 2019.
⼊⼒画像
Sensitivity map の⽐較 (ResNet-101)
通常学習 AT
Activation maximization による特徴量の⽐較 (ResNet-50)
通常学習 AT
⼤域構造を破壊した画像の精度⽐較 (ResNet-18)

頑健な(≈ATをした)モデルが”⾒ている”もの
形状を捉えやすい︖ ⼤域特徴を捉えやすい︖[Tsipras et al., 2019]
• 獲得される特徴量, sensitivity map の両⽅
でエッジのような形状と関係のある部位に
反応することを確認.
• 画像の⼤域構造を破壊することによる精度の低下
速度の⽐較から, より⼤きな構造を捉えていること
を確認.
Tsipras et al., “Robustness May Be at Odds with Accuracy”, ICLR 2019.
Brendel et al., “Interpreting Adversarially Trained Convolutional Neural Networks”, ICML 2019.
Itazuri et al., “What Do Adversarially Robust Models Look At?”, arXiv 2019.
⼊⼒画像
Sensitivity map の⽐較 (ResNet-101)
通常学習 AT
Activation maximization による特徴量の⽐較 (ResNet-50)
通常学習 AT
⼤域構造を破壊した画像の精度⽐較 (ResNet-18)
ATすることでより human-aligned な特徴量が得られる
-> モデルの決定の解釈性も向上（︖）

#58
この章のまとめ
• 「特徴量原因説」が現状で最も有⼒なAEsの説明の１つ.
-> AEsの転移性についても⼀定の説明が可能.
• ATによる通常の精度と頑健性のトレードオフは, 「有効だが脆弱」な特徴量
が使えなくなった結果.
• ATによって human-aligned な特徴量を獲得可能.
-> モデルの解釈可能性が向上.

最新動向・今後の課題
#59

• 頑健な特徴量の画像⽣成タスク (⽣成, 超解像, etc.) における有⽤性を⽰した.
-> ATによって獲得される human-aligned な特徴量の他タスクへの応⽤可能性を⽰唆.
• ６つのタスクにおいて, ATされた分類器が獲得した同⼀の特徴量を使⽤.
-> 頑健な特徴量の汎⽤性の⾼さを⽰唆.
画像⽣成タスクへの応⽤ [Santurkar et al., 2019]
各タスクでの⽣成結果の例
画像⽣成タスクにおける評価 (Inception Score)
Santurkar et al., “Image Synthesis with a Single (Robust) Classifier”, arXiv 2019.
※ImageNetのISの値でまさかのBigGANを凌駕.

#61
Style Transfer への応⽤ [Nakano, 2019]
Nakano, “Adversarially Robust Neural Style Transfer”, Distill 2019.
• Style TransferがVGG以外のモデルで上⼿くいかない問題を, ATしたモデル
を使⽤することで回避に成功.
-> しかし, 根本的な原因の解明にはまだ⾄っていない.
通常のResNet-50 ATしたResNet-50Content 画像
Style 画像

#62
著作権保護への応⽤ [Zhu, 2018] [Li, 2019]
Zhu et al., “HiDDeN: Hiding Data With Deep Networks”, ECCV 2018.
Li et al., “How to Prove Your Model Belongs to You: A Blind-Watermark based Framework to Protect
Intellectual Property of DNN”, ACSAC 2019.
• Adversarial Perturbation をWatermarkやステガノグラフィとして応⽤し,
著作権情報の埋め込みや画像改変の検出を⾏う.
モデルへの著作情報の埋め込み画像への著作情報の埋め込み

[Su et al., 2018]
攻撃・防御⼿法編 (再々訪)
#63
問題点

• 学習データに追加しなかったAEsにも頑健になっている?
-> ATする際の 𝜺 の⼤きさによってはむしろより脆弱になってしまう場合もある...
• では, 様々な⼿法で⽣成したAEsを全て学習データに追加すれば⼤丈夫?
-> 2つの異なるAEsに対するATでさえ, overfitting してしまう...
• 幅広い種類・摂動幅の攻撃を評価した総合的な頑健性の評価指標を提案.
#64
UAR (Unforeseen Attack Robustness) [Kang et al., 2019]
Kang et al., “Testing Robustness Against Unforeseen Adversaries”, arXiv 2019.
𝑙HノルムでのATは摂動幅の⼤きさによっては 𝑙[ノルムAEsに対する脆弱性を⽣む. ATが他の攻撃⼿法に対する頑健性に与える影響

• 幅広い種類・摂動幅の攻撃に耐えられるモデルが AT で作れれば良い︖
-> 残念ながら現状の AT はモデルに過度の不変性を学習させてしまっている.
• 現状の AT では 𝐿'-ノルムで測って 𝜀 以下の摂動に対しては真のラベルは
不変であることを仮定している.
-> この仮定は摂動の⽅向によっては成り⽴たない.
#65
Tradeoffs between Invariance and Sensitivity AEs
[Tramèr et al., 2020]
Tramèr et al., “Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial Perturbations”, arXiv 2020.
中央と右の画像は𝐿[ノルムで同じ⼤きさの摂動を左の画像に加えている
中央の画像は真のラベルが変わっているが, 右の画像では変わっていない. ATの結果得られる過度に不変性な識別平⾯の例

• 幅広い種類・摂動幅の攻撃に耐えられるモデルが AT で作れれば良い︖
-> 残念ながら現状の AT はモデルに過度の不変性を学習させてしまっている.
• 現状の AT では 𝐿'-ノルムで測って 𝜀 以下の摂動に対しては真のラベルは
不変であることを仮定している.
-> この仮定は摂動の⽅向によっては成り⽴たない.
#66
Tradeoffs between Invariance and Sensitivity AEs
[Tramèr et al., 2020]
Tramèr et al., “Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial Perturbations”, arXiv 2020.
中央と右の画像は𝐿[ノルムで同じ⼤きさの摂動を左の画像に加えている
中央の画像は真のラベルが変わっているが, 右の画像では変わっていない ATの結果得られる過度に不変性な識別平⾯の例
現状のATの限界を⽰唆.
-> ATの改良 or 代替となる防御の研究が必要そう.

現状の多くの防御⼿法は問題の単純化の為に仮定をおいていて実⽤との間に
乖離がある. 特に, 以下の2つ仮定は今後取り除かれていくと考えられる.
摂動の上限値の仮定
• 敵対者が 𝐿'-ノルムで 𝜀 以下の摂動しか加えないことを仮定している.
-> 実際は, 任意の画像を⼊⼒出来る場合が多い.
⼊⼒のソースとして I.I.D.を仮定
• ⼊⼒として I.I.D.からサンプルされたデータ(に敵対者が摂動を加えたもの)
を仮定している.
-> 実際は, 誤認識を起こせるAEsが１つあればそれを繰り返し⼊⼒される可能性がある.
#67
今後の課題 (より現実的な設定へ)
[Kang et al., 2019]
[Goodfellow et al., 2019]

• 攻撃⼿法と防御⼿法のArms Raceは現在も続いている.
-> 現状では, ATやProbable Defenseなどが有効な防御⼿法
-> 今後はより現実的な設定での防御も考えている必要がある.
※実⽤に耐え得るレベルでの頑健性の達成にはまだ研究が必要.
• 「特徴量原因説」は現状で最有⼒な説明の１つ.
-> 転移性の⾼さや, ATの精度と頑健性のトレードオフなどを説明可能.
• AEsの原因や性質に関する研究が進んだことにより, 画像⽣成などの他タスク
への応⽤研究が⾏われてきている.
#68
まとめ

メタサーベイ
#69

メタサーベイ
#70
各研究機関の体制や注⽬研究者を分析
研究体制⽐較
• Madry Lab @MIT
• Google Research
• EPFL
注⽬研究者
• Nicholas Carlini ⽒他6名
その他の気づき

• ブログへの投稿
• チュートリアルの開催
• 4〜5⼈の学⽣で⼀気に
実験と論⽂執筆を⾏う
• コンペの主催
• リーダーボードの管理
メタサーベイ
#71
研究体制⽐較(1/3) Madry Lab @MIT
• ロバスト最適化によるATの定式化や特徴量原因説の提唱など分野への貢献が⼤きいラボ.
• チーム単位で戦略を⽴てて効果的に研究をしていると思われる.
->下図のようなサイクルを上⼿く回している.
情報収拾・テーマ模索研究・論⽂執筆広報・宣伝活動

メタサーベイ
#72
積極的にコミュニティへ貢献
• mnist challenge や cifar10 challenge などのコンペをラボで主催.
• リーダーボード（Robust ML）の運営も⾏っている.
-> 発展の早い分野で最新の情報を取得しやすい.
リーダーボード（Robust ML）

メタサーベイ
#73
研究の速度が速い
• 研究テーマを絞った上でラボメンバーを総動員して研究・論⽂執筆している模様.
• 基本的にPh.Dの学⽣3~4名程度が equal contribution で論⽂を執筆.
-> Googleなどの⼤企業にも負けない研究の速度を維持するための⼯夫と思われる.
-> ⼀⽅で最初のテーマの選定の際のリスクが⼤きい.
（筋の良いテーマの設定にコンペの主催やリーダーボードの運営により得た情報が効いている︖）
４名が equal contribution 5名が equal contribution（アルファベット順に並べたと記載）

メタサーベイ
#74
積極的な外部への情報発信
• ラボのブログ（gradient science）で論⽂の解説記事を投稿.
• 国際会議で⼊⾨者向けのチュートリアルなども主催.
-> ⼈材や共同研究の機会の確保に繋がっていると思われる.
(実際に Google Brain のメンバーと共著の論⽂なども発表している.)
ブログへの質問には著者⾃⾝が即対応ラボのブログと NIPS2018 でのチュートリアル

メタサーベイ
#75
研究体制⽐較(2/3) Google Research
• 激強研究者集団の Brain Team を有する.
• Nicholas Carlini を始めとする多くの激強研究者および多数の優秀な学⽣をインターンとし
て抱え, 豊富な計算リソースを与えることで多数の論⽂を Top 会議に通している.
• AEs 分野で最もスター数の多いライブラリである cleverhans を開発.
2019 年は Brain Team だけでトップ会議に約 100 本論⽂を通している.
https://research.google/pubs/?team=brain&year=2019
Workshopなども⼊れると121本
TensorFlow による AEs ライブラリの cleverhans

メタサーベイ
#76
激強研究者が多数在籍
- Nicholas Carlini
• 防御⼿法の撃墜王.
• AEs に関係する論⽂のリストを公開.
• C&W Attack, Obfuscated Gradients 等.
- Justin Gilmer
• ⾼次元原因説の提唱者.
• Adversarial Spheres, Adversarial Patch 等.
- Ian J. Goodfellow (現 Apple)
• DNN における AEs の問題を指摘した張本⼈.
• AEs の今後の研究の⽅向性（Agenda）を公開.
• FGSM, Adversarial Training 等.
- Nicolas Papernot (現トロント⼤学)
• 蒸留による防御を提案.
• Defensive Distillation 等.

メタサーベイ
#77
インターン⽣も強⼒な戦⼒
• Google AI Residency Program (給料付きのインターンプログラム) によって世界中の
有名研究室の学⽣や有名企業の社員を集めている. （噂では倍率が1,000倍なんて年も...）
• 2019年は Residency Program の成果だけで, ICLR 7本, CVPR 2本, ICML 3本らしい.
• インターン制度⾃体は FAIR (Facebook AI Research) などにもあるが, Residency
Program は1年間に渡る⻑期インターンなので腰を据えて研究が出来る︖
-> 更にオプションとして18ヶ⽉延⻑も可能.
Google AI Residency Program について
https://research.google/careers/ai-residency/
Residency Program の成果
https://research.google/pubs/?collection=ai-residency

メタサーベイ
#78
研究体制⽐較(3/3) EPFL
• ETH と並ぶスイスの名⾨⼯科⼤学.
• Pascal Frossard 教授の LST4 ラボを筆頭に強い研究者が多数在籍.
• 理論と実験のバランスを上⼿くとることで, ⼤企業の圧倒的リソースに負け
ないように研究を⾏なっている︖
• MIT の Mady 教授や Standord の Florian Tramer ⽒も過去に在籍していた.

メタサーベイ
#79
注⽬研究者 (1/7)
Nicholas Carlini ⽒ (Google)
• 防御⼿法の撃墜王. (Defensive Distillation, AEsの検出⼿法, Obfuscated Gradients ベース
の防御⼿法を破る.)
• 複数の先⾏研究を追実装して, 豊富な計算リソースを使った⼤規模実験で徹底的に叩く.
• AEs 関係の全ての論⽂リストを公開している.
Nicholas ⽒の公開している AEs 関係の完全論⽂リスト

メタサーベイ
#80
注⽬研究者 (2/7)
Aleksander Madry ⽒ (MIT)
• ロバスト最適化によるATの定式化や特徴量原因説などを提案.
• 論⽂以外にもコンペの運営やラボのブログを通した宣伝活動など, 幅広い活動を⾏っている.
• ラボメンバーを総動員した研究で Google などの⼤企業に劣らない研究速度を維持.
研究室の運営しているブログ

メタサーベイ
#81
注⽬研究者 (3/7)
Ian J. Goodfellow ⽒ (Apple)
• DNN における AEs の問題を指摘した張本⼈. FGSM や Adversarial Training を提案.
• 今後の⽅向性として⼊⼒の I.I.D. 仮定を破った攻撃に対する動的なモデルを上げている.
• Apple 移籍後はあまり論⽂を発表していない.
Goodfellow ⽒が今後の研究の⽅向性をまとめた論⽂

メタサーベイ
#82
注⽬研究者 (4/7)
Seyed-Mohsen Moosavi-Dezfooli ⽒ (ETH)
• DeepFool や Universal perturbations などを提案.
• 決定境界の幾何学的な情報と AEs の関係性を明らかにした.
• 過去の⾃分の研究を次の研究へと発展させる⽅法が上⼿い.
通常のデータ（上段）と AEs (下段) では近傍の決定境界の曲率の特性が異なる例

メタサーベイ
#83
注⽬研究者 (5/7)
Cho-Jui Hsieh ⽒ (UCLA)
• Zoo や Rob-GANなどを提案.
• Black-box attack や Certified robustness など多⽅向から研究を⾏なっている.
• 論⽂の発表のペースが⾮常に早い. (2019年は24本の論⽂を発表している.)
Rob-GANによる⽣成画像 (左) と通常のAC-GANによる⽣成画像（右）の⽐較

メタサーベイ
#84
注⽬研究者 (6/7)
Justin Gilmer ⽒ (Google)
• Adversarial Patch や⾼次元原因説などを提案.
• 近年はフーリエ変換を⽤いて周波数空間における頑健性の分析を⾏なっている.
• 前述の Google Residency Program の卒業⽣.
周波数を制限した場合の精度の変化

メタサーベイ
#85
注⽬研究者 (7/7)
Florian Tramer ⽒ (Stanford Univ.)
• Ensemble Adversarial Training や物体検出器に対する AEs を提案.
• 広告ブロックシステムを, AEs で攻撃する⼿法の AdVersarial を発表するなど, AEs の問題
の応⽤範囲を広げることにも貢献している.
広告ブロックシステムに対する AEs の例 (右)

メタサーベイ
#86
エコシステムを作っているところが強い︖
• 強い研究グループは労⼒をかけてもコンペやベンチマークなどの運営・開
発を⾏なっている. （CIFAR10 challenge や RobustML, cleverhans 等）
• エコシステムを⾃ら作ることで, 最新情報や SoTA の⼿法のコードが⾃動
的に揃う環境を作っている.
-> リーダーボードやコンペ形式にすると⾃分達で追実装する必要も無いので効率的︖

メタサーベイ
#87
理論武装＋⼩規模実験の組み合わせが増えている
• Nicholas ⽒の Obfuscated Gradients の撃墜以降, 単にアイデアベースの
⼿法は容易に破られる可能性が⾼いため発表件数が減少傾向.
• 特定の条件下で理論に保証を与えて, 実験は⼩規模で⾏うという論⽂が増
えている. (Probable Robustness 系の研究など.)
-> Nicholas ⽒による撃墜回避+計算コスト削減のための戦略︖

メタサーベイ
#88
応⽤研究や他分野への適⽤の増加
• 従来では応⽤先の実例は⾃動運転の安全性の問題など限られていた.
-> 著作情報の保護のための使⽤⽅や広告ブロックシステムへの攻撃など, 新しい応⽤先を
考える研究が増えている.
• ⾃然⾔語処理や⾳声処理, 強化学習などの分野への適⽤が増加している.
-> Vision 分野の AEs の問題は単純な研究はやり尽くされた︖
-> ⾃然⾔語処理の分野では AT によって精度が向上するなど, 興味深い相違点が存在.

有⽤な資料
#89

有⽤な資料
#90
web page, blog, slide 等
Adversarial Robustness - Theory and Practice https://adversarial-ml-tutorial.org/
• NeurIPS 2018 のチュートリアル. Python のコードも埋め込まれていて, ⾮常に分かりやすいです.
• 初めてAEsを勉強する⽅は最初に１読しておくことをお勧めします.
gradient science https://gradientscience.org/
• MIT の Madry Lab の blog. 論⽂内容を読みやすいよう噛み砕いてくれています.
• 質問すると著者がすぐに返信をくれます.
Robust ML https://www.robust-ml.org/
• SoTA の防御⼿法の leader board. 現状で有効な防御⼿法を⼀覧出来ます.
Adversarial Machine Learning Reading List https://nicholas.carlini.com/writing/2018/adversarial-machine-learning-reading-list.html
• 撃墜王 Nicholas Carlini ⽒が公開している最初に読むべき論⽂リスト.
• Basics から Complete Background までの3パターンが公開されている.

有⽤な資料
#91
web page, blog, slide 等
A Complete List of All Adversarial Example Papers https://nicholas.carlini.com/writing/2019/all-adversarial-example-papers.html
• 撃墜王 Nicholas Carlini ⽒が公開している AEs 関連の論⽂リスト.
• 2013年の最初の論⽂から arXiv に上がっているの AEs 関連の論⽂を全てリストアップしている.
Ian Goodfellow ⽒の Talk のスライド https://www.iangoodfellow.com/slides/
• AEs 分野の背景から, 現在の問題, 今後の⽅向性までをまとめている.
• 今後の研究の⽅向性が書かれている “A Research Agenda: Dynamic Models to Defend Against Correlated
Attacks” も⼀読の価値あり. https://arxiv.org/abs/1903.06293
cleverhans-blog http://www.cleverhans.io/
• Goodfellow ⽒と Papernot ⽒のブログ.
LocusLab blog https://locuslab.github.io/
• CMU の Zico Kolter 教授の研究室のブログ.

有⽤な資料
#92
code, github repo 等
adversarial-robustness-toolbox
• AEs関連の⼿法の実装（TensorFlow, PyTorch, Keras etc.）が揃っている. Star数: 約1000.
• READMEの実装⼿法⼀覧は⼿法のサーベイとしても有⽤.
cleverhans
• AEs関連の⼿法の実装（TensorFlowがメインでPyTorchはcoming soon.）が揃っている. Star数: 4000以上.
foolbox
• AEs関連の⼿法の実装（TensorFlow, PyTorch, Keras etc.）が揃っている. Star数: 約1100.
advertorch
• AEs関連の⼿法の実装（PyTorch）. Star数: 約500.

#93
著者紹介
福原吉博 (Yoshihiro Fukuhara)
• Twitter︓ @gatheluck
• 所属︓早⼤博⼠課程 2年
o 森島研究室
o リーディング⼤学院
o cvpaper.challenge (HQ)
o SE4 Inc. (インターン)
o 産総研 (インターン)
• 研究
o Adversarial Examples の性質の分析
o Unsupervised Multi-class 3D Shape Estimation

#94
著者紹介
⾕村朋樹 (Tomoki Tanimura)
• Twitter︓ @tanimutomo
• 所属︓慶⼤学⼠ 4年
o 中澤研究室
o cvpaper.challenge
o bitkey (インターン)
• 研究
o Adversarial Examples の性質の分析
o 画像再構成を⽤いた画像の匿名化

Adversarial Examples 分野の動向（メタサーベイ追加版）

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Adversarial Examples 分野の動向（メタサーベイ追加版）