攻撃・防御⼿法編
#14
この章で話す内容
• “Arms Race (軍拡競争)”と表現される, これまで提案されてきた攻撃・防御
⼿法の⼤まかな流れ.
• 基本的 (かつ今も使⽤されている) 攻撃・防御⼿法.
o 攻撃︓Projected Gradient Descent (PGD)
o 防御︓Adversarial Training (AT)
※上記以外は概要しか説明しません.
攻撃・防御⼿法編(History of Arms Race)
2019
2014
2018
2015
DeepFool
[Dezfooli et al.]
2016
2017
JSMA
[Papernot et al.]
FGSM
[Goodfellow et al.]
C&Wʼs At.
[Carlini et al.]
BIM
[Kurakin et al.]
L-BFGS
[Szegedy et al.]
蒸留
敗北
勾配の難読化
敗北
AT
[Goodfellow et al.]
Defensive Distillation
[Papernot et al.]
Universal Perturbation
[Dezfooli et al.]
SparseFool
[Modas et al.]
YOPO
[Zhang et al.]
Free AT
[Shafahi et al.]
AT by PGD
[Madry et al.]
Obfuscated Gradients
[Athalye et al.]
Virtual AT
[Miyato et al.]
AEsの
存在が指摘
Certified Def.
[Raghunathan et al.]
Probable Rob.
[Wong et al.]
3D AEs
[Athalye et al.]
Joint AT
[Tramer et al.]
Logit Pairing
[Kannan et al.]
mixup
[Zhang et al.]
GCE Loss
[Chen et al.]
COT
[Chen et al.]
Elastic
[Xiao et al.]
Fog,Snow,Gabor
[Kang et al.]
Cascade AT
[Na et al.]
Defense-GAN
[Samangouei et al.]
SAP
[Dhillon et al.]
PGD
[Madry et al.]
CURE
[Dezfooli et al.]
Feature Denoising
[Xie et al.]
PixelDefend
[Song et al.]
Randomization
[Xie et al.]
Transformation
[Guo et al.]
LID
[Ma et al.]
Distributional Rob.
[Sinha et al.]
Reluplex
[Katz et al.]
One Pixel At.
[Su et al.]
ManiFool
[Kanbak et al.]
Unrestricted AEs
[Song et al.]
AT-GAN
[Wang et al.]
Natural AEs (GAN)
[Zhao et al.]
PATE
[Papernot et al.]
検出
困難
弱い防御の
複合も弱い
Label Smoothing
[Warde-Farley et al.]
Arms Race
開始
Statistical
Det.
[Li et al.]
Adv. Retraining
[Grosse et al.] [Gong et al.]
Input PCA
[Hendrycks et al.]
Dim. Reduction
[Bhagoji et al.]
Dropout
[Feinman et al.]
Topological Det.
[Corneanu et al.]
検出による
防御 勾配の難読化
による防御
TRADES
[Zhang et al.]
防御⼿法攻撃⼿法
蒸留による
防御
[Carlini et al.][He et al.]
※スペースの関係で含められていない
重要論⽂があることに注意して下さい.
※公開時期はarXivへの公開を優先して
プロットしています.
攻撃・防御⼿法編(History of Arms Race)
2019
2014
2018
2015
DeepFool
[Dezfooli et al.]
2016
2017
JSMA
[Papernot et al.]
FGSM
[Goodfellow et al.]
C&Wʼs At.
[Carlini et al.]
BIM
[Kurakin et al.]
L-BFGS
[Szegedy et al.]
蒸留
敗北
勾配の難読化
敗北
AT
[Goodfellow et al.]
Defensive Distillation
[Papernot et al.]
Universal Perturbation
[Dezfooli et al.]
SparseFool
[Modas et al.]
YOPO
[Zhang et al.]
Free AT
[Shafahi et al.]
AT by PGD
[Madry et al.]
Obfuscated Gradients
[Athalye et al.]
Virtual AT
[Miyato et al.]
AEsの
存在が指摘
Certified Def.
[Raghunathan et al.]
Probable Rob.
[Wong et al.]
3D AEs
[Athalye et al.]
Joint AT
[Tramer et al.]
Logit Pairing
[Kannan et al.]
mixup
[Zhang et al.]
GCE Loss
[Chen et al.]
COT
[Chen et al.]
Elastic
[Xiao et al.]
Fog,Snow,Gabor
[Kang et al.]
Cascade AT
[Na et al.]
Defense-GAN
[Samangouei et al.]
SAP
[Dhillon et al.]
PGD
[Madry et al.]
CURE
[Dezfooli et al.]
Feature Denoising
[Xie et al.]
PixelDefend
[Song et al.]
Randomization
[Xie et al.]
Transformation
[Guo et al.]
LID
[Ma et al.]
Distributional Rob.
[Sinha et al.]
Reluplex
[Katz et al.]
One Pixel At.
[Su et al.]
ManiFool
[Kanbak et al.]
Unrestricted AEs
[Song et al.]
AT-GAN
[Wang et al.]
Natural AEs (GAN)
[Zhao et al.]
PATE
[Papernot et al.]
検出
困難
弱い防御の
複合も弱い
Label Smoothing
[Warde-Farley et al.]
Arms Race
開始
Statistical
Det.
[Li et al.]
Adv. Retraining
[Grosse et al.] [Gong et al.]
Input PCA
[Hendrycks et al.]
Dim. Reduction
[Bhagoji et al.]
Dropout
[Feinman et al.]
Topological Det.
[Corneanu et al.]
検出による
防御 勾配の難読化
による防御
TRADES
[Zhang et al.]
防御⼿法攻撃⼿法
蒸留による
防御
[Carlini et al.][He et al.]
※スペースの関係で含められていない
重要論⽂があることに注意して下さい.
※公開時期はarXivへの公開を優先して
プロットしています.
攻撃・防御⼿法編
#20
Adversarial Training (AT)
• 最初期に提案された防御⼿法. (PGD+ATは現状で最も頑健な防御の1つ.)
• AEsを学習データに追加することでモデルを頑健にする.
-> AEsによって最⼤化されたLossを最⼩化するように重みを学習する.
min
5
3𝑅KLM(3𝑘5, 𝐷) = min
5
1
|𝐷|
Q
𝒙,R ∈T
max
𝜹∈W(𝒙)
𝐿(3𝑘5 𝒙 + 𝜹 , 𝑡)
敵対的摂動によるLossの最⼤化
重みの更新によるLossの最⼩化
𝐷 ∶ 学習データ
Δ ∶ 有効な摂動の集合
[Goodfellow et al., 2015] [Madry et al., 2018]
𝜹 ∶ 敵対的摂動
𝒙 ∶ ⼊⼒画像
𝑡 ∶ 教師ラベル
𝜃 ∶ パラメータ
3𝑘 ⋅ ∶ 分類器
𝐿 ⋅ ∶ Loss関数
Madry et al., “Towards Deep Learning Models Resistant to Adversarial Attacks”, ICLR 2018.
例) ResNet-50(AT), ImageNet
Std. Acc: 71.5%
Rob. Acc: 81.3%
𝑙H-PGD
(𝜀 =0.005)
Adversarial Training しておけば問題解決では︖
-> 残念ながらそんなに簡単ではなかった...
攻撃・防御⼿法編
#21
Adversarial Training (AT)
問題点
• 計算コストが⼤きい.
-> PGD(イテレーション数20~40)を⽤いると学習のコストも20~40倍に...
• 精度と頑健性のトレードオフ問題.
-> 頑健性が向上すると, 通常の精度が低下する︖ (詳細は後述.)
• 学習データに追加しなかったAEsにも頑健になっている︖
-> min max 最適化の内側のmaxがAEsの⽣成⼿法に依存してしまっている...
-> 様々な⼿法で⽣成したAEsを全て学習データに追加すれば⼤丈夫か︖(詳細は後述.)
[Goodfellow et al., 2015] [Madry et al., 2018]
[Su et al., 2018]
Introduction
#22
Adversarial Training (AT)
問題点
• 計算コストが⼤きい.
-> PGD(イテレーション数20~40)を⽤いると学習のコストも20~40倍に...
• 精度と頑健性のトレードオフ問題.
-> 頑健性が向上すると, 通常の精度が低下する. (詳細は後述.)
• 学習データに追加しなかったAEsにも頑健になっている︖
-> min max 最適化の内側のmaxがAEsの⽣成⼿法に依存してしまっている...
-> 様々な⼿法で⽣成したAEsを全て学習データに追加すれば⼤丈夫か︖(詳細は後述.)
[Goodfellow et al., 2015] [Madry et al., 2018]
ここから怒涛の Arms Race (軍拡競争)になる...
https://www.ploughshares.org/issues-analysis/article/welcome-new-nuclear-arms-race
攻撃・防御⼿法編(History of Arms Race)
2019
2014
2018
2015
DeepFool
[Dezfooli et al.]
2016
2017
JSMA
[Papernot et al.]
FGSM
[Goodfellow et al.]
C&Wʼs At.
[Carlini et al.]
BIM
[Kurakin et al.]
L-BFGS
[Szegedy et al.]
蒸留
敗北
勾配の難読化
敗北
AT
[Goodfellow et al.]
Defensive Distillation
[Papernot et al.]
Universal Perturbation
[Dezfooli et al.]
SparseFool
[Modas et al.]
YOPO
[Zhang et al.]
Free AT
[Shafahi et al.]
AT by PGD
[Madry et al.]
Obfuscated Gradients
[Athalye et al.]
Virtual AT
[Miyato et al.]
AEsの
存在が指摘
Certified Def.
[Raghunathan et al.]
Probable Rob.
[Wong et al.]
3D AEs
[Athalye et al.]
Joint AT
[Tramer et al.]
Logit Pairing
[Kannan et al.]
mixup
[Zhang et al.]
GCE Loss
[Chen et al.]
COT
[Chen et al.]
Elastic
[Xiao et al.]
Fog,Snow,Gabor
[Kang et al.]
Cascade AT
[Na et al.]
Defense-GAN
[Samangouei et al.]
SAP
[Dhillon et al.]
PGD
[Madry et al.]
CURE
[Dezfooli et al.]
Feature Denoising
[Xie et al.]
PixelDefend
[Song et al.]
Randomization
[Xie et al.]
Transformation
[Guo et al.]
LID
[Ma et al.]
Distributional Rob.
[Sinha et al.]
Reluplex
[Katz et al.]
One Pixel At.
[Su et al.]
ManiFool
[Kanbak et al.]
Unrestricted AEs
[Song et al.]
AT-GAN
[Wang et al.]
Natural AEs (GAN)
[Zhao et al.]
PATE
[Papernot et al.]
検出
困難
弱い防御の
複合も弱い
Label Smoothing
[Warde-Farley et al.]
Arms Race
開始
Statistical
Det.
[Li et al.]
Adv. Retraining
[Grosse et al.] [Gong et al.]
Input PCA
[Hendrycks et al.]
Dim. Reduction
[Bhagoji et al.]
Dropout
[Feinman et al.]
Topological Det.
[Corneanu et al.]
検出による
防御 勾配の難読化
による防御
TRADES
[Zhang et al.]
防御⼿法攻撃⼿法
蒸留による
防御
[Carlini et al.][He et al.]
※スペースの関係で含められていない
重要論⽂があることに注意して下さい.
※公開時期はarXivへの公開を優先して
プロットしています.
#24
Defensive Distillation vs C&Wʼs Attack
攻撃・防御⼿法編
Defensive Distillation
• 蒸留を⽤いて滑らかな識別平⾯を学習する
ことでAEsに対して頑健なモデルを獲得.
• CIFAR-10でAEsによる攻撃の成功率を約
5%まで削減と主張.
[Papernot et al., 2016] C&Wʼs Attack
• AEsの⽣成に使⽤する⽬的関数を包括的に
調査し, 強⼒な新しい攻撃⼿法を提案.
-> Defensive Distillation を破った.
• Targetのラベル以外で最⼤のlogitとtarget
のラベルのlogitが⼀定値を超えるまで最適
化を⾏う.
※確率ではなくlogitの差をとるのは重要な違い.
[Carlini et al., 2017]
蒸留を⽤いた防御の流れ
Papernot et al., “Distillation as a Defense to Adversarial Perturbations against Deep Neural Networks”, S&P 2016.
Carlini et al., “Towards Evaluating the Robustness of Neural Networks”, S&P 2017.
攻撃・防御⼿法編(History of Arms Race)
2019
2014
2018
2015
DeepFool
[Dezfooli et al.]
2016
2017
JSMA
[Papernot et al.]
FGSM
[Goodfellow et al.]
C&Wʼs At.
[Carlini et al.]
BIM
[Kurakin et al.]
L-BFGS
[Szegedy et al.]
蒸留
敗北
勾配の難読化
敗北
AT
[Goodfellow et al.]
Defensive Distillation
[Papernot et al.]
Universal Perturbation
[Dezfooli et al.]
SparseFool
[Modas et al.]
YOPO
[Zhang et al.]
Free AT
[Shafahi et al.]
AT by PGD
[Madry et al.]
Obfuscated Gradients
[Athalye et al.]
Virtual AT
[Miyato et al.]
AEsの
存在が指摘
Certified Def.
[Raghunathan et al.]
Probable Rob.
[Wong et al.]
3D AEs
[Athalye et al.]
Joint AT
[Tramer et al.]
Logit Pairing
[Kannan et al.]
mixup
[Zhang et al.]
GCE Loss
[Chen et al.]
COT
[Chen et al.]
Elastic
[Xiao et al.]
Fog,Snow,Gabor
[Kang et al.]
Cascade AT
[Na et al.]
Defense-GAN
[Samangouei et al.]
SAP
[Dhillon et al.]
PGD
[Madry et al.]
CURE
[Dezfooli et al.]
Feature Denoising
[Xie et al.]
PixelDefend
[Song et al.]
Randomization
[Xie et al.]
Transformation
[Guo et al.]
LID
[Ma et al.]
Distributional Rob.
[Sinha et al.]
Reluplex
[Katz et al.]
One Pixel At.
[Su et al.]
ManiFool
[Kanbak et al.]
Unrestricted AEs
[Song et al.]
AT-GAN
[Wang et al.]
Natural AEs (GAN)
[Zhao et al.]
PATE
[Papernot et al.]
検出
困難
弱い防御の
複合も弱い
Label Smoothing
[Warde-Farley et al.]
Arms Race
開始
Statistical
Det.
[Li et al.]
Adv. Retraining
[Grosse et al.] [Gong et al.]
Input PCA
[Hendrycks et al.]
Dim. Reduction
[Bhagoji et al.]
Dropout
[Feinman et al.]
Topological Det.
[Corneanu et al.]
検出による
防御 勾配の難読化
による防御
TRADES
[Zhang et al.]
防御⼿法攻撃⼿法
蒸留による
防御
[Carlini et al.][He et al.]
※スペースの関係で含められていない
重要論⽂があることに注意して下さい.
※公開時期はarXivへの公開を優先して
プロットしています.
#26
Detection based Defense vs C&Wʼs Attack
攻撃・防御⼿法編
Detection based Defense
• 分類器による検出.
• PCAによる検出.
• 分布の⽐較による検出.
• 正則化よる検出.
C&W + Attacker Loss
• 各検出⼿法に特化したlossを提案し, C&Wʼs
attackと組み合わせた.
-> 10種類の検出⼿法を破った.
• 防御⼿法を考える際は, 提案する防御⼿法に
特化した攻撃も想定する必要があることを
指摘.
[Carlini et al., 2017]
Carlini et al., “Adversarial Examples Are Not Easily Detected: Bypassing Ten Detection Methods”, ACM Workshop on Artificial Intelligence and Security 2017.
攻撃・防御⼿法編(History of Arms Race)
2019
2014
2018
2015
DeepFool
[Dezfooli et al.]
2016
2017
JSMA
[Papernot et al.]
FGSM
[Goodfellow et al.]
C&Wʼs At.
[Carlini et al.]
BIM
[Kurakin et al.]
L-BFGS
[Szegedy et al.]
蒸留
敗北
勾配の難読化
敗北
AT
[Goodfellow et al.]
Defensive Distillation
[Papernot et al.]
Universal Perturbation
[Dezfooli et al.]
SparseFool
[Modas et al.]
YOPO
[Zhang et al.]
Free AT
[Shafahi et al.]
AT by PGD
[Madry et al.]
Obfuscated Gradients
[Athalye et al.]
Virtual AT
[Miyato et al.]
AEsの
存在が指摘
Certified Def.
[Raghunathan et al.]
Probable Rob.
[Wong et al.]
3D AEs
[Athalye et al.]
Joint AT
[Tramer et al.]
Logit Pairing
[Kannan et al.]
mixup
[Zhang et al.]
GCE Loss
[Chen et al.]
COT
[Chen et al.]
Elastic
[Xiao et al.]
Fog,Snow,Gabor
[Kang et al.]
Cascade AT
[Na et al.]
Defense-GAN
[Samangouei et al.]
SAP
[Dhillon et al.]
PGD
[Madry et al.]
CURE
[Dezfooli et al.]
Feature Denoising
[Xie et al.]
PixelDefend
[Song et al.]
Randomization
[Xie et al.]
Transformation
[Guo et al.]
LID
[Ma et al.]
Distributional Rob.
[Sinha et al.]
Reluplex
[Katz et al.]
One Pixel At.
[Su et al.]
ManiFool
[Kanbak et al.]
Unrestricted AEs
[Song et al.]
AT-GAN
[Wang et al.]
Natural AEs (GAN)
[Zhao et al.]
PATE
[Papernot et al.]
検出
困難
弱い防御の
複合も弱い
Label Smoothing
[Warde-Farley et al.]
Arms Race
開始
Statistical
Det.
[Li et al.]
Adv. Retraining
[Grosse et al.] [Gong et al.]
Input PCA
[Hendrycks et al.]
Dim. Reduction
[Bhagoji et al.]
Dropout
[Feinman et al.]
Topological Det.
[Corneanu et al.]
検出による
防御 勾配の難読化
による防御
TRADES
[Zhang et al.]
防御⼿法攻撃⼿法
蒸留による
防御
[Carlini et al.][He et al.]
※スペースの関係で含められていない
重要論⽂があることに注意して下さい.
※公開時期はarXivへの公開を優先して
プロットしています.
#28
9 SoTA Def. ICLR 2018 vs Obfuscated Gradients
攻撃・防御⼿法編
9 SoTA Def. in ICLR 2018
・ATベース.
・微分不可能操作で勾配を計算不可にする.
・勾配を確率的にする.(⼊⼒を確率的に変換.)
・勾配を消失・発散させる.
Obfuscated Gradients
• 勾配の難読化⼿法を3種類に分類し, それぞ
れに対して攻撃⼿法を提案.
• ICLR2018に投稿されていた9つの防御⼿法
に適⽤.
-> 7つが破られる. (ICLR2018採択から3⽇後.)
• ATベースの2つの⼿法は破られなかった.
[Athalye et al., 2018]
Athalye et al., “Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples”, ICML 2018.
[Madry et al., 2018] [Na et al., 2018]
[Buckman et al., 2018] [Guo et al., 2018]
[Ma et al., 2018]
[Dhillon et al., 2018] [Xie et al., 2018]
[Song et al., 2018] [Samangouei et al., 2018]
攻撃・防御⼿法編(History of Arms Race)
2019
2014
2018
2015
DeepFool
[Dezfooli et al.]
2016
2017
JSMA
[Papernot et al.]
FGSM
[Goodfellow et al.]
C&Wʼs At.
[Carlini et al.]
BIM
[Kurakin et al.]
L-BFGS
[Szegedy et al.]
蒸留
敗北
勾配の難読化
敗北
AT
[Goodfellow et al.]
Defensive Distillation
[Papernot et al.]
Universal Perturbation
[Dezfooli et al.]
SparseFool
[Modas et al.]
YOPO
[Zhang et al.]
Free AT
[Shafahi et al.]
AT by PGD
[Madry et al.]
Obfuscated Gradients
[Athalye et al.]
Virtual AT
[Miyato et al.]
AEsの
存在が指摘
Certified Def.
[Raghunathan et al.]
Probable Rob.
[Wong et al.]
3D AEs
[Athalye et al.]
Joint AT
[Tramer et al.]
Logit Pairing
[Kannan et al.]
mixup
[Zhang et al.]
GCE Loss
[Chen et al.]
COT
[Chen et al.]
Elastic
[Xiao et al.]
Fog,Snow,Gabor
[Kang et al.]
Cascade AT
[Na et al.]
Defense-GAN
[Samangouei et al.]
SAP
[Dhillon et al.]
PGD
[Madry et al.]
CURE
[Dezfooli et al.]
Feature Denoising
[Xie et al.]
PixelDefend
[Song et al.]
Randomization
[Xie et al.]
Transformation
[Guo et al.]
LID
[Ma et al.]
Distributional Rob.
[Sinha et al.]
Reluplex
[Katz et al.]
One Pixel At.
[Su et al.]
ManiFool
[Kanbak et al.]
Unrestricted AEs
[Song et al.]
AT-GAN
[Wang et al.]
Natural AEs (GAN)
[Zhao et al.]
PATE
[Papernot et al.]
検出
困難
弱い防御の
複合も弱い
Label Smoothing
[Warde-Farley et al.]
Arms Race
開始
Statistical
Det.
[Li et al.]
Adv. Retraining
[Grosse et al.] [Gong et al.]
Input PCA
[Hendrycks et al.]
Dim. Reduction
[Bhagoji et al.]
Dropout
[Feinman et al.]
Topological Det.
[Corneanu et al.]
検出による
防御 勾配の難読化
による防御
TRADES
[Zhang et al.]
防御⼿法攻撃⼿法
蒸留による
防御
[Carlini et al.][He et al.]
※スペースの関係で含められていない
重要論⽂があることに注意して下さい.
※公開時期はarXivへの公開を優先して
プロットしています.
Introduction
#30
Probable Robustness
• 終わりが⾒えないArms Raceから抜けだしたい...
-> 確実に頑健なモデルを構成するにはどうしたら良い︖
• ⼊⼒ごとにAEsによって出⼒が変化し得る領域を全て求めて, その領域全てで
正しく分類出来れば良い.
※ただし, 攻撃は 𝐿'-ノルムで制約された摂動を仮定.
• 計算コストの問題
-> Convex outer bound を取って近似.
[Wong et al., ICML 2018]
Wong et al., “Provable defenses against adversarial examples via the convex outer adversarial polytope”, ICML 2018.
Introduction
#31
Probable Robustness
• 終わりが⾒えないArms Raceから抜けだしたい...
-> 確実に頑健なモデルを構成するにはどうしたら良い︖
• ⼊⼒ごとにAEsによって出⼒が変化し得る領域を全て求めて, その領域全てで
正しく分類出来れば良い.
※ただし, 攻撃は 𝐿'-ノルムで制約された摂動を仮定.
• 計算コストの問題
-> Convex outer bound を取って近似.
[Wong et al., ICML 2018]
Wong et al., “Provable defenses against adversarial examples via the convex outer adversarial polytope”, ICML 2018.
しかし, ⼤きなモデルやデータセットへのスケールは難しい
-> 結局ATが有望そう...(でも問題があった.)
#32
Adversarial Training (AT)
問題点
• 計算コストが⼤きい.
-> PGD(イテレーション数20~40)を⽤いると学習のコストも20~40倍に...
• 精度と頑健性のトレードオフ問題.
-> 頑健性が向上すると, 通常の精度が低下する︖ (詳細は後述.)
• 学習データに追加しなかったAEsにも頑健になっている︖
-> min max 最適化の内側のmaxがAEsの⽣成⼿法に依存してしまっている...
-> 様々な⼿法で⽣成したAEsを全て学習データに追加すれば⼤丈夫か︖(詳細は後述.)
[Goodfellow et al., 2015] [Madry et al., 2018]
[Su et al., 2018]
攻撃・防御⼿法編
#33
Adversarial Training (AT)
問題点
• 計算コストが⼤きい.
-> PGD(イテレーション数20~40)を⽤いると学習のコストも20~40倍に...
• 精度と頑健性のトレードオフ問題.
-> 頑健性が向上すると, 通常の精度が低下する︖ (詳細は後述.)
• 学習データに追加しなかったAEsにも頑健になっている︖
-> min max 最適化の内側のmaxがAEsの⽣成⼿法に依存してしまっている...
-> 様々な⼿法で⽣成したAEsを全て学習データに追加すれば⼤丈夫か︖(詳細は後述.)
[Goodfellow et al., 2015] [Madry et al., 2018]
[Su et al., 2018]
攻撃・防御⼿法編
この3つを解決出来ればATで良さそう.
#34
Adversarial Training (AT)
問題点
• 計算コストが⼤きい.
-> PGD(イテレーション数20~40)を⽤いると学習のコストも20~40倍に...
• 精度と頑健性のトレードオフ問題.
-> 頑健性が向上すると, 通常の精度が低下する︖ (詳細は後述.)
• 学習データに追加しなかったAEsにも頑健になっている︖
-> min max 最適化の内側のmaxがAEsの⽣成⼿法に依存してしまっている...
-> 様々な⼿法で⽣成したAEsを全て学習データに追加すれば⼤丈夫か︖(詳細は後述.)
[Goodfellow et al., 2015] [Madry et al., 2018]
[Su et al., 2018]
攻撃・防御⼿法編
攻撃・防御⼿法編(History of Arms Race)
2019
2014
2018
2015
DeepFool
[Dezfooli et al.]
2016
2017
JSMA
[Papernot et al.]
FGSM
[Goodfellow et al.]
C&Wʼs At.
[Carlini et al.]
BIM
[Kurakin et al.]
L-BFGS
[Szegedy et al.]
蒸留
敗北
勾配の難読化
敗北
AT
[Goodfellow et al.]
Defensive Distillation
[Papernot et al.]
Universal Perturbation
[Dezfooli et al.]
SparseFool
[Modas et al.]
YOPO
[Zhang et al.]
Free AT
[Shafahi et al.]
AT by PGD
[Madry et al.]
Obfuscated Gradients
[Athalye et al.]
Virtual AT
[Miyato et al.]
AEsの
存在が指摘
Certified Def.
[Raghunathan et al.]
Probable Rob.
[Wong et al.]
3D AEs
[Athalye et al.]
Joint AT
[Tramer et al.]
Logit Pairing
[Kannan et al.]
mixup
[Zhang et al.]
GCE Loss
[Chen et al.]
COT
[Chen et al.]
Elastic
[Xiao et al.]
Fog,Snow,Gabor
[Kang et al.]
Cascade AT
[Na et al.]
Defense-GAN
[Samangouei et al.]
SAP
[Dhillon et al.]
PGD
[Madry et al.]
CURE
[Dezfooli et al.]
Feature Denoising
[Xie et al.]
PixelDefend
[Song et al.]
Randomization
[Xie et al.]
Transformation
[Guo et al.]
LID
[Ma et al.]
Distributional Rob.
[Sinha et al.]
Reluplex
[Katz et al.]
One Pixel At.
[Su et al.]
ManiFool
[Kanbak et al.]
Unrestricted AEs
[Song et al.]
AT-GAN
[Wang et al.]
Natural AEs (GAN)
[Zhao et al.]
PATE
[Papernot et al.]
検出
困難
弱い防御の
複合も弱い
Label Smoothing
[Warde-Farley et al.]
Arms Race
開始
Statistical
Det.
[Li et al.]
Adv. Retraining
[Grosse et al.] [Gong et al.]
Input PCA
[Hendrycks et al.]
Dim. Reduction
[Bhagoji et al.]
Dropout
[Feinman et al.]
Topological Det.
[Corneanu et al.]
検出による
防御 勾配の難読化
による防御
TRADES
[Zhang et al.]
防御⼿法攻撃⼿法
蒸留による
防御
[Carlini et al.][He et al.]
※スペースの関係で含められていない
重要論⽂があることに注意して下さい.
※公開時期はarXivへの公開を優先して
プロットしています.
• 勾配情報を再利⽤することで伝搬回数を削減してATを⾼速化.
-> ポントリャーギンの最⼤原理を⽤いて, AEsは1層⽬とカップリングしていることを⽰して正当化.
• MNISTとCIFAR-10をResNetで学習し, 4~5倍⾼速に同程度の結果を得た.
#36
ATの⾼速化 (YOPO / Free AT) [Shafahi et al., 2019] [Zhang et al., 2019]
Shafahi et al., “You Only Propagate Once: Accelerating Adversarial Training via Maximal Principle”, NurIPS 2019.
Wide ResNet34, CIFAR-10 の結果
攻撃・防御⼿法編
攻撃・防御⼿法編
#37
Adversarial Training (AT)
問題点
• 計算コストが⼤きい.
-> PGD(イテレーション数20~40)を⽤いると学習のコストも20~40倍に...
• 精度と頑健性のトレードオフ問題.
-> 頑健性が向上すると, 通常の精度が低下する︖ (詳細は後述.)
• 学習データに追加しなかったAEsにも頑健になっている︖
-> min max 最適化の内側のmaxがAEsの⽣成⼿法に依存してしまっている...
-> 様々な⼿法で⽣成したAEsを全て学習データに追加すれば⼤丈夫か︖(詳細は後述.)
[Goodfellow et al., 2015] [Madry et al., 2018]
[Su et al., 2018]
攻撃・防御⼿法編
#38
Adversarial Training (AT)
問題点
• 計算コストが⼤きい.
-> PGD(イテレーション数20~40)を⽤いると学習のコストも20~40倍に...
• 精度と頑健性のトレードオフ問題.
-> 頑健性が向上すると, 通常の精度が低下する︖ (詳細は後述.)
• 学習データに追加しなかったAEsにも頑健になっている︖
-> min max 最適化の内側のmaxがAEsの⽣成⼿法に依存してしまっている...
-> 様々な⼿法で⽣成したAEsを全て学習データに追加すれば⼤丈夫か︖(詳細は後述.)
[Goodfellow et al., 2015] [Madry et al., 2018]
[Su et al., 2018]
残りの問題点は︖
-> 次の章でまた出てきます.
原因・性質分析編
実験︓「分類に有効」かつ「摂動に脆弱」な特徴量の存在の確認
• Non-robust な特徴量のみを学習出来るデータセットを作成し, ResNet-50を学習.
-> 通常のデータセットで中程度の精度達成. (CIFAR-10で80%以上の Top1 Acc.)
Ilyas et al., “Adversarial Examples Are Not Bugs, They Are Features”, NeurIPS 2019.
Robust: Pig
Non-Robust: Pig
通常のデータセット
Pig
Robust: Pig
Non-Robust: Cat
Non-robust データセット
PGDでCat
Classへ
Pig
特徴量原因説 [Ilyas et al., 2019]
通常のデータセットでの精度(%)
原因・性質分析編
実験︓「分類に有効」かつ「摂動に脆弱」な特徴量の存在の確認
• Non-robust な特徴量のみを学習出来るデータセットを作成し, ResNet-50を学習.
-> 通常のデータセットで中程度の精度達成. (CIFAR-10で80%以上の Top1 Acc.)
Ilyas et al., “Adversarial Examples Are Not Bugs, They Are Features”, NeurIPS 2019.
Robust: Pig
Non-Robust: Pig
通常のデータセット
Pig
Robust: Pig
Non-Robust: Cat
Non-robust データセット
PGDでCat
Classへ
Pig
特徴量原因説 [Ilyas et al., 2019]
通常のデータセットでの精度(%)
原因・性質分析編
実験︓「分類に有効」かつ「摂動に脆弱」な特徴量の存在の確認
• Non-robust な特徴量のみを学習出来るデータセットを作成し, ResNet-50を学習.
-> 通常のデータセットで中程度の精度達成. (CIFAR-10で80%以上の Top1 Acc.)
Ilyas et al., “Adversarial Examples Are Not Bugs, They Are Features”, NeurIPS 2019.
Robust: Pig
Non-Robust: Pig
通常のデータセット
Pig
Robust: Pig
Non-Robust: Cat
Non-robust データセット
PGDでCat
Classへ
Cat
特徴量原因説 [Ilyas et al., 2019]
通常のデータセットでの精度(%)
原因・性質分析編
実験︓「分類に有効」かつ「摂動に脆弱」な特徴量の存在の確認
• Non-robust な特徴量のみを学習出来るデータセットを作成し, ResNet-50を学習.
-> 通常のデータセットで中程度の精度達成. (CIFAR-10で80%以上の Top1 Acc.)
Ilyas et al., “Adversarial Examples Are Not Bugs, They Are Features”, NeurIPS 2019.
Robust: Pig
Non-Robust: Pig
通常のデータセット
Pig
Robust: Pig
Non-Robust: Cat
Non-robust データセット
PGDでCat
Classへ
Cat
特徴量原因説 [Ilyas et al., 2019]
通常のデータセットでの精度(%)
原因・性質分析編
#49
Not Bugs, They Are Features
• AEsの転移性の⾼さについても⼀定の説明が可能.
-> 複数のモデルが, 同⼀の「有効かつ脆弱」な特徴量を学習してるため︖
• 脆弱な特徴量を獲得し易いモデルほど, 転移攻撃の成功率も⾼いことを確認.
-> 構造による制約で頑健な特徴量を優先的に獲得するように出来る可能性︖
• VGGは他のアーキテクチャとは性質が異なる︖
-> 他の論⽂でも⽰唆
-> Style Transfer との関係︖
[Ilyas et al., 2019]
Ilyas et al., “Adversarial Examples Are Not Bugs, They Are Features”, NeurIPS 2019.
Non-robust な特徴量の獲得のし易さ
転移攻撃の成功率
[Su et al., 2018]
[Nakano, 2019]
[Brendel et al., 2019]
原因・性質分析編
#50
Not Bugs, They Are Features
• 「有効かつ脆弱」な特徴量は何処から⽣じる︖
-> データセットと我々が観測する実世界との不整合から.
[Ilyas et al., 2019]
Ilyas et al., “Adversarial Examples Are Not Bugs, They Are Features”, NeurIPS 2019.
データセットのバイアス問題を指摘 背景のみで⾏動認識
[Ilyas et al., 2019]
[He et al., 2016]
攻撃・防御⼿法編 (再訪)
#51
Adversarial Training (AT)
問題点
• 計算コストが⼤きい.
-> PGD(イテレーション数20~40)を⽤いると学習のコストも20~40倍に...
• 精度と頑健性のトレードオフ問題.
-> 頑健性が向上すると, 通常の精度が低下する︖
• 学習データに追加しなかったAEsにも頑健になっている︖
-> min max 最適化の内側のmaxがAEsの⽣成⼿法に依存してしまっている...
-> 様々な⼿法で⽣成したAEsを全て学習データに追加すれば⼤丈夫か︖(詳細は後述.)
[Goodfellow et al., 2015] [Madry et al., 2018]
[Su et al., 2018]
攻撃・防御⼿法編 (再訪)
#52
Adversarial Training (AT)
問題点
• 計算コストが⼤きい.
-> PGD(イテレーション数20~40)を⽤いると学習のコストも20~40倍に...
• 精度と頑健性のトレードオフ問題.
-> 頑健性が向上すると, 通常の精度が低下する︖
->「有効かつ脆弱」な特徴量が使えなくなった結果.
• 学習データに追加しなかったAEsにも頑健になっている︖
-> min max 最適化の内側のmaxがAEsの⽣成⼿法に依存してしまっている...
-> 様々な⼿法で⽣成したAEsを全て学習データに追加すれば⼤丈夫か︖(詳細は後述.)
[Goodfellow et al., 2015] [Madry et al., 2018]
[Tsipras et al., 2019]
[Su et al., 2018]
攻撃・防御⼿法編 (再訪)
#53
Adversarial Training (AT)
問題点
• 計算コストが⼤きい.
-> PGD(イテレーション数20~40)を⽤いると学習のコストも20~40倍に...
• 精度と頑健性のトレードオフ問題.
-> 頑健性が向上すると, 通常の精度が低下する︖
->「有効かつ脆弱」な特徴量が使えなくなった結果.
• 学習データに追加しなかったAEsにも頑健になっている︖
-> min max 最適化の内側のmaxがAEsの⽣成⼿法に依存してしまっている...
-> 様々な⼿法で⽣成したAEsを全て学習データに追加すれば⼤丈夫か︖(詳細は後述.)
[Goodfellow et al., 2015] [Madry et al., 2018]
[Tsipras et al., 2019]
[Su et al., 2018]
原因分かったのは良いが, 精度下がるのは嬉しくない...
-> 何か他に朗報はないのか︖そもそも,「頑健かつ有効」な特徴量ってどんな特徴量︖
原因・性質分析編
#54
脆弱な(≈通常の学習をした)モデルが”⾒ているもの”
テクスチャへの依存 局所的な特徴への依存[Geirhos et al., 2019] [Brendel et al., 2019]
• ImageNetで学習したCNNは形状より,
テクスチャ情報に⼤きく依存した意思
決定をしていることを確認.
• 需要野が⼩さく局所的な特徴しか⾒れない
ResNetの変異型 (BagNet) と元のResNetの
類似性の⾼さから局所特徴への依存を指摘.
Geirhos et al., “ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness”, ICLR 2019.
Brendel et al., “Approximating CNNs with Bag-of-local-Features models works surprisingly well on ImageNet”, ICLR 2019.
tabby cat
grey fox
Siamese cat
71.1%
17.3%
3.3%
63.9%
26.4%
9.6%
Indian elephant
indri
black swan
画像中でどの程度まで離れた矩形領域が特徴量に影響するか
原因・性質分析編
#55
脆弱な(≈通常の学習をした)モデルが”⾒ている”もの
テクスチャへの依存 局所的な特徴への依存[Geirhos et al., 2019] [Brendel et al., 2019]
• ImageNetで学習したCNNは形状より,
テクスチャ情報に⼤きく依存した意思
決定をしていることを確認.
• 需要野が⼩さく局所的な特徴しか⾒れない
ResNetの変異型 (BagNet) と元のResNetの
類似性の⾼さから局所特徴への依存を指摘.
Geirhos et al., “ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness”, ICLR 2019.
Brendel et al., “Approximating CNNs with Bag-of-local-Features models works surprisingly well on ImageNet”, ICLR 2019.
tabby cat
grey fox
Siamese cat
71.1%
17.3%
3.3%
63.9%
26.4%
9.6%
Indian elephant
indri
black swan
画像中でどの程度まで離れた矩形領域が特徴量に影響するか
⼈間とは異なる情報に基づいて意思決定をしている.
-> モデルの決定の解釈が⼈間には難しい...
原因・性質分析編
頑健な(≈ATをした)モデルが”⾒ているもの”
形状を捉えやすい︖ ⼤域特徴を捉えやすい︖[Tsipras et al., 2019]
[Itazuri et al., 2019]
[Brendel et al., 2019]
[Itazuri et al., 2019]
• 獲得される特徴量, sensitivity map の両⽅
でエッジのような形状と関係のある部位に
反応することを確認.
• 画像の⼤域構造を破壊することによる精度の低下
速度の⽐較から, より⼤きな構造を捉えていること
を確認.
Tsipras et al., “Robustness May Be at Odds with Accuracy”, ICLR 2019.
Brendel et al., “Interpreting Adversarially Trained Convolutional Neural Networks”, ICML 2019.
Itazuri et al., “What Do Adversarially Robust Models Look At?”, arXiv 2019.
⼊⼒画像
Sensitivity map の⽐較 (ResNet-101)
通常学習 AT
Activation maximization による特徴量の⽐較 (ResNet-50)
通常学習 AT
⼤域構造を破壊した画像の精度⽐較 (ResNet-18)
原因・性質分析編
頑健な(≈ATをした)モデルが”⾒ている”もの
形状を捉えやすい︖ ⼤域特徴を捉えやすい︖[Tsipras et al., 2019]
[Itazuri et al., 2019]
[Brendel et al., 2019]
[Itazuri et al., 2019]
• 獲得される特徴量, sensitivity map の両⽅
でエッジのような形状と関係のある部位に
反応することを確認.
• 画像の⼤域構造を破壊することによる精度の低下
速度の⽐較から, より⼤きな構造を捉えていること
を確認.
Tsipras et al., “Robustness May Be at Odds with Accuracy”, ICLR 2019.
Brendel et al., “Interpreting Adversarially Trained Convolutional Neural Networks”, ICML 2019.
Itazuri et al., “What Do Adversarially Robust Models Look At?”, arXiv 2019.
⼊⼒画像
Sensitivity map の⽐較 (ResNet-101)
通常学習 AT
Activation maximization による特徴量の⽐較 (ResNet-50)
通常学習 AT
⼤域構造を破壊した画像の精度⽐較 (ResNet-18)
ATすることでより human-aligned な特徴量が得られる
-> モデルの決定の解釈性も向上(︖)
最新動向・今後の課題
#62
著作権保護への応⽤ [Zhu, 2018] [Li, 2019]
Zhu et al., “HiDDeN: Hiding Data With Deep Networks”, ECCV 2018.
Li et al., “How to Prove Your Model Belongs to You: A Blind-Watermark based Framework to Protect
Intellectual Property of DNN”, ACSAC 2019.
• Adversarial Perturbation をWatermarkやステガノグラフィとして応⽤し,
著作権情報の埋め込みや画像改変の検出を⾏う.
モデルへの著作情報の埋め込み画像への著作情報の埋め込み
[Tsipras et al., 2019]
[Su et al., 2018]
攻撃・防御⼿法編 (再々訪)
#63
Adversarial Training (AT)
問題点
• 計算コストが⼤きい.
-> PGD(イテレーション数20~40)を⽤いると学習のコストも20~40倍に...
• 精度と頑健性のトレードオフ問題.
-> 頑健性が向上すると, 通常の精度が低下する︖
->「有効かつ脆弱」な特徴量が使えなくなった結果.
• 学習データに追加しなかったAEsにも頑健になっている︖
-> min max 最適化の内側のmaxがAEsの⽣成⼿法に依存してしまっている...
-> 様々な⼿法で⽣成したAEsを全て学習データに追加すれば⼤丈夫か︖(詳細は後述.)
[Goodfellow et al., 2015] [Madry et al., 2018]
最新動向・今後の課題
• 学習データに追加しなかったAEsにも頑健になっている?
-> ATする際の 𝜺 の⼤きさによってはむしろより脆弱になってしまう場合もある...
• では, 様々な⼿法で⽣成したAEsを全て学習データに追加すれば⼤丈夫?
-> 2つの異なるAEsに対するATでさえ, overfitting してしまう...
• 幅広い種類・摂動幅の攻撃を評価した総合的な頑健性の評価指標を提案.
#64
UAR (Unforeseen Attack Robustness) [Kang et al., 2019]
Kang et al., “Testing Robustness Against Unforeseen Adversaries”, arXiv 2019.
𝑙HノルムでのATは摂動幅の⼤きさによっては 𝑙[ノルムAEsに対する脆弱性を⽣む. ATが他の攻撃⼿法に対する頑健性に与える影響
最新動向・今後の課題
• 幅広い種類・摂動幅の攻撃に耐えられるモデルが AT で作れれば良い︖
-> 残念ながら現状の AT はモデルに過度の不変性を学習させてしまっている.
• 現状の AT では 𝐿'-ノルムで測って 𝜀 以下の摂動に対しては真のラベルは
不変であることを仮定している.
-> この仮定は摂動の⽅向によっては成り⽴たない.
#65
Tradeoffs between Invariance and Sensitivity AEs
[Tramèr et al., 2020]
Tramèr et al., “Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial Perturbations”, arXiv 2020.
中央と右の画像は𝐿[ノルムで同じ⼤きさの摂動を左の画像に加えている
中央の画像は真のラベルが変わっているが, 右の画像では変わっていない. ATの結果得られる過度に不変性な識別平⾯の例
最新動向・今後の課題
• 幅広い種類・摂動幅の攻撃に耐えられるモデルが AT で作れれば良い︖
-> 残念ながら現状の AT はモデルに過度の不変性を学習させてしまっている.
• 現状の AT では 𝐿'-ノルムで測って 𝜀 以下の摂動に対しては真のラベルは
不変であることを仮定している.
-> この仮定は摂動の⽅向によっては成り⽴たない.
#66
Tradeoffs between Invariance and Sensitivity AEs
[Tramèr et al., 2020]
Tramèr et al., “Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial Perturbations”, arXiv 2020.
中央と右の画像は𝐿[ノルムで同じ⼤きさの摂動を左の画像に加えている
中央の画像は真のラベルが変わっているが, 右の画像では変わっていない ATの結果得られる過度に不変性な識別平⾯の例
現状のATの限界を⽰唆.
-> ATの改良 or 代替となる防御の研究が必要そう.
メタサーベイ
#75
研究体制⽐較(2/3) Google Research
• 激強研究者集団の Brain Team を有する.
• Nicholas Carlini を始めとする多くの激強研究者および多数の優秀な学⽣をインターンとし
て抱え, 豊富な計算リソースを与えることで多数の論⽂を Top 会議に通している.
• AEs 分野で最もスター数の多いライブラリである cleverhans を開発.
2019 年は Brain Team だけでトップ会議に約 100 本論⽂を通している.
https://research.google/pubs/?team=brain&year=2019
Workshopなども⼊れると121本
TensorFlow による AEs ライブラリの cleverhans
メタサーベイ
#76
研究体制⽐較(2/3) Google Research
激強研究者が多数在籍
- Nicholas Carlini
• 防御⼿法の撃墜王.
• AEs に関係する論⽂のリストを公開.
• C&W Attack, Obfuscated Gradients 等.
- Justin Gilmer
• ⾼次元原因説の提唱者.
• Adversarial Spheres, Adversarial Patch 等.
- Ian J. Goodfellow (現 Apple)
• DNN における AEs の問題を指摘した張本⼈.
• AEs の今後の研究の⽅向性(Agenda)を公開.
• FGSM, Adversarial Training 等.
- Nicolas Papernot (現 トロント⼤学)
• 蒸留による防御を提案.
• Defensive Distillation 等.
メタサーベイ
#77
研究体制⽐較(2/3) Google Research
インターン⽣も強⼒な戦⼒
• Google AI Residency Program (給料付きのインターンプログラム) によって世界中の
有名研究室の学⽣や有名企業の社員を集めている. (噂では倍率が1,000倍なんて年も...)
• 2019年は Residency Program の成果だけで, ICLR 7本, CVPR 2本, ICML 3本らしい.
• インターン制度⾃体は FAIR (Facebook AI Research) などにもあるが, Residency
Program は1年間に渡る⻑期インターンなので腰を据えて研究が出来る︖
-> 更にオプションとして18ヶ⽉延⻑も可能.
Google AI Residency Program について
https://research.google/careers/ai-residency/
Residency Program の成果
https://research.google/pubs/?collection=ai-residency
#93
著者紹介
福原 吉博 (Yoshihiro Fukuhara)
• Twitter︓ @gatheluck
• 所属︓早⼤ 博⼠課程 2年
o 森島研究室
o リーディング⼤学院
o cvpaper.challenge (HQ)
o SE4 Inc. (インターン)
o 産総研 (インターン)
• 研究
o Adversarial Examples の性質の分析
o Unsupervised Multi-class 3D Shape Estimation
#94
著者紹介
⾕村 朋樹 (Tomoki Tanimura)
• Twitter︓ @tanimutomo
• 所属︓慶⼤ 学⼠ 4年
o 中澤研究室
o cvpaper.challenge
o bitkey (インターン)
• 研究
o Adversarial Examples の性質の分析
o 画像再構成を⽤いた画像の匿名化