Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Adversarial Examples 分野の動向 (敵対的サンプル発表資料)

5,497 views

Published on

cvpaper.challenge の 「Adversarial Examples 分野の動向」の発表資料です。

Published in: Education
  • Be the first to comment

Adversarial Examples 分野の動向 (敵対的サンプル発表資料)

  1. 1. Adversarial Examples 分野の動向 - History and Trends of Dark Arts - 福原吉博 (@gatheluck) CVPR2019 網羅的サーベイ報告会 @⽇⽴製作所 中央研究所 http://xpaperchallenge.org/ 発表版
  2. 2. #2 ⾃⼰紹介 福原 吉博 (Yoshihiro Fukuhara) • Twitter︓ @gatheluck • 所属︓早⼤ 博⼠課程 2年 o 森島研究室 o リーディング⼤学院 o cvpaper.challenge (HQ) o SE4 Inc. (インターン) o 産総研 (インターン) • 研究 o Adversarial Examples の性質の分析 o Unsupervised Multi-class 3D Shape Estimation
  3. 3. #3 主な対象 • AEsについてほぼ事前知識が無く, これまでの流れと最新研究の動向を知りたい⽅. • これまでの研究で分かっている範囲でのAEsの最も有⼒な原因候補. • AEsはモデルの安全性についての話で, ⾃分の研究に関係することはまず無いと考え ていたCV分野の⽅. -> 今年になって画像⽣成への応⽤研究も出てきています. ※AEs周りの研究をされている⽅は, 既に知っている内容が多いと思います.
  4. 4. #4 注意 • 本⽇の発表内容および資料は出来る限り誤りの無いよう勤めておりますが, 発表者 ⾃⾝もまだまだ理解が⼗分で無いため間違った内容を含む可能性があります. • 2019年09⽉上旬の時点までの研究内容から資料を作成しているため, 今後の研究 で覆る可能性のある情報を含みます.(AEsの分野では割と頻繁に起こります.) • 発表者はAEsを重要かつ⾯⽩い研究領域と思っていますが, そうでは無い(5年後に 後悔するかもしれない研究領域)との指摘もあります. https://futurecv.github.io/
  5. 5. #5 1. 導⼊ 2. 事前準備 3. 攻撃・防御編 4. 原因・性質分析編 5. 最新動向・今後の課題 6. まとめ 7. 参考⽂献(後で公開する版で加えます.) 本⽇の発表内容
  6. 6. Waseda University School of Applied Physics in Tokyo 導⼊ #6
  7. 7. 導⼊ #7 Adversarial Examples (AEs) とは︖ : 攻撃者によって意図的にモデルが間違えるように設計された⼊⼒. ※摂動のみを対象とするより狭い定義の仕⽅もあります. 本⼈も Dark Arts と⾔ったりしているGANと並んでGoodfellow⽒が指摘した闇の1つ
  8. 8. 導⼊ Adversarial Examples (AEs) とは︖ 例)画像分類器に対しての攻撃 摂動を加える + = =+ # = [Goodfellow et al., 2015] [Madry et al., 2018] パッチを合成する [Brown et al., 2017] 幾何学変換を作⽤させる 3Dの物体を加⼯する A [Sharif et al., 2016] [Eykholt et al., 2018] [Athalye et al., 2018][Xiao et al., 2018] [Kanbak et al., 2018] ※他タスク (物体検知, ⾳声認識, ⾃然⾔語処理) におけるAEsもあります.
  9. 9. 導⼊ #9 何故AEsの研究をする必要があるのか︖ 安全性の向上のため • 機械学習モデルを社会実装する上で, AEsに対する脆弱性は安全保障上の問題 となる. -> 特にAEsの転移性(transferability)の⾼さは⼤きな問題. 機械学習モデルのより深い理解のため • AEsに対する脆弱性の原因の分析は, これまで明らかにされていなかった機械 学習モデルの性質の理解につながる.
  10. 10. Waseda University School of Applied Physics in Tokyo 事前準備 #10
  11. 11. 事前準備 AEs関連の研究の分類 攻撃⼿法の提案 防御⼿法の提案 原因・性質の分析 その他 • 論⽂をまとめる都合上, AEs関連の研究を以下の4つに(主観的に)分類して います. -> ⼿法・研究を紹介する際は⾊でどの種類の研究かを⽰すようにしています. • その他は, 「AEsの⼿法の他タスクへの応⽤」や「評価指標の提案」など. #11
  12. 12. 事前準備 Threat Model(脅威モデル) White box Black box • 攻撃者はモデルの情報を すべて⼊⼿可能 ・アーキテクチャ ・パラメータ etc. ※使⽤されている防御⼿法 の情報も含む場合がある. • 攻撃者はモデルの情報を ⼊⼿出来ない. • クエリの送信は可能. ※不可とする場合もある. [Kannan et al., 2018] Gray box • 攻撃者はモデルの情報の ⼀部を⼊⼿可能. • 何の情報が⼊⼿可能かは 論⽂毎に異なる. ※Gray boxをBlack boxの 1種と扱うことも多い. • 攻撃や防御が⾏われる際の状況設定に⽤いられる. (主に攻撃者の持つ情報の設定.) • 多くの防御⼿法は攻撃を 𝑳 𝒑-ノルムで制約された摂動に限定している. [Carlini et al., 2017] ※この資料では主にWhite boxの設定での⼿法を中⼼にまとめています. [Goodfellow et al., 2018] #12
  13. 13. 事前準備 #13 頑健性の評価指標 Robust Accuracy • 特定の攻撃⼿法で作られたAEsの分類精度. • 攻撃⼿法を 𝐿'-ノルムで制約された摂動に限定する場合が多い. CLEVER (Cross Lipschitz Extreme Value for nEtwork Robustness) • モデルのLipschitz定数を⽤いた, 攻撃⼿法に依存しない評価尺度. • Gradient Masking(勾配マスキング)をする⼿法を過⼤に評価してしまう︖ UAR (Unforeseen Attack Robustness) • 未知の攻撃に対する頑健性の尺度. (𝐿' -ノルムで制約されない攻撃を含む場合の尺度.) ※防御⼿法は通常の精度に影響を与えるものもあるため, Standard Accuracyも同時に報告する. [Weng et al., 2018] [Kang et al., 2019] [Goodfellow, 2018]
  14. 14. Waseda University School of Applied Physics in Tokyo 攻撃・防御⼿法編 #14
  15. 15. 攻撃・防御⼿法編 #15 この章で話す内容 • “Arms Race (軍拡競争)”と表現される, これまで提案されてきた攻撃・防御 ⼿法の⼤まかな流れ. • 基本的 (かつ今も使⽤されている) 攻撃・防御⼿法. o 攻撃︓Projected Gradient Descent (PGD) o 防御︓Adversarial Training (AT) ※上記以外は概要しか説明しません.
  16. 16. 攻撃・防御⼿法編(History of Arms Race) 2019 2014 2018 2015 DeepFool [Dezfooli et al.] 2016 2017 JSMA [Papernot et al.] FGSM [Goodfellow et al.] C&Wʼs At. [Carlini et al.] BIM [Kurakin et al.] L-BFGS [Szegedy et al.] 蒸留 敗北 勾配の難読化 敗北 AT [Goodfellow et al.] Defensive Distillation [Papernot et al.] Universal Perturbation [Dezfooli et al.] SparseFool [Modas et al.] YOPO [Zhang et al.] Free AT [Shafahi et al.] AT by PGD [Madry et al.] Obfuscated Gradients [Athalye et al.] Virtual AT [Miyato et al.] AEsの 存在が指摘 Certified Def. [Raghunathan et al.] Probable Rob. [Wong et al.] 3D AEs [Athalye et al.] Joint AT [Tramer et al.] Logit Pairing [Kannan et al.] mixup [Zhang et al.] GCE Loss [Chen et al.] COT [Chen et al.] Elastic [Xiao et al.] Fog,Snow,Gabor [Kang et al.] Cascade AT [Na et al.] Defense-GAN [Samangouei et al.] SAP [Dhillon et al.] PGD [Madry et al.] CURE [Dezfooli et al.] Feature Denoising [Xie et al.] PixelDefend [Song et al.] Randomization [Xie et al.] Transformation [Guo et al.] LID [Ma et al.] Distributional Rob. [Sinha et al.] Reluplex [Katz et al.] One Pixel At. [Su et al.] ManiFool [Kanbak et al.] Unrestricted AEs [Song et al.] AT-GAN [Wang et al.] Natural AEs (GAN) [Zhao et al.] PATE [Papernot et al.] 検出 困難 弱い防御の 複合も弱い Label Smoothing [Warde-Farley et al.] Arms Race 開始 Statistical Det. [Li et al.] Adv. Retraining [Grosse et al.] [Gong et al.] Input PCA [Hendrycks et al.] Dim. Reduction [Bhagoji et al.] Dropout [Feinman et al.] Topological Det. [Corneanu et al.] 検出による 防御 勾配の難読化 による防御 TRADES [Zhang et al.] 防御⼿法攻撃⼿法 蒸留による 防御 [Carlini et al.][He et al.] ※スペースの関係で含められていない 重要論⽂があることに注意して下さい. ※公開時期はarXivへの公開を優先して プロットしています.
  17. 17. 攻撃・防御⼿法編(History of Arms Race) 2019 2014 2018 2015 DeepFool [Dezfooli et al.] 2016 2017 JSMA [Papernot et al.] FGSM [Goodfellow et al.] C&Wʼs At. [Carlini et al.] BIM [Kurakin et al.] L-BFGS [Szegedy et al.] 蒸留 敗北 勾配の難読化 敗北 AT [Goodfellow et al.] Defensive Distillation [Papernot et al.] Universal Perturbation [Dezfooli et al.] SparseFool [Modas et al.] YOPO [Zhang et al.] Free AT [Shafahi et al.] AT by PGD [Madry et al.] Obfuscated Gradients [Athalye et al.] Virtual AT [Miyato et al.] AEsの 存在が指摘 Certified Def. [Raghunathan et al.] Probable Rob. [Wong et al.] 3D AEs [Athalye et al.] Joint AT [Tramer et al.] Logit Pairing [Kannan et al.] mixup [Zhang et al.] GCE Loss [Chen et al.] COT [Chen et al.] Elastic [Xiao et al.] Fog,Snow,Gabor [Kang et al.] Cascade AT [Na et al.] Defense-GAN [Samangouei et al.] SAP [Dhillon et al.] PGD [Madry et al.] CURE [Dezfooli et al.] Feature Denoising [Xie et al.] PixelDefend [Song et al.] Randomization [Xie et al.] Transformation [Guo et al.] LID [Ma et al.] Distributional Rob. [Sinha et al.] Reluplex [Katz et al.] One Pixel At. [Su et al.] ManiFool [Kanbak et al.] Unrestricted AEs [Song et al.] AT-GAN [Wang et al.] Natural AEs (GAN) [Zhao et al.] PATE [Papernot et al.] 検出 困難 弱い防御の 複合も弱い Label Smoothing [Warde-Farley et al.] Arms Race 開始 Statistical Det. [Li et al.] Adv. Retraining [Grosse et al.] [Gong et al.] Input PCA [Hendrycks et al.] Dim. Reduction [Bhagoji et al.] Dropout [Feinman et al.] Topological Det. [Corneanu et al.] 検出による 防御 勾配の難読化 による防御 TRADES [Zhang et al.] 防御⼿法攻撃⼿法 蒸留による 防御 [Carlini et al.][He et al.] ※スペースの関係で含められていない 重要論⽂があることに注意して下さい. ※公開時期はarXivへの公開を優先して プロットしています.
  18. 18. 攻撃・防御⼿法編 #18 Fast Gradient Sign Method (FGSM) • 最も単純な摂動ベースの攻撃⼿法の1つ. • 重みを固定し, Lossを増加させるように⼊⼒画像を1度更新する. ※通常の画像分類の学習では, 「⼊⼒画像を固定し, Lossを減少させるように重みを更新」している. 𝜹 = 𝜀* ⋅ sign(∇2 𝐿(3𝑘5(𝒙), 𝑡)) 𝜹 ' ≤ 𝜀 𝜹 ∶ 敵対的摂動 𝒙 ∶ ⼊⼒画像 𝑡 ∶ 教師ラベル 𝜃 ∶ パラメータ 3𝑘 ⋅ ∶ 分類器 𝐿 ⋅ ∶ Loss関数 𝜀 ∶ 摂動の最⼤値 panda 57.7% gibbon 99.3% 𝜹𝒙 𝒙 + 𝜹 Goodfellow et al., “Explaining and Harnessing Adversarial Examples”, ICLR 2015. [Goodfellow et al. 2015]
  19. 19. 攻撃・防御⼿法編 #19 Projected Gradient Descent (PGD) • 摂動ベースの攻撃⼿法で最も強⼒なものの1つ. -> 防御⼿法の評価に⽤いられることが多い. • FGSMと同様の更新を 𝑝-ノルム球の内部で反復的に⾏う. ※初期値を 𝑝-ノルム球の中でランダムに⾏う点がBIMと異なる. ※ステップ幅は 𝛼 = 𝜀 / √s とするのが良いらしい. 𝜹 ∶ 敵対的摂動 𝒙 ∶ ⼊⼒画像 𝑡 ∶ 教師ラベル 𝜃 ∶ パラメータ 3𝑘 ⋅ ∶ 分類器 𝐿 ⋅ ∶ Loss関数 𝜀 ∶ 摂動の最⼤値 𝛼 ∶ ステップ幅 𝑠 ∶ ステップ数 [Kurakin et al., 2016] 𝜹(BCD) = 𝑃F(𝜹 B + 𝛼 ⋅ sign(∇2 𝐿(3𝑘5(𝒙 + 𝜹 B ), 𝑡)) 𝜹 ' ≤ 𝜀 𝑃F # ∶ 半径 𝜀 の球への射影 Madry et al., “Towards Deep Learning Models Resistant to Adversarial Attacks”, ICLR 2018. [Madry et al., 2018] [Kang et al., 2019] FGSMと同じ計算 例) ResNet-50, ImageNet Std. Acc: 75.8% Rob. Acc: 0.78% 𝑙H-PGD (𝜀 =0.005)
  20. 20. 攻撃・防御⼿法編 #20 Adversarial Training (AT) • 最初期に提案された防御⼿法. (PGD+ATは現状で最も頑健な防御の1つ.) • AEsを学習データに追加することでモデルを頑健にする. -> AEsによって最⼤化されたLossを最⼩化するように重みを学習する. min 5 3𝑅KLM(3𝑘5, 𝐷) = min 5 1 |𝐷| Q 𝒙,R ∈T max 𝜹∈W(𝒙) 𝐿(3𝑘5 𝒙 + 𝜹 , 𝑡) 敵対的摂動によるLossの最⼤化 重みの更新によるLossの最⼩化 𝐷 ∶ 学習データ Δ ∶ 有効な摂動の集合 [Goodfellow et al., 2015] [Madry et al., 2018] 𝜹 ∶ 敵対的摂動 𝒙 ∶ ⼊⼒画像 𝑡 ∶ 教師ラベル 𝜃 ∶ パラメータ 3𝑘 ⋅ ∶ 分類器 𝐿 ⋅ ∶ Loss関数 Madry et al., “Towards Deep Learning Models Resistant to Adversarial Attacks”, ICLR 2018. 例) ResNet-50(AT), ImageNet Std. Acc: 71.5% Rob. Acc: 81.3% 𝑙H-PGD (𝜀 =0.005)
  21. 21. 攻撃・防御⼿法編 #21 Adversarial Training (AT) • 最初期に提案された防御⼿法. (PGD+ATは現状で最も頑健な防御の1つ.) • AEsを学習データに追加することでモデルを頑健にする. -> AEsによって最⼤化されたLossを最⼩化するように重みを学習する. min 5 3𝑅KLM(3𝑘5, 𝐷) = min 5 1 |𝐷| Q 𝒙,R ∈T max 𝜹∈W(𝒙) 𝐿(3𝑘5 𝒙 + 𝜹 , 𝑡) 敵対的摂動によるLossの最⼤化 重みの更新によるLossの最⼩化 𝐷 ∶ 学習データ Δ ∶ 有効な摂動の集合 [Goodfellow et al., 2015] [Madry et al., 2018] 𝜹 ∶ 敵対的摂動 𝒙 ∶ ⼊⼒画像 𝑡 ∶ 教師ラベル 𝜃 ∶ パラメータ 3𝑘 ⋅ ∶ 分類器 𝐿 ⋅ ∶ Loss関数 Madry et al., “Towards Deep Learning Models Resistant to Adversarial Attacks”, ICLR 2018. 例) ResNet-50(AT), ImageNet Std. Acc: 71.5% Rob. Acc: 81.3% 𝑙H-PGD (𝜀 =0.005) Adversarial Training しておけば問題解決では︖ -> 残念ながらそんなに簡単ではなかった...
  22. 22. 攻撃・防御⼿法編 #22 Adversarial Training (AT) 問題点 • 計算コストが⼤きい. -> PGD(イテレーション数20~40)を⽤いると学習のコストも20~40倍に... • 精度と頑健性のトレードオフ問題. -> 頑健性が向上すると, 通常の精度が低下する︖ (詳細は後述.) • 学習データに追加しなかったAEsにも頑健になっている︖ -> min max 最適化の内側のmaxがAEsの⽣成⼿法に依存してしまっている... -> 様々な⼿法で⽣成したAEsを全て学習データに追加すれば⼤丈夫か︖(詳細は後述.) [Goodfellow et al., 2015] [Madry et al., 2018] [Su et al., 2018]
  23. 23. Introduction #23 Adversarial Training (AT) 問題点 • 計算コストが⼤きい. -> PGD(イテレーション数20~40)を⽤いると学習のコストも20~40倍に... • 精度と頑健性のトレードオフ問題. -> 頑健性が向上すると, 通常の精度が低下する. (詳細は後述.) • 学習データに追加しなかったAEsにも頑健になっている︖ -> min max 最適化の内側のmaxがAEsの⽣成⼿法に依存してしまっている... -> 様々な⼿法で⽣成したAEsを全て学習データに追加すれば⼤丈夫か︖(詳細は後述.) [Goodfellow et al., 2015] [Madry et al., 2018] ここから怒涛の Arms Race (軍拡競争)になる... https://www.ploughshares.org/issues-analysis/article/welcome-new-nuclear-arms-race
  24. 24. 攻撃・防御⼿法編(History of Arms Race) 2019 2014 2018 2015 DeepFool [Dezfooli et al.] 2016 2017 JSMA [Papernot et al.] FGSM [Goodfellow et al.] C&Wʼs At. [Carlini et al.] BIM [Kurakin et al.] L-BFGS [Szegedy et al.] 蒸留 敗北 勾配の難読化 敗北 AT [Goodfellow et al.] Defensive Distillation [Papernot et al.] Universal Perturbation [Dezfooli et al.] SparseFool [Modas et al.] YOPO [Zhang et al.] Free AT [Shafahi et al.] AT by PGD [Madry et al.] Obfuscated Gradients [Athalye et al.] Virtual AT [Miyato et al.] AEsの 存在が指摘 Certified Def. [Raghunathan et al.] Probable Rob. [Wong et al.] 3D AEs [Athalye et al.] Joint AT [Tramer et al.] Logit Pairing [Kannan et al.] mixup [Zhang et al.] GCE Loss [Chen et al.] COT [Chen et al.] Elastic [Xiao et al.] Fog,Snow,Gabor [Kang et al.] Cascade AT [Na et al.] Defense-GAN [Samangouei et al.] SAP [Dhillon et al.] PGD [Madry et al.] CURE [Dezfooli et al.] Feature Denoising [Xie et al.] PixelDefend [Song et al.] Randomization [Xie et al.] Transformation [Guo et al.] LID [Ma et al.] Distributional Rob. [Sinha et al.] Reluplex [Katz et al.] One Pixel At. [Su et al.] ManiFool [Kanbak et al.] Unrestricted AEs [Song et al.] AT-GAN [Wang et al.] Natural AEs (GAN) [Zhao et al.] PATE [Papernot et al.] 検出 困難 弱い防御の 複合も弱い Label Smoothing [Warde-Farley et al.] Arms Race 開始 Statistical Det. [Li et al.] Adv. Retraining [Grosse et al.] [Gong et al.] Input PCA [Hendrycks et al.] Dim. Reduction [Bhagoji et al.] Dropout [Feinman et al.] Topological Det. [Corneanu et al.] 検出による 防御 勾配の難読化 による防御 TRADES [Zhang et al.] 防御⼿法攻撃⼿法 蒸留による 防御 [Carlini et al.][He et al.] ※スペースの関係で含められていない 重要論⽂があることに注意して下さい. ※公開時期はarXivへの公開を優先して プロットしています.
  25. 25. #25 Defensive Distillation vs C&Wʼs Attack 攻撃・防御⼿法編 Defensive Distillation • 蒸留を⽤いて滑らかな識別平⾯を学習する ことでAEsに対して頑健なモデルを獲得. • CIFAR-10でAEsによる攻撃の成功率を約 5%まで削減と主張. [Papernot et al., 2016] C&Wʼs Attack • AEsの⽣成に使⽤する⽬的関数を包括的に 調査し, 強⼒な新しい攻撃⼿法を提案. -> Defensive Distillation を破った. • Targetのラベル以外で最⼤のlogitとtarget のラベルのlogitが⼀定値を超えるまで最適 化を⾏う. ※確率ではなくlogitの差をとるのは重要な違い. [Carlini et al., 2017] 蒸留を⽤いた防御の流れ Papernot et al., “Distillation as a Defense to Adversarial Perturbations against Deep Neural Networks”, S&P 2016. Carlini et al., “Towards Evaluating the Robustness of Neural Networks”, S&P 2017.
  26. 26. 攻撃・防御⼿法編(History of Arms Race) 2019 2014 2018 2015 DeepFool [Dezfooli et al.] 2016 2017 JSMA [Papernot et al.] FGSM [Goodfellow et al.] C&Wʼs At. [Carlini et al.] BIM [Kurakin et al.] L-BFGS [Szegedy et al.] 蒸留 敗北 勾配の難読化 敗北 AT [Goodfellow et al.] Defensive Distillation [Papernot et al.] Universal Perturbation [Dezfooli et al.] SparseFool [Modas et al.] YOPO [Zhang et al.] Free AT [Shafahi et al.] AT by PGD [Madry et al.] Obfuscated Gradients [Athalye et al.] Virtual AT [Miyato et al.] AEsの 存在が指摘 Certified Def. [Raghunathan et al.] Probable Rob. [Wong et al.] 3D AEs [Athalye et al.] Joint AT [Tramer et al.] Logit Pairing [Kannan et al.] mixup [Zhang et al.] GCE Loss [Chen et al.] COT [Chen et al.] Elastic [Xiao et al.] Fog,Snow,Gabor [Kang et al.] Cascade AT [Na et al.] Defense-GAN [Samangouei et al.] SAP [Dhillon et al.] PGD [Madry et al.] CURE [Dezfooli et al.] Feature Denoising [Xie et al.] PixelDefend [Song et al.] Randomization [Xie et al.] Transformation [Guo et al.] LID [Ma et al.] Distributional Rob. [Sinha et al.] Reluplex [Katz et al.] One Pixel At. [Su et al.] ManiFool [Kanbak et al.] Unrestricted AEs [Song et al.] AT-GAN [Wang et al.] Natural AEs (GAN) [Zhao et al.] PATE [Papernot et al.] 検出 困難 弱い防御の 複合も弱い Label Smoothing [Warde-Farley et al.] Arms Race 開始 Statistical Det. [Li et al.] Adv. Retraining [Grosse et al.] [Gong et al.] Input PCA [Hendrycks et al.] Dim. Reduction [Bhagoji et al.] Dropout [Feinman et al.] Topological Det. [Corneanu et al.] 検出による 防御 勾配の難読化 による防御 TRADES [Zhang et al.] 防御⼿法攻撃⼿法 蒸留による 防御 [Carlini et al.][He et al.] ※スペースの関係で含められていない 重要論⽂があることに注意して下さい. ※公開時期はarXivへの公開を優先して プロットしています.
  27. 27. #27 Detection based Defense vs C&Wʼs Attack 攻撃・防御⼿法編 Detection based Defense • 分類器による検出. • PCAによる検出. • 分布の⽐較による検出. • 正則化よる検出. C&W + Attacker Loss • 各検出⼿法に特化したlossを提案し, C&Wʼs attackと組み合わせた. -> 10種類の検出⼿法を破った. • 防御⼿法を考える際は, 提案する防御⼿法に 特化した攻撃も想定する必要があることを 指摘. [Carlini et al., 2017] Carlini et al., “Adversarial Examples Are Not Easily Detected: Bypassing Ten Detection Methods”, ACM Workshop on Artificial Intelligence and Security 2017.
  28. 28. 攻撃・防御⼿法編(History of Arms Race) 2019 2014 2018 2015 DeepFool [Dezfooli et al.] 2016 2017 JSMA [Papernot et al.] FGSM [Goodfellow et al.] C&Wʼs At. [Carlini et al.] BIM [Kurakin et al.] L-BFGS [Szegedy et al.] 蒸留 敗北 勾配の難読化 敗北 AT [Goodfellow et al.] Defensive Distillation [Papernot et al.] Universal Perturbation [Dezfooli et al.] SparseFool [Modas et al.] YOPO [Zhang et al.] Free AT [Shafahi et al.] AT by PGD [Madry et al.] Obfuscated Gradients [Athalye et al.] Virtual AT [Miyato et al.] AEsの 存在が指摘 Certified Def. [Raghunathan et al.] Probable Rob. [Wong et al.] 3D AEs [Athalye et al.] Joint AT [Tramer et al.] Logit Pairing [Kannan et al.] mixup [Zhang et al.] GCE Loss [Chen et al.] COT [Chen et al.] Elastic [Xiao et al.] Fog,Snow,Gabor [Kang et al.] Cascade AT [Na et al.] Defense-GAN [Samangouei et al.] SAP [Dhillon et al.] PGD [Madry et al.] CURE [Dezfooli et al.] Feature Denoising [Xie et al.] PixelDefend [Song et al.] Randomization [Xie et al.] Transformation [Guo et al.] LID [Ma et al.] Distributional Rob. [Sinha et al.] Reluplex [Katz et al.] One Pixel At. [Su et al.] ManiFool [Kanbak et al.] Unrestricted AEs [Song et al.] AT-GAN [Wang et al.] Natural AEs (GAN) [Zhao et al.] PATE [Papernot et al.] 検出 困難 弱い防御の 複合も弱い Label Smoothing [Warde-Farley et al.] Arms Race 開始 Statistical Det. [Li et al.] Adv. Retraining [Grosse et al.] [Gong et al.] Input PCA [Hendrycks et al.] Dim. Reduction [Bhagoji et al.] Dropout [Feinman et al.] Topological Det. [Corneanu et al.] 検出による 防御 勾配の難読化 による防御 TRADES [Zhang et al.] 防御⼿法攻撃⼿法 蒸留による 防御 [Carlini et al.][He et al.] ※スペースの関係で含められていない 重要論⽂があることに注意して下さい. ※公開時期はarXivへの公開を優先して プロットしています.
  29. 29. #29 9 SoTA Def. ICLR 2018 vs Obfuscated Gradients 攻撃・防御⼿法編 9 SoTA Def. in ICLR 2018 ・ATベース. ・微分不可能操作で勾配を計算不可にする. ・勾配を確率的にする.(⼊⼒を確率的に変換.) ・勾配を消失・発散させる. Obfuscated Gradients • 勾配の難読化⼿法を3種類に分類し, それぞ れに対して攻撃⼿法を提案. • ICLR2018に投稿されていた9つの防御⼿法 に適⽤. -> 7つが破られる. (ICLR2018採択から3⽇後.) • ATベースの2つの⼿法は破られなかった. [Athalye et al., 2018] Athalye et al., “Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples”, ICML 2018.
  30. 30. 攻撃・防御⼿法編(History of Arms Race) 2019 2014 2018 2015 DeepFool [Dezfooli et al.] 2016 2017 JSMA [Papernot et al.] FGSM [Goodfellow et al.] C&Wʼs At. [Carlini et al.] BIM [Kurakin et al.] L-BFGS [Szegedy et al.] 蒸留 敗北 勾配の難読化 敗北 AT [Goodfellow et al.] Defensive Distillation [Papernot et al.] Universal Perturbation [Dezfooli et al.] SparseFool [Modas et al.] YOPO [Zhang et al.] Free AT [Shafahi et al.] AT by PGD [Madry et al.] Obfuscated Gradients [Athalye et al.] Virtual AT [Miyato et al.] AEsの 存在が指摘 Certified Def. [Raghunathan et al.] Probable Rob. [Wong et al.] 3D AEs [Athalye et al.] Joint AT [Tramer et al.] Logit Pairing [Kannan et al.] mixup [Zhang et al.] GCE Loss [Chen et al.] COT [Chen et al.] Elastic [Xiao et al.] Fog,Snow,Gabor [Kang et al.] Cascade AT [Na et al.] Defense-GAN [Samangouei et al.] SAP [Dhillon et al.] PGD [Madry et al.] CURE [Dezfooli et al.] Feature Denoising [Xie et al.] PixelDefend [Song et al.] Randomization [Xie et al.] Transformation [Guo et al.] LID [Ma et al.] Distributional Rob. [Sinha et al.] Reluplex [Katz et al.] One Pixel At. [Su et al.] ManiFool [Kanbak et al.] Unrestricted AEs [Song et al.] AT-GAN [Wang et al.] Natural AEs (GAN) [Zhao et al.] PATE [Papernot et al.] 検出 困難 弱い防御の 複合も弱い Label Smoothing [Warde-Farley et al.] Arms Race 開始 Statistical Det. [Li et al.] Adv. Retraining [Grosse et al.] [Gong et al.] Input PCA [Hendrycks et al.] Dim. Reduction [Bhagoji et al.] Dropout [Feinman et al.] Topological Det. [Corneanu et al.] 検出による 防御 勾配の難読化 による防御 TRADES [Zhang et al.] 防御⼿法攻撃⼿法 蒸留による 防御 [Carlini et al.][He et al.] ※スペースの関係で含められていない 重要論⽂があることに注意して下さい. ※公開時期はarXivへの公開を優先して プロットしています.
  31. 31. Introduction #31 Probable Robustness • 終わりが⾒えないArms Raceから抜けだしたい... -> 確実に頑健なモデルを構成するにはどうしたら良い︖ • ⼊⼒ごとにAEsによって出⼒が変化し得る領域を全て求めて, その領域全てで 正しく分類出来れば良い. ※ただし, 攻撃は 𝐿'-ノルムで制約された摂動を仮定. • 計算コストの問題 -> Convex outer bound を取って近似. [Wong et al., ICML 2018] Wong et al., “Provable defenses against adversarial examples via the convex outer adversarial polytope”, ICML 2018.
  32. 32. Introduction #32 Probable Robustness • 終わりが⾒えないArms Raceから抜けだしたい... -> 確実に頑健なモデルを構成するにはどうしたら良い︖ • ⼊⼒ごとにAEsによって出⼒が変化し得る領域を全て求めて, その領域全てで 正しく分類出来れば良い. ※ただし, 攻撃は 𝐿'-ノルムで制約された摂動を仮定. • 計算コストの問題 -> Convex outer bound を取って近似. [Wong et al., ICML 2018] Wong et al., “Provable defenses against adversarial examples via the convex outer adversarial polytope”, ICML 2018. しかし, ⼤きなモデルやデータセットへのスケールは難しい -> 結局ATが有望そう...(でも問題があった.)
  33. 33. #33 Adversarial Training (AT) 問題点 • 計算コストが⼤きい. -> PGD(イテレーション数20~40)を⽤いると学習のコストも20~40倍に... • 精度と頑健性のトレードオフ問題. -> 頑健性が向上すると, 通常の精度が低下する︖ (詳細は後述.) • 学習データに追加しなかったAEsにも頑健になっている︖ -> min max 最適化の内側のmaxがAEsの⽣成⼿法に依存してしまっている... -> 様々な⼿法で⽣成したAEsを全て学習データに追加すれば⼤丈夫か︖(詳細は後述.) [Goodfellow et al., 2015] [Madry et al., 2018] [Su et al., 2018] 攻撃・防御⼿法編
  34. 34. #34 Adversarial Training (AT) 問題点 • 計算コストが⼤きい. -> PGD(イテレーション数20~40)を⽤いると学習のコストも20~40倍に... • 精度と頑健性のトレードオフ問題. -> 頑健性が向上すると, 通常の精度が低下する︖ (詳細は後述.) • 学習データに追加しなかったAEsにも頑健になっている︖ -> min max 最適化の内側のmaxがAEsの⽣成⼿法に依存してしまっている... -> 様々な⼿法で⽣成したAEsを全て学習データに追加すれば⼤丈夫か︖(詳細は後述.) [Goodfellow et al., 2015] [Madry et al., 2018] [Su et al., 2018] 攻撃・防御⼿法編 この3つを解決出来ればATで良さそう.
  35. 35. #35 Adversarial Training (AT) 問題点 • 計算コストが⼤きい. -> PGD(イテレーション数20~40)を⽤いると学習のコストも20~40倍に... • 精度と頑健性のトレードオフ問題. -> 頑健性が向上すると, 通常の精度が低下する︖ (詳細は後述.) • 学習データに追加しなかったAEsにも頑健になっている︖ -> min max 最適化の内側のmaxがAEsの⽣成⼿法に依存してしまっている... -> 様々な⼿法で⽣成したAEsを全て学習データに追加すれば⼤丈夫か︖(詳細は後述.) [Goodfellow et al., 2015] [Madry et al., 2018] [Su et al., 2018] 攻撃・防御⼿法編
  36. 36. 攻撃・防御⼿法編(History of Arms Race) 2019 2014 2018 2015 DeepFool [Dezfooli et al.] 2016 2017 JSMA [Papernot et al.] FGSM [Goodfellow et al.] C&Wʼs At. [Carlini et al.] BIM [Kurakin et al.] L-BFGS [Szegedy et al.] 蒸留 敗北 勾配の難読化 敗北 AT [Goodfellow et al.] Defensive Distillation [Papernot et al.] Universal Perturbation [Dezfooli et al.] SparseFool [Modas et al.] YOPO [Zhang et al.] Free AT [Shafahi et al.] AT by PGD [Madry et al.] Obfuscated Gradients [Athalye et al.] Virtual AT [Miyato et al.] AEsの 存在が指摘 Certified Def. [Raghunathan et al.] Probable Rob. [Wong et al.] 3D AEs [Athalye et al.] Joint AT [Tramer et al.] Logit Pairing [Kannan et al.] mixup [Zhang et al.] GCE Loss [Chen et al.] COT [Chen et al.] Elastic [Xiao et al.] Fog,Snow,Gabor [Kang et al.] Cascade AT [Na et al.] Defense-GAN [Samangouei et al.] SAP [Dhillon et al.] PGD [Madry et al.] CURE [Dezfooli et al.] Feature Denoising [Xie et al.] PixelDefend [Song et al.] Randomization [Xie et al.] Transformation [Guo et al.] LID [Ma et al.] Distributional Rob. [Sinha et al.] Reluplex [Katz et al.] One Pixel At. [Su et al.] ManiFool [Kanbak et al.] Unrestricted AEs [Song et al.] AT-GAN [Wang et al.] Natural AEs (GAN) [Zhao et al.] PATE [Papernot et al.] 検出 困難 弱い防御の 複合も弱い Label Smoothing [Warde-Farley et al.] Arms Race 開始 Statistical Det. [Li et al.] Adv. Retraining [Grosse et al.] [Gong et al.] Input PCA [Hendrycks et al.] Dim. Reduction [Bhagoji et al.] Dropout [Feinman et al.] Topological Det. [Corneanu et al.] 検出による 防御 勾配の難読化 による防御 TRADES [Zhang et al.] 防御⼿法攻撃⼿法 蒸留による 防御 [Carlini et al.][He et al.] ※スペースの関係で含められていない 重要論⽂があることに注意して下さい. ※公開時期はarXivへの公開を優先して プロットしています.
  37. 37. • 勾配情報を再利⽤することで伝搬回数を削減してATを⾼速化. -> ポントリャーギンの最⼤原理を⽤いて, AEsは1層⽬とカップリングしていることを⽰して正当化. • MNISTとCIFAR-10をResNetで学習し, 4~5倍⾼速に同程度の結果を得た. #37 ATの⾼速化 (YOPO / Free AT) [Shafahi et al., 2019] [Zhang et al., 2019] Shafahi et al., “You Only Propagate Once: Accelerating Adversarial Training via Maximal Principle”, NurIPS 2019. Wide ResNet34, CIFAR-10 の結果 攻撃・防御⼿法編
  38. 38. 攻撃・防御⼿法編 #38 Adversarial Training (AT) 問題点 • 計算コストが⼤きい. -> PGD(イテレーション数20~40)を⽤いると学習のコストも20~40倍に... • 精度と頑健性のトレードオフ問題. -> 頑健性が向上すると, 通常の精度が低下する︖ (詳細は後述.) • 学習データに追加しなかったAEsにも頑健になっている︖ -> min max 最適化の内側のmaxがAEsの⽣成⼿法に依存してしまっている... -> 様々な⼿法で⽣成したAEsを全て学習データに追加すれば⼤丈夫か︖(詳細は後述.) [Goodfellow et al., 2015] [Madry et al., 2018] [Su et al., 2018]
  39. 39. 攻撃・防御⼿法編 #39 Adversarial Training (AT) 問題点 • 計算コストが⼤きい. -> PGD(イテレーション数20~40)を⽤いると学習のコストも20~40倍に... • 精度と頑健性のトレードオフ問題. -> 頑健性が向上すると, 通常の精度が低下する︖ (詳細は後述.) • 学習データに追加しなかったAEsにも頑健になっている︖ -> min max 最適化の内側のmaxがAEsの⽣成⼿法に依存してしまっている... -> 様々な⼿法で⽣成したAEsを全て学習データに追加すれば⼤丈夫か︖(詳細は後述.) [Goodfellow et al., 2015] [Madry et al., 2018] [Su et al., 2018] 残りの問題点は︖ -> 次の章でまた出てきます.
  40. 40. 攻撃・防御⼿法編 #40 この章のまとめ • 攻撃⼿法と防御⼿法は今だに“Arms Race”を続けている. • ⼀時は有効と思われた, 蒸留や勾配の難読化による防御は破られてしまった. -> 防御⼿法を考える際は, 提案する防御⼿法に特化した攻撃も想定する必要がある. • 現状ではATとその派⽣⼿法が有望そう. -> しかし, 問題点もある. • Probable / Certified Defenseは強⼒だが, 現状ではスケールが難しい.
  41. 41. Waseda University School of Applied Physics in Tokyo 原因・性質分析編 #41
  42. 42. 原因・性質分析編 #42 この章で話す内容 • 現在AEsの原因として有⼒な説である「特徴量原因説」について. • 前章で取り上げたATによって⽣じる「精度と頑健性のトレードオフ問題」の 原因について. • AEsに脆弱なモデルと頑健なモデルが“⾒ているもの“について.
  43. 43. #43 そもそもAEsに対する脆弱性は何故⽣じるのか︖ • モデルの⾮線形性︖ • モデルの線型性︖ • 学習データ数の不⾜︖ • モデルの⾼次元性︖ • 学習データの分布の複雑性︖ • TrainとTestの分布の差︖ • 精度と頑健性の両⽴は無理︖ • 獲得している特徴量が原因︖ 原因・性質分析編 [Szegedy et al., 2014] [Goodfellow et al. 2015] [Schmidt et al. 2018] [Gilmer et al. 2018] [Su et al. 2018] [Shafahi et al. 2019] [Tsipras et al. 2019] [Ilyas et al. 2019] [Zhang et al. 2019]
  44. 44. #44 そもそもAEsに対する脆弱性は何故⽣じるのか︖ • モデルの⾮線形性︖ • モデルの線型性︖ • 学習データ数の不⾜︖ • モデルの⾼次元性︖ • 学習データの分布の複雑性︖ • TrainとTestの分布の差︖ • 精度と頑健性の両⽴は無理︖ • 獲得している特徴量が原因︖ 原因・性質分析編 [Szegedy et al., 2014] [Goodfellow et al. 2015] [Schmidt et al. 2018] [Gilmer et al. 2018] [Su et al. 2018] [Shafahi et al. 2019] [Tsipras et al. 2019] [Ilyas et al. 2019] [Zhang et al. 2019]
  45. 45. 原因・性質分析編 #45 特徴量原因説 • モデルが獲得している特徴量の性質が脆弱性の原因とする説を提唱. -> 脆弱性はデータセット中に含まれる「分類に有効かつ脆弱」な特徴量を学習した結果. 特定のデータセットを⽤いて画像分類問題を教師あり学習する場合, ①「分類に有効」かつ「摂動に頑健」な特徴量 (robust feature) ②「分類に有効」かつ「摂動に脆弱」な特徴量 (non-robust feature) の両⽅を学習した結果として脆弱になると説明. -> 通常の学習では精度を最⼤化出来れば良く, ①を優先して獲得する動機は無い. • ①や②のような特徴量の存在を実験から確認. 有効 頑健 特徴量 [Ilyas et al., 2019] Ilyas et al., “Adversarial Examples Are Not Bugs, They Are Features”, NeurIPS 2019. 論⽂中で仮定されている特徴量の分類
  46. 46. 原因・性質分析編 実験︓「分類に有効」かつ「摂動に脆弱」な特徴量の存在の確認 • Non-robust な特徴量のみを学習出来るデータセットを作成し, ResNet-50を学習. -> 通常のデータセットで中程度の精度達成. (CIFAR-10で80%以上の Top1 Acc.) Ilyas et al., “Adversarial Examples Are Not Bugs, They Are Features”, NeurIPS 2019. Robust: Pig Non-Robust: Pig 通常のデータセット Pig Robust: Pig Non-Robust: Cat Non-robust データセット PGDでCat Classへ Pig 特徴量原因説 [Ilyas et al., 2019] 通常のデータセットでの精度(%)
  47. 47. 原因・性質分析編 実験︓「分類に有効」かつ「摂動に脆弱」な特徴量の存在の確認 • Non-robust な特徴量のみを学習出来るデータセットを作成し, ResNet-50を学習. -> 通常のデータセットで中程度の精度達成. (CIFAR-10で80%以上の Top1 Acc.) Ilyas et al., “Adversarial Examples Are Not Bugs, They Are Features”, NeurIPS 2019. Robust: Pig Non-Robust: Pig 通常のデータセット Pig Robust: Pig Non-Robust: Cat Non-robust データセット PGDでCat Classへ Pig 特徴量原因説 [Ilyas et al., 2019] 通常のデータセットでの精度(%)
  48. 48. 原因・性質分析編 実験︓「分類に有効」かつ「摂動に脆弱」な特徴量の存在の確認 • Non-robust な特徴量のみを学習出来るデータセットを作成し, ResNet-50を学習. -> 通常のデータセットで中程度の精度達成. (CIFAR-10で80%以上の Top1 Acc.) Ilyas et al., “Adversarial Examples Are Not Bugs, They Are Features”, NeurIPS 2019. Robust: Pig Non-Robust: Pig 通常のデータセット Pig Robust: Pig Non-Robust: Cat Non-robust データセット PGDでCat Classへ Cat 特徴量原因説 [Ilyas et al., 2019] 通常のデータセットでの精度(%)
  49. 49. 原因・性質分析編 実験︓「分類に有効」かつ「摂動に脆弱」な特徴量の存在の確認 • Non-robust な特徴量のみを学習出来るデータセットを作成し, ResNet-50を学習. -> 通常のデータセットで中程度の精度達成. (CIFAR-10で80%以上の Top1 Acc.) Ilyas et al., “Adversarial Examples Are Not Bugs, They Are Features”, NeurIPS 2019. Robust: Pig Non-Robust: Pig 通常のデータセット Pig Robust: Pig Non-Robust: Cat Non-robust データセット PGDでCat Classへ Cat 特徴量原因説 [Ilyas et al., 2019] 通常のデータセットでの精度(%)
  50. 50. 原因・性質分析編 #50 Not Bugs, They Are Features • AEsの転移性の⾼さについても⼀定の説明が可能. -> 複数のモデルが, 同⼀の「有効かつ脆弱」な特徴量を学習してるため︖ • 脆弱な特徴量を獲得し易いモデルほど, 転移攻撃の成功率も⾼いことを確認. -> 構造による制約で頑健な特徴量を優先的に獲得するように出来る可能性︖ • VGGは他のアーキテクチャとは性質が異なる︖ -> 他の論⽂でも⽰唆 -> Style Transfer との関係︖ [Ilyas et al., 2019] Ilyas et al., “Adversarial Examples Are Not Bugs, They Are Features”, NeurIPS 2019. Non-robust な特徴量の獲得のし易さ 転移攻撃の成功率 [Su et al., 2018] [Nakano, 2019] [Brendel et al., 2019]
  51. 51. 原因・性質分析編 #51 Not Bugs, They Are Features • 「有効かつ脆弱」な特徴量は何処から⽣じる︖ -> データセットと我々が観測する実世界との不整合から. [Ilyas et al., 2019] Ilyas et al., “Adversarial Examples Are Not Bugs, They Are Features”, NeurIPS 2019. データセットのバイアス問題を指摘 背景のみで⾏動認識 [Ilyas et al., 2019] [He et al., 2016]
  52. 52. 攻撃・防御⼿法編 (再訪) #52 Adversarial Training (AT) 問題点 • 計算コストが⼤きい. -> PGD(イテレーション数20~40)を⽤いると学習のコストも20~40倍に... • 精度と頑健性のトレードオフ問題. -> 頑健性が向上すると, 通常の精度が低下する︖ • 学習データに追加しなかったAEsにも頑健になっている︖ -> min max 最適化の内側のmaxがAEsの⽣成⼿法に依存してしまっている... -> 様々な⼿法で⽣成したAEsを全て学習データに追加すれば⼤丈夫か︖(詳細は後述.) [Goodfellow et al., 2015] [Madry et al., 2018] [Su et al., 2018]
  53. 53. 攻撃・防御⼿法編 (再訪) #53 Adversarial Training (AT) 問題点 • 計算コストが⼤きい. -> PGD(イテレーション数20~40)を⽤いると学習のコストも20~40倍に... • 精度と頑健性のトレードオフ問題. -> 頑健性が向上すると, 通常の精度が低下する︖ ->「有効かつ脆弱」な特徴量が使えなくなった結果. • 学習データに追加しなかったAEsにも頑健になっている︖ -> min max 最適化の内側のmaxがAEsの⽣成⼿法に依存してしまっている... -> 様々な⼿法で⽣成したAEsを全て学習データに追加すれば⼤丈夫か︖(詳細は後述.) [Goodfellow et al., 2015] [Madry et al., 2018] [Tsipras et al., 2019] [Su et al., 2018]
  54. 54. 攻撃・防御⼿法編 (再訪) #54 Adversarial Training (AT) 問題点 • 計算コストが⼤きい. -> PGD(イテレーション数20~40)を⽤いると学習のコストも20~40倍に... • 精度と頑健性のトレードオフ問題. -> 頑健性が向上すると, 通常の精度が低下する︖ ->「有効かつ脆弱」な特徴量が使えなくなった結果. • 学習データに追加しなかったAEsにも頑健になっている︖ -> min max 最適化の内側のmaxがAEsの⽣成⼿法に依存してしまっている... -> 様々な⼿法で⽣成したAEsを全て学習データに追加すれば⼤丈夫か︖(詳細は後述.) [Goodfellow et al., 2015] [Madry et al., 2018] [Tsipras et al., 2019] [Su et al., 2018] 原因分かったのは良いが, 精度下がるのは嬉しくない... -> 何か他に朗報はないのか︖そもそも,「頑健かつ有効」な特徴量ってどんな特徴量︖
  55. 55. 原因・性質分析編 #55 脆弱な(≈通常の学習をした)モデルが”⾒ているもの” テクスチャへの依存 局所的な特徴への依存[Geirhos et al., 2019] [Brendel et al., 2019] • ImageNetで学習したCNNは形状より, テクスチャ情報に⼤きく依存した意思 決定をしていることを確認. • 需要野が⼩さく局所的な特徴しか⾒れない ResNetの変異型 (BagNet) と元のResNetの 類似性の⾼さから局所特徴への依存を指摘. Geirhos et al., “ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness”, ICLR 2019. Brendel et al., “Approximating CNNs with Bag-of-local-Features models works surprisingly well on ImageNet”, ICLR 2019. tabby cat grey fox Siamese cat 71.1% 17.3% 3.3% 63.9% 26.4% 9.6% Indian elephant indri black swan 画像中でどの程度まで離れた矩形領域が特徴量に影響するか
  56. 56. 原因・性質分析編 #56 脆弱な(≈通常の学習をした)モデルが”⾒ている”もの テクスチャへの依存 局所的な特徴への依存[Geirhos et al., 2019] [Brendel et al., 2019] • ImageNetで学習したCNNは形状より, テクスチャ情報に⼤きく依存した意思 決定をしていることを確認. • 需要野が⼩さく局所的な特徴しか⾒れない ResNetの変異型 (BagNet) と元のResNetの 類似性の⾼さから局所特徴への依存を指摘. Geirhos et al., “ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness”, ICLR 2019. Brendel et al., “Approximating CNNs with Bag-of-local-Features models works surprisingly well on ImageNet”, ICLR 2019. tabby cat grey fox Siamese cat 71.1% 17.3% 3.3% 63.9% 26.4% 9.6% Indian elephant indri black swan 画像中でどの程度まで離れた矩形領域が特徴量に影響するか ⼈間とは異なる情報に基づいて意思決定をしている. -> モデルの決定の解釈が⼈間には難しい...
  57. 57. 原因・性質分析編 頑健な(≈ATをした)モデルが”⾒ているもの” 形状を捉えやすい︖ ⼤域特徴を捉えやすい︖[Tsipras et al., 2019] [Itazuri et al., 2019] [Brendel et al., 2019] [Itazuri et al., 2019] • 獲得される特徴量, sensitivity map の両⽅ でエッジのような形状と関係のある部位に 反応することを確認. • 画像の⼤域構造を破壊することによる精度の低下 速度の⽐較から, より⼤きな構造を捉えていること を確認. Tsipras et al., “Robustness May Be at Odds with Accuracy”, ICLR 2019. Brendel et al., “Interpreting Adversarially Trained Convolutional Neural Networks”, ICML 2019. Itazuri et al., “What Do Adversarially Robust Models Look At?”, arXiv 2019. ⼊⼒画像 Sensitivity map の⽐較 (ResNet-101) 通常学習 AT Activation maximization による特徴量の⽐較 (ResNet-50) 通常学習 AT ⼤域構造を破壊した画像の精度⽐較 (ResNet-18)
  58. 58. 原因・性質分析編 頑健な(≈ATをした)モデルが”⾒ている”もの 形状を捉えやすい︖ ⼤域特徴を捉えやすい︖[Tsipras et al., 2019] [Itazuri et al., 2019] [Brendel et al., 2019] [Itazuri et al., 2019] • 獲得される特徴量, sensitivity map の両⽅ でエッジのような形状と関係のある部位に 反応することを確認. • 画像の⼤域構造を破壊することによる精度の低下 速度の⽐較から, より⼤きな構造を捉えていること を確認. Tsipras et al., “Robustness May Be at Odds with Accuracy”, ICLR 2019. Brendel et al., “Interpreting Adversarially Trained Convolutional Neural Networks”, ICML 2019. Itazuri et al., “What Do Adversarially Robust Models Look At?”, arXiv 2019. ⼊⼒画像 Sensitivity map の⽐較 (ResNet-101) 通常学習 AT Activation maximization による特徴量の⽐較 (ResNet-50) 通常学習 AT ⼤域構造を破壊した画像の精度⽐較 (ResNet-18) ATすることでより human-aligned な特徴量が得られる -> モデルの決定の解釈性も向上(︖)
  59. 59. #59 この章のまとめ • 「特徴量原因説」が現状で最も有⼒なAEsの説明の1つ. -> AEsの転移性についても⼀定の説明が可能. • ATによる通常の精度と頑健性のトレードオフは, 「有効だが脆弱」な特徴量 が使えなくなった結果. • ATによって human-aligned な特徴量を獲得可能. -> モデルの解釈可能性が向上. 原因・性質分析編
  60. 60. Waseda University School of Applied Physics in Tokyo 最新動向・今後の課題 #60
  61. 61. 最新動向・今後の課題 • 頑健な特徴量の画像⽣成タスク (⽣成, 超解像, etc.) における有⽤性を⽰した. -> ATによって獲得される human-aligned な特徴量の他タスクへの応⽤可能性を⽰唆. • 6つのタスクにおいて, ATされた分類器が獲得した同⼀の特徴量を使⽤. -> 頑健な特徴量の汎⽤性の⾼さを⽰唆. 画像⽣成タスクへの応⽤ [Santurkar et al., 2019] 各タスクでの⽣成結果の例 画像⽣成タスクにおける評価 (Inception Score) Santurkar et al., “Image Synthesis with a Single (Robust) Classifier”, arXiv 2019. ※ImageNetのISの値でまさかのBigGANを凌駕.
  62. 62. 最新動向・今後の課題 #62 Style Transfer への応⽤ [Nakano, 2019] Nakano, “Adversarially Robust Neural Style Transfer”, Distill 2019. • Style TransferがVGG以外のモデルで上⼿くいかない問題を, ATしたモデル を使⽤することで回避に成功. -> しかし, 根本的な原因の解明にはまだ⾄っていない. 通常のResNet-50 ATしたResNet-50Content 画像 Style 画像
  63. 63. [Tsipras et al., 2019] [Su et al., 2018] 攻撃・防御⼿法編 (再々訪) #63 Adversarial Training (AT) 問題点 • 計算コストが⼤きい. -> PGD(イテレーション数20~40)を⽤いると学習のコストも20~40倍に... • 精度と頑健性のトレードオフ問題. -> 頑健性が向上すると, 通常の精度が低下する︖ ->「有効かつ脆弱」な特徴量が使えなくなった結果. • 学習データに追加しなかったAEsにも頑健になっている︖ -> min max 最適化の内側のmaxがAEsの⽣成⼿法に依存してしまっている... -> 様々な⼿法で⽣成したAEsを全て学習データに追加すれば⼤丈夫か︖(詳細は後述.) [Goodfellow et al., 2015] [Madry et al., 2018]
  64. 64. 最新動向・今後の課題 • 学習データに追加しなかったAEsにも頑健になっている? -> ATする際の 𝜺 の⼤きさによってはむしろより脆弱になってしまう場合もある... • では, 様々な⼿法で⽣成したAEsを全て学習データに追加すれば⼤丈夫? -> 2つの異なるAEsに対するATでさえ, overfitting してしまう... • 幅広い種類・摂動幅の攻撃を評価した総合的な頑健性の評価指標を提案. #64 UAR (Unforeseen Attack Robustness) [Kang et al., 2019] Kang et al., “Testing Robustness Against Unforeseen Adversaries”, arXiv 2019. 𝑙HノルムでのATは摂動幅の⼤きさによっては 𝑙[ノルムAEsに対する脆弱性を⽣む. ATが他の攻撃⼿法に対する頑健性に与える影響
  65. 65. 最新動向・今後の課題 • 学習データに追加しなかったAEsにも頑健になっている? -> ATする際の 𝜺 の⼤きさによってはむしろより脆弱になってしまう場合もある... • では, 様々な⼿法で⽣成したAEsを全て学習データに追加すれば⼤丈夫? -> 2つの異なるAEsに対するATでさえ, overfitting してしまう... • 幅広い種類・摂動幅の攻撃を評価した総合的な頑健性の評価指標を提案. #65 UAR (Unforeseen Attack Robustness) [Kang et al., 2019] Kang et al., “Testing Robustness Against Unforeseen Adversaries”, arXiv 2019. 𝑙HノルムでのATは摂動幅の⼤きさによっては 𝑙[ノルムAEsに対する脆弱性を⽣む. ATが他の攻撃⼿法に対する頑健性に与える影響 現状のATの限界を⽰唆. -> ATの改良 or 代替となる防御の研究が必要そう.
  66. 66. 最新動向・今後の課題 現状の多くの防御⼿法は問題の単純化の為に仮定をおいていて実⽤との間に 乖離がある. 特に, 以下の2つ仮定は今後取り除かれていくと考えられる. 摂動の上限値の仮定 • 敵対者が 𝐿'-ノルムで 𝜀 以下の摂動しか加えないことを仮定している. -> 実際は, 任意の画像を⼊⼒出来る場合が多い. ⼊⼒のソースとして I.I.D.を仮定 • ⼊⼒として I.I.D.からサンプルされたデータ(に敵対者が摂動を加えたもの) を仮定している. -> 実際は, 誤認識を起こせるAEsが1つあればそれを繰り返し⼊⼒される可能性がある. #66 今後の課題 (より現実的な設定へ) [Kang et al., 2019]
  67. 67. 最新動向・今後の課題 • 攻撃⼿法と防御⼿法のArms Raceは現在も続いている. -> 現状では, ATやProbable Defenseなどが有効な防御⼿法 -> 今後はより現実的な設定での防御も考えている必要がある. ※実⽤に耐え得るレベルでの頑健性の達成にはまだ研究が必要. • 「特徴量原因説」は現状で最有⼒な説明の1つ. -> 転移性の⾼さや, ATの精度と頑健性のトレードオフなどを説明可能. • AEsの原因や性質に関する研究が進んだことにより, 画像⽣成などの他タスク への応⽤研究が⾏われてきている. #67 まとめ
  68. 68. ご静聴ありがとうございました︕

×