SlideShare a Scribd company logo
NeurIPS2018 論文読み会
"Adversarial vulnerability for any classifier"
Masanari Kimura
Ridge-i Inc., @machinery81
December 21, 2018
1 / 33
ABOUT
ABOUT
• Twitter やってます
• @machinery81
• C++,離散構造,生成モデル,表現学習が好きです
3 / 33
A TRAVEL NOTE OF 2018
4 / 33
ABSTRACT
ABSTRACT
Adversarial vulnerability for any classifier
• NeurIPS2018 採択論文 [1]
• Adversarial Examples についての論文
• 任意の分類器が達成可能な,Adversarial Examples に対す
る robustness のバウンドを導出した
6 / 33
ADVERSARIAL ATTACKS
WHAT IS ADVERSARIAL ATTACK?
8 / 33
• Classifier に対する攻撃手法 [2]
• 本来なら正しく分類できた画像に目視できないノイズをの
せることで誤分類を誘発する
THREAT OF ADVERSARIAL ATTACKS
e.g.
• 自動運転車に対する標識の誤検出
• 顔認証システムへの攻撃
...
...
DNN の現実世界への適用において重大な課題.
9 / 33
ADVERSARIAL ATTACKS AND DEFENCES
• 攻撃手法と防御手法のいたちごっこ
• 現時点で,完璧な防御手法は提案されていない
Methods Year
Szegedy et al.[2] 2013
Goodfellow et al.[3] 2014
Papernot et al.[4] 2016
Dong et al.[5] 2017
Table 1: Attack Methods
Methods Year
Papernot et al.[6] 2015
Papernot et al.[7] 2016
Tramer et al.[8] 2017
Athalye et al.[9] 2018
Table 2: Defense Methods
10 / 33
ADVERSARIAL
VULNERABILITY FOR ANY
CLASSIFIER
ADVERSARIAL VULNERABILITY FOR ANY CLASSIFIER
主張: 任意の分類器は Adversarial Attack に対する脆弱性をもつ
• 分類器が達成可能な Adversarial Attack に対するロバスト
性のバウンドを示す
• 異なる複数の分類器の間で使いまわせる Adversarial
Examples の存在を証明する
12 / 33
ASSUMPTION
データは滑らかな生成モデルからマッピングされると仮定.
• 図の例では,正規分布からサンプリングされた z を円上に
マッピング
• 分類器 f はマッピングされたデータに対して分類面を引く
(red or blue)
13 / 33
SMOOTHNESS OF GENERATOR
生成モデルの滑らかさとは?
• 以下を満たすとき g(z) は十分滑らかであるとする
• 関数内の任意の 2 点間の値が ω を超えないことを意味
∀z, z′
∈ Z, ∥g(z) − g(z′
)∥ ≤ ω(∥z − z′
∥2) (1)
14 / 33
DEFINITION OF ROBUSTNESS
論文では,ロバスト性についての二つの定義を導入している.
In-distribution robustness:
画像の潜在空間にノイズが与えられると仮定.
rin(x) = min
r∈Z
∥g(z + r) − x∥ s.t. f(g(z + r)) ̸= f(x) (2)
Unconstrained robustness:
画像そのものにノイズが与えられると仮定.
runc(x) = min
r∈χ
∥r∥ s.t. f(x + r) ̸= f(x) (3)
r は与えるノイズ.直感的に,runc(x) ≤ rin(x).
15 / 33
DEFINITION OF ROBUSTNESS
どちらも,” 分類器が誤分類する最小のノイズ” を定義している.
• ノイズが十分大きければ分類器が誤分類するのは当たり前
• ノイズが小さすぎると誤分類させるのは難しい
• 分類器が誤分類するギリギリのラインをロバスト性と定義
16 / 33
UPPER BOUNDS ON ROBUSTNESS
この論文のやりたいことは?
...
Adversarial Example に対する robustness のバウンドを求める
• 任意の分類器が常に脆弱性を持つことを示せる
• 我々が目指すべきロバスト性のベースラインがわかる
runc(x) ≤ rin(x) から,
• in-distribution robustness rin(x) の存在を示せれば,一般的
に使われている runc(x) の上界の存在も示せる
17 / 33
THEOREM 1.
IN-DISTRIBUTION
ROBUSTNESS
THEOREM 1. IN-DISTRIBUTION ROBUSTNESS
任意の分類器 f : Rm → {1, . . . , K} について,η より robustness
が小さいデータが存在する割合は,
P(rin(x) ≤ η) ≥
K∑
i=1
(Φ(a̸=i + ω−1
(η)) − Φ(a̸=i)) (4)
ここで,Φ は正規分布の累積分布関数.クラス分布が
imbalanced でないとすると,
P(rin(x) ≤ η) ≥ 1 −
√
π
2
e−ω−1(η)2/2
(5)
19 / 33
THEOREM 1. IN-DISTRIBUTION ROBUSTNESS
式 (4) について,g がリプシッツ連続(≒ 滑らか)とすると,
連続率 ω−1(η) = η/L.
P(rin(x) ≤ η) ≥ 1 −
√
π
2
e−(η/L)2/2
(6)
η ∝ L で,リプシッツ定数 L は関数の変化に対応するので,
• g の傾きが小さいほど robustness は小さい
• 直感的には,データのバリエーションが多いほど
robustness は小さくなる
20 / 33
THEOREM 1. IN-DISTRIBUTION ROBUSTNESS
クラス数,次元数と robustness との関係.
• クラス数が少ないほど robustness は大きい
• データの次元数が小さいほど robustness は大きい
21 / 33
THEOREM 2.
UNCONSTRAINED
ROBUSTNESS
THEOREM 2. UNCONSTRAINED ROBUSTNESS
˜f を以下のように定義する:
˜f(x) = f(g(z∗
)) with z∗
= argminz∥g(z) − x∥ (7)
f, g がどちらも同じ robustness を持つと仮定すると,
˜f についての robustness は,runc(x) ≥ 1
2rin(x)
23 / 33
THEOREM 3.
TRANSFERABILITY OF
PERTURBATIONS
THEOREM 3. TRANSFERABILITY OF PERTURBATIONS
• 異なるモデル間で使いまわせる Adversarial Examples につ
いての既存研究もいくつか存在
• データが滑らかな生成モデルがらマッピングされると仮定
した時,こうした Adversarial Examples の存在は理論的に
証明できる
25 / 33
THEOREM 3. TRANSFERABILITY OF PERTURBATIONS
• f, h をそれぞれ異なる分類器とする
• P(f ◦ g(z) ̸= h ◦ g(z)) ≤ δ と仮定すると,
P
{
∃v : ∥v∥2 ≤ η and
f(g(z) + v) ̸= f(g(z))
h(g(z) + v) ̸= h(g(z))
}
≥ 1 −
√
π
2
e−ω−1(η)2/2
− 2δ = 1 − ϵ
言い換えると,f と h を両方騙せるノイズ v が存在する確率は,
1 − ϵ より大きい.
ϵ は” 分類器を騙せないリスク” を意味し,十分小さな値になる.
26 / 33
EXPERIMENTAL
EVALUATION
EXPERIMENTAL EVALUATION
• SVHN データセットにおける実験.
• 分類器は ResNet-18
• 左が元画像,右が Adversarial Example
Figure 1: Illustration of generated images.
28 / 33
EXPERIMENTAL EVALUATION
• SVHN データセットにおける実験.
• 既存のネットワークアーキテクチャについて robustness
を評価.
• runc(x) ≤ rin(x) を満たしている
Figure 2: Experiments on SVHN dataset.
29 / 33
EXPERIMENTAL EVALUATION
• CIFAR-10 データセットにおける実験.
• 既存のネットワークアーキテクチャについて robustness
を評価.
• runc(x) ≤ rin(x) を満たしている
Figure 3: Experiments on CIFAR-10 (same setting as in Table 1).
30 / 33
CONCLUSION & DISCUSSION
• 分類器には必ず Adversarial Attack に対する脆弱性が存在
することを証明
• 全ての分類器が超えられない,Adversarial Attacks に対す
る robustness のベースラインを導出
31 / 33
REFERENCES
REFERENCES
Alhussein Fawzi, Hamza Fawzi, and Omar Fawzi.
Adversarial vulnerability for any classifier.
In S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, and R. Garnett, editors, Advances in Neural
Information Processing Systems 31, pp. 1186–1195. Curran Associates, Inc., 2018.
Christian Szegedy, Wojciech Zaremba, Ilya Sutskever, Joan Bruna, Dumitru Erhan, Ian Goodfellow, and Rob
Fergus.
Intriguing properties of neural networks.
arXiv preprint arXiv:1312.6199, 2013.
Ian J Goodfellow, Jonathon Shlens, and Christian Szegedy.
Explaining and harnessing adversarial examples (2014).
arXiv preprint arXiv:1412.6572.
Nicolas Papernot, Patrick McDaniel, Somesh Jha, Matt Fredrikson, Z Berkay Celik, and Ananthram Swami.
The limitations of deep learning in adversarial settings.
In Security and Privacy (EuroS&P), 2016 IEEE European Symposium on, pp. 372–387. IEEE, 2016.
Yinpeng Dong, Fangzhou Liao, Tianyu Pang, Hang Su, Xiaolin Hu, Jianguo Li, and Jun Zhu.
Boosting adversarial attacks with momentum.
arXiv preprint arXiv:1710.06081, 2017.
Nicolas Papernot, Patrick McDaniel, Xi Wu, Somesh Jha, and Ananthram Swami.
Distillation as a defense to adversarial perturbations against deep neural networks.
In 2016 IEEE Symposium on Security and Privacy (SP), pp. 582–597. IEEE, 2016.
Nicolas Papernot, Patrick McDaniel, Arunesh Sinha, and Michael Wellman.
Towards the science of security and privacy in machine learning.
arXiv preprint arXiv:1611.03814, 2016.
Florian Tramèr, Alexey Kurakin, Nicolas Papernot, Ian Goodfellow, Dan Boneh, and Patrick McDaniel.
Ensemble adversarial training: Attacks and defenses.
33 / 33

More Related Content

Recently uploaded

キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援しますキンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
Takayuki Nakayama
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
t m
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
Toru Tamaki
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
Toru Tamaki
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
chiefujita1
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
0207sukipio
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
Matsushita Laboratory
 

Recently uploaded (9)

キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援しますキンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
 

Featured

Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Christy Abraham Joy
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
Vit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
MindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
GetSmarter
 

Featured (20)

Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 

[NeurIPS2018論文読み会] Adversarial vulnerability for any classifier

  • 1. NeurIPS2018 論文読み会 "Adversarial vulnerability for any classifier" Masanari Kimura Ridge-i Inc., @machinery81 December 21, 2018 1 / 33
  • 3. ABOUT • Twitter やってます • @machinery81 • C++,離散構造,生成モデル,表現学習が好きです 3 / 33
  • 4. A TRAVEL NOTE OF 2018 4 / 33
  • 6. ABSTRACT Adversarial vulnerability for any classifier • NeurIPS2018 採択論文 [1] • Adversarial Examples についての論文 • 任意の分類器が達成可能な,Adversarial Examples に対す る robustness のバウンドを導出した 6 / 33
  • 8. WHAT IS ADVERSARIAL ATTACK? 8 / 33 • Classifier に対する攻撃手法 [2] • 本来なら正しく分類できた画像に目視できないノイズをの せることで誤分類を誘発する
  • 9. THREAT OF ADVERSARIAL ATTACKS e.g. • 自動運転車に対する標識の誤検出 • 顔認証システムへの攻撃 ... ... DNN の現実世界への適用において重大な課題. 9 / 33
  • 10. ADVERSARIAL ATTACKS AND DEFENCES • 攻撃手法と防御手法のいたちごっこ • 現時点で,完璧な防御手法は提案されていない Methods Year Szegedy et al.[2] 2013 Goodfellow et al.[3] 2014 Papernot et al.[4] 2016 Dong et al.[5] 2017 Table 1: Attack Methods Methods Year Papernot et al.[6] 2015 Papernot et al.[7] 2016 Tramer et al.[8] 2017 Athalye et al.[9] 2018 Table 2: Defense Methods 10 / 33
  • 12. ADVERSARIAL VULNERABILITY FOR ANY CLASSIFIER 主張: 任意の分類器は Adversarial Attack に対する脆弱性をもつ • 分類器が達成可能な Adversarial Attack に対するロバスト 性のバウンドを示す • 異なる複数の分類器の間で使いまわせる Adversarial Examples の存在を証明する 12 / 33
  • 13. ASSUMPTION データは滑らかな生成モデルからマッピングされると仮定. • 図の例では,正規分布からサンプリングされた z を円上に マッピング • 分類器 f はマッピングされたデータに対して分類面を引く (red or blue) 13 / 33
  • 14. SMOOTHNESS OF GENERATOR 生成モデルの滑らかさとは? • 以下を満たすとき g(z) は十分滑らかであるとする • 関数内の任意の 2 点間の値が ω を超えないことを意味 ∀z, z′ ∈ Z, ∥g(z) − g(z′ )∥ ≤ ω(∥z − z′ ∥2) (1) 14 / 33
  • 15. DEFINITION OF ROBUSTNESS 論文では,ロバスト性についての二つの定義を導入している. In-distribution robustness: 画像の潜在空間にノイズが与えられると仮定. rin(x) = min r∈Z ∥g(z + r) − x∥ s.t. f(g(z + r)) ̸= f(x) (2) Unconstrained robustness: 画像そのものにノイズが与えられると仮定. runc(x) = min r∈χ ∥r∥ s.t. f(x + r) ̸= f(x) (3) r は与えるノイズ.直感的に,runc(x) ≤ rin(x). 15 / 33
  • 16. DEFINITION OF ROBUSTNESS どちらも,” 分類器が誤分類する最小のノイズ” を定義している. • ノイズが十分大きければ分類器が誤分類するのは当たり前 • ノイズが小さすぎると誤分類させるのは難しい • 分類器が誤分類するギリギリのラインをロバスト性と定義 16 / 33
  • 17. UPPER BOUNDS ON ROBUSTNESS この論文のやりたいことは? ... Adversarial Example に対する robustness のバウンドを求める • 任意の分類器が常に脆弱性を持つことを示せる • 我々が目指すべきロバスト性のベースラインがわかる runc(x) ≤ rin(x) から, • in-distribution robustness rin(x) の存在を示せれば,一般的 に使われている runc(x) の上界の存在も示せる 17 / 33
  • 19. THEOREM 1. IN-DISTRIBUTION ROBUSTNESS 任意の分類器 f : Rm → {1, . . . , K} について,η より robustness が小さいデータが存在する割合は, P(rin(x) ≤ η) ≥ K∑ i=1 (Φ(a̸=i + ω−1 (η)) − Φ(a̸=i)) (4) ここで,Φ は正規分布の累積分布関数.クラス分布が imbalanced でないとすると, P(rin(x) ≤ η) ≥ 1 − √ π 2 e−ω−1(η)2/2 (5) 19 / 33
  • 20. THEOREM 1. IN-DISTRIBUTION ROBUSTNESS 式 (4) について,g がリプシッツ連続(≒ 滑らか)とすると, 連続率 ω−1(η) = η/L. P(rin(x) ≤ η) ≥ 1 − √ π 2 e−(η/L)2/2 (6) η ∝ L で,リプシッツ定数 L は関数の変化に対応するので, • g の傾きが小さいほど robustness は小さい • 直感的には,データのバリエーションが多いほど robustness は小さくなる 20 / 33
  • 21. THEOREM 1. IN-DISTRIBUTION ROBUSTNESS クラス数,次元数と robustness との関係. • クラス数が少ないほど robustness は大きい • データの次元数が小さいほど robustness は大きい 21 / 33
  • 23. THEOREM 2. UNCONSTRAINED ROBUSTNESS ˜f を以下のように定義する: ˜f(x) = f(g(z∗ )) with z∗ = argminz∥g(z) − x∥ (7) f, g がどちらも同じ robustness を持つと仮定すると, ˜f についての robustness は,runc(x) ≥ 1 2rin(x) 23 / 33
  • 25. THEOREM 3. TRANSFERABILITY OF PERTURBATIONS • 異なるモデル間で使いまわせる Adversarial Examples につ いての既存研究もいくつか存在 • データが滑らかな生成モデルがらマッピングされると仮定 した時,こうした Adversarial Examples の存在は理論的に 証明できる 25 / 33
  • 26. THEOREM 3. TRANSFERABILITY OF PERTURBATIONS • f, h をそれぞれ異なる分類器とする • P(f ◦ g(z) ̸= h ◦ g(z)) ≤ δ と仮定すると, P { ∃v : ∥v∥2 ≤ η and f(g(z) + v) ̸= f(g(z)) h(g(z) + v) ̸= h(g(z)) } ≥ 1 − √ π 2 e−ω−1(η)2/2 − 2δ = 1 − ϵ 言い換えると,f と h を両方騙せるノイズ v が存在する確率は, 1 − ϵ より大きい. ϵ は” 分類器を騙せないリスク” を意味し,十分小さな値になる. 26 / 33
  • 28. EXPERIMENTAL EVALUATION • SVHN データセットにおける実験. • 分類器は ResNet-18 • 左が元画像,右が Adversarial Example Figure 1: Illustration of generated images. 28 / 33
  • 29. EXPERIMENTAL EVALUATION • SVHN データセットにおける実験. • 既存のネットワークアーキテクチャについて robustness を評価. • runc(x) ≤ rin(x) を満たしている Figure 2: Experiments on SVHN dataset. 29 / 33
  • 30. EXPERIMENTAL EVALUATION • CIFAR-10 データセットにおける実験. • 既存のネットワークアーキテクチャについて robustness を評価. • runc(x) ≤ rin(x) を満たしている Figure 3: Experiments on CIFAR-10 (same setting as in Table 1). 30 / 33
  • 31. CONCLUSION & DISCUSSION • 分類器には必ず Adversarial Attack に対する脆弱性が存在 することを証明 • 全ての分類器が超えられない,Adversarial Attacks に対す る robustness のベースラインを導出 31 / 33
  • 33. REFERENCES Alhussein Fawzi, Hamza Fawzi, and Omar Fawzi. Adversarial vulnerability for any classifier. In S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, and R. Garnett, editors, Advances in Neural Information Processing Systems 31, pp. 1186–1195. Curran Associates, Inc., 2018. Christian Szegedy, Wojciech Zaremba, Ilya Sutskever, Joan Bruna, Dumitru Erhan, Ian Goodfellow, and Rob Fergus. Intriguing properties of neural networks. arXiv preprint arXiv:1312.6199, 2013. Ian J Goodfellow, Jonathon Shlens, and Christian Szegedy. Explaining and harnessing adversarial examples (2014). arXiv preprint arXiv:1412.6572. Nicolas Papernot, Patrick McDaniel, Somesh Jha, Matt Fredrikson, Z Berkay Celik, and Ananthram Swami. The limitations of deep learning in adversarial settings. In Security and Privacy (EuroS&P), 2016 IEEE European Symposium on, pp. 372–387. IEEE, 2016. Yinpeng Dong, Fangzhou Liao, Tianyu Pang, Hang Su, Xiaolin Hu, Jianguo Li, and Jun Zhu. Boosting adversarial attacks with momentum. arXiv preprint arXiv:1710.06081, 2017. Nicolas Papernot, Patrick McDaniel, Xi Wu, Somesh Jha, and Ananthram Swami. Distillation as a defense to adversarial perturbations against deep neural networks. In 2016 IEEE Symposium on Security and Privacy (SP), pp. 582–597. IEEE, 2016. Nicolas Papernot, Patrick McDaniel, Arunesh Sinha, and Michael Wellman. Towards the science of security and privacy in machine learning. arXiv preprint arXiv:1611.03814, 2016. Florian Tramèr, Alexey Kurakin, Nicolas Papernot, Ian Goodfellow, Dan Boneh, and Patrick McDaniel. Ensemble adversarial training: Attacks and defenses. 33 / 33