SlideShare a Scribd company logo
1 of 27
Download to read offline
EXPLAINING AND HARNESSING
ADVERSARIAL EXAMPLES
고려대학교 산업경영공학부 석박통합과정 서승완
2019. 05. 07
AGENDA
1. What are Adversarial Examples
2. Explaining and Harnessing Adversarial
Examples
AGENDA
1. What are Adversarial Examples
2. Explaining and Harnessing Adversarial
Examples
WHAT ARE ADVERSARIAL EXAMPLES
• Image patch를 통하여 거의
100%의 confidence를 가지고
바나나를 토스터로 분류하게
만드는 영상
4
with Image patch
WHAT ARE ADVERSARIAL EXAMPLES
• Adversarial example 정의
➢Original input에 매우 작은 noise를 더하여(perturbation) 사람의 눈에는 차이가 없어 보이나 분류기는 잘못
분류 하도록 변형된 input
• 이미지에 국한되는 개념이 아님
• 공격 종류
➢White-Box Attacks : model의 parameters를 adversary가 알고 있음
➢Black-Box Attacks : model의 parameters를 adversary가 알지 못함
• Target model을 근사하는 model을 만들어 만들어진 model의 parameter를 통하여 공격
➢공격 목적:Adversarial examples을 잘 만들어 target model이 분류를 잘못 하도록 하는 것∶ 𝑓 𝑥∗
≠ 𝑓(𝑥)
5
WHAT ARE ADVERSARIAL EXAMPLES
• Adversarial example 정의
➢Original input에 매우 작은 noise를 더하여(perturbation) 사람의 눈에는 차이가 없어 보이나 분류기는 잘못
분류 하도록 변형된 input
• 이미지에 국한되는 개념이 아님
• 공격 종류
➢White-Box Attacks : model의 parameters를 adversary가 알고 있음
➢Black-Box Attacks : model의 parameters를 adversary가 알지 못함
• Target model을 근사하는 model을 만들어 만들어진 model의 parameter를 통하여 공격
➢공격 목적:Adversarial examples을 잘 만들어 target model이 분류를 잘못 하도록 하는 것∶ 𝑓 𝑥∗
≠ 𝑓(𝑥)
6
WHAT ARE ADVERSARIAL EXAMPLES
• CNN외의 DNN에서도 통하는가
7
WHAT ARE ADVERSARIAL EXAMPLES
• DNN을 통하여 강화 학습의 policy를 정하는 구조는 공격을 받음
➢Adversarial Attacks on Neural Network Policies(Huan et al. 2017)
8
WHAT ARE ADVERSARIAL EXAMPLES
• RNN 구조도 공격을 받음
➢Black Black-Box Attacks against RNN based Malware Detection Algorithms(Hu and Tan, 2017)
➢HotFlip:White-Box Adversarial Examples forText Classification (Javid Ebrahimi et al., 2018)
9
WHAT ARE ADVERSARIAL EXAMPLES
• 현실에서는 무엇이 문제인가
➢자율주행 자동차
• 2017년 테슬라 자율주행 자동차 운전자 트레일러 충돌 사망
• 2018년 우버 자율주행 자동차에 치어 보행자 사망
• 2018년 테슬라 고속도로 중앙분리대 추돌
• 2019 년 테슬라 자율주행차 교차로 점 세 개 잘못 인식하여 역주행
10
테슬라 model x
AGENDA
1. What are Adversarial Examples
2. Explaining and Harnessing Adversarial
Examples
OVERALL
• EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES
➢Ian J. Goodfellow, Jonathon Shlens & Christian Szegedy
➢ICLR 2015
➢Be cited 2132 times
➢Adversarial example 문제를 제기한 첫 번째 논문은 아니지만 가장 유명한 논문
➢Fast Gradient Sign Method (FGSM) 방식을 소개
• Gradient-based attack method
12
INTRODUCTION
• Adversarial example을 통하여 우리의 학습 algorithms에 대한 blind spots을 찾을 수
있음
➢보다 사람다운 모델 & 학습 방식을 찾아야 함
• 이전의 실험들에서는 adversarial example이 신비롭고, 매우 비선형적인 DNN에
대해서 engineer가 학습을 온전히 하지 못했기 때문에 발생한다고 추측 함
➢본 논문에서는 이러한 추측이 잘못 됐음을 보임
• 기존에 사용했던 dropout과 pretraining과 같은 정규화 방식은 효과가 없음
• RBF와 같은 매우 비선형적인 activation function을 사용하면 효과가 있음
➢DNN은 우리가 기대하는 것 만큼 비선형적인 구조가 아님
13
THE LINEAR EXPLANATION OF ADVERSARIAL EXAMPLES
• 개별 input feature의 precision은 제한적임
➢예를 들어 image pixel의 1/255보다 작은 범위는 고려하지 못함
➢대체로, 𝑥와 ෤𝑥 = 𝑥 + 𝜂, where ∥ 𝜂 ∥∞< 𝜖 and 𝜂 𝑖𝑠 𝑠𝑚𝑎𝑙𝑙 𝑒𝑛𝑜𝑢𝑔ℎ 를 동일한 class로 분류하길 희망함
• Weight와 adversarial example ෤𝑥의 내적을 고려하면 다음과 같음:
𝑤 𝑇 ෤𝑥 = 𝑤 𝑇 𝑥 + 𝑤 𝑇 𝜂
➢Adversarial perturbation은 𝑤 𝑇 𝜂씩 증가함
➢ 𝜂 = 𝑠𝑖𝑔𝑛(𝑤)로 assign함으로써 𝜂에 대한 max norm 제약 조건에 따라 adversarial perturbation을 최대화 할 수
있음
14
LINEAR PERTURBATION OF NON-LINEAR MODELS
• We hypothesize that neural networks are too linear to resist linear adversarial
perturbation
➢LSTM, ReLUs는 최적화를 위해 태생이 매우 linear한 구조임
➢모델을 학습 하다 보면 sigmoid같이 보다 더 비선형적인 함수에서도 선형성을 지닌 부분에 많은 activation 이
되도록 tuning 됨
➢ 𝜃를 모델의 파라미터, 𝑥를 인풋, 𝑦를 target, 그리고 𝐽(𝜃, 𝑥, 𝑦)를 모델의 cost function이라고 할 때 optimal max-
norm constrained perturbation 은 아래와 같이 구해 짐(Fast gradient Sign Method):
𝜼 = 𝜖𝑠𝑖𝑔𝑛 ∇ 𝑥 𝐽 𝜽, 𝒙, 𝑦
➢논문에서는 𝜖의 크기에 따른 공격 성공률을 보이고 있는데 대체적으로 97-99%의 정확도로 모델을 공격 성공 함
• 사용한 data set : MNIST
• 공격 모델 : maxout network
15
LINEAR PERTURBATION OF NON-LINEAR MODELS
• We hypothesize that neural networks are too linear to resist linear adversarial
perturbation
➢LSTM, ReLUs는 최적화를 위해 태생이 매우 linear한 구조임
➢모델을 학습 하다 보면 sigmoid같이 보다 더 비선형적인 함수에서도 선형성을 지닌 부분에 많은 activation 이
되도록 tuning 됨
➢ 𝜃를 모델의 파라미터, 𝑥를 인풋, 𝑦를 target, 그리고 𝐽(𝜃, 𝑥, 𝑦)를 모델의 cost function이라고 할 때 optimal max-
norm constrained perturbation 은 아래와 같이 구해 짐(Fast gradient Sign Method):
𝜼 = 𝜖𝑠𝑖𝑔𝑛 ∇ 𝑥 𝐽 𝜽, 𝒙, 𝑦
➢논문에서는 𝜖의 크기에 따른 공격 성공률을 보이고 있는데 대체적으로 97-99%의 정확도로 모델을 공격 성공 함
• 사용한 data set : MNIST
• 공격 모델 : maxout network
• LINEAR PERTURBATION을 NON-LINEAR MODELS에 적용해도 공격이 됨
➢DNN이 우리 기대만큼 non-linear 하지 못함
16
ADVERSARIAL TRAINING
• 최초로 제안 된 매우 직관적인 defense against adversarial attack의 방법
➢Training set에 adversarial example을 포함해서 학습을 시키자
• 모델 학습 중에 공격방식을 적용해서 adversarial example을 생성하면서 학습을 진행하는 방식
• 애초에 생성 된 adversarial example들을 가지고 모델 학습을 진행하는 방식
➢Adversarial training 방식 자체가 여러 공격에 robust하지 못하다는 단점들이 밝혀지면서 최근에는 추가적인
방어 기법들이 사용 됨
17
논문에 직관적인 그림이 없어서 실험 진행
• 공격 진행
➢ FGSM으로 adversarial example 생성
➢ 대상 모델은 ResNet
➢ 공격 target class는 931번 index인 bagel임
➢ Input image는 Siberian husky
18
논문에 직관적인 그림이 없어서 실험 진행
• 공격 결과
19
Iteration Prediction class (name / index) Confidence loss
1 Papillon / 157 0.1496 6.9292
2 Chihuahua / 151 0.0209 3.5987
3 Bagel / 931 0.6431 0.7531
4 Bagel / 931 0.9439 0.012
5 Bagel / 931 0.9993 0
6 Bagel / 931 0.9996 0
7 Bagel / 931 0.9999 0
8 Bagel / 931 0.9999 0
9 Bagel / 931 0.9999 0
10 Bagel / 931 0.9999 0
11 Bagel / 931 0.9999 0
12 Bagel / 931 0.9999 0
13 Bagel / 931 0.9999 0
14 Bagel / 931 0.9999 0
15 Bagel / 931 0.9999 0
공격 결과
Iteration Prediction class (name / index) Confidence loss
1 Papillon / 157 0.1496 6.9292
2 Chihuahua / 151 0.0209 3.5987
3 Bagel / 931 0.6431 0.7531
4 Bagel / 931 0.9439 0.012
5 Bagel / 931 0.9993 0
6 Bagel / 931 0.9996 0
7 Bagel / 931 0.9999 0
8 Bagel / 931 0.9999 0
9 Bagel / 931 0.9999 0
10 Bagel / 931 0.9999 0
11 Bagel / 931 0.9999 0
12 Bagel / 931 0.9999 0
13 Bagel / 931 0.9999 0
14 Bagel / 931 0.9999 0
15 Bagel / 931 0.9999 0
20
공격 결과
Iteration Prediction class (name / index) Confidence loss
1 Papillon / 157 0.1496 6.9292
2 Chihuahua / 151 0.0209 3.5987
3 Bagel / 931 0.6431 0.7531
4 Bagel / 931 0.9439 0.012
5 Bagel / 931 0.9993 0
6 Bagel / 931 0.9996 0
7 Bagel / 931 0.9999 0
8 Bagel / 931 0.9999 0
9 Bagel / 931 0.9999 0
10 Bagel / 931 0.9999 0
11 Bagel / 931 0.9999 0
12 Bagel / 931 0.9999 0
13 Bagel / 931 0.9999 0
14 Bagel / 931 0.9999 0
15 Bagel / 931 0.9999 0
21
??? ???
이미지 비교(ATTACK VS. NORMAL)
Clean Image Adversarial example
이미지 비교
23
Clean Image Adversarial example
결과 비교
24
Clean Image Adversarial example
결과 비교
25
Computer’s view Our view
결과 비교
26
감사합니다

More Related Content

Featured

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationErica Santiago
 

Featured (20)

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 

19.05.07 explaining and harnessing adversarial examples

  • 1. EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES 고려대학교 산업경영공학부 석박통합과정 서승완 2019. 05. 07
  • 2. AGENDA 1. What are Adversarial Examples 2. Explaining and Harnessing Adversarial Examples
  • 3. AGENDA 1. What are Adversarial Examples 2. Explaining and Harnessing Adversarial Examples
  • 4. WHAT ARE ADVERSARIAL EXAMPLES • Image patch를 통하여 거의 100%의 confidence를 가지고 바나나를 토스터로 분류하게 만드는 영상 4 with Image patch
  • 5. WHAT ARE ADVERSARIAL EXAMPLES • Adversarial example 정의 ➢Original input에 매우 작은 noise를 더하여(perturbation) 사람의 눈에는 차이가 없어 보이나 분류기는 잘못 분류 하도록 변형된 input • 이미지에 국한되는 개념이 아님 • 공격 종류 ➢White-Box Attacks : model의 parameters를 adversary가 알고 있음 ➢Black-Box Attacks : model의 parameters를 adversary가 알지 못함 • Target model을 근사하는 model을 만들어 만들어진 model의 parameter를 통하여 공격 ➢공격 목적:Adversarial examples을 잘 만들어 target model이 분류를 잘못 하도록 하는 것∶ 𝑓 𝑥∗ ≠ 𝑓(𝑥) 5
  • 6. WHAT ARE ADVERSARIAL EXAMPLES • Adversarial example 정의 ➢Original input에 매우 작은 noise를 더하여(perturbation) 사람의 눈에는 차이가 없어 보이나 분류기는 잘못 분류 하도록 변형된 input • 이미지에 국한되는 개념이 아님 • 공격 종류 ➢White-Box Attacks : model의 parameters를 adversary가 알고 있음 ➢Black-Box Attacks : model의 parameters를 adversary가 알지 못함 • Target model을 근사하는 model을 만들어 만들어진 model의 parameter를 통하여 공격 ➢공격 목적:Adversarial examples을 잘 만들어 target model이 분류를 잘못 하도록 하는 것∶ 𝑓 𝑥∗ ≠ 𝑓(𝑥) 6
  • 7. WHAT ARE ADVERSARIAL EXAMPLES • CNN외의 DNN에서도 통하는가 7
  • 8. WHAT ARE ADVERSARIAL EXAMPLES • DNN을 통하여 강화 학습의 policy를 정하는 구조는 공격을 받음 ➢Adversarial Attacks on Neural Network Policies(Huan et al. 2017) 8
  • 9. WHAT ARE ADVERSARIAL EXAMPLES • RNN 구조도 공격을 받음 ➢Black Black-Box Attacks against RNN based Malware Detection Algorithms(Hu and Tan, 2017) ➢HotFlip:White-Box Adversarial Examples forText Classification (Javid Ebrahimi et al., 2018) 9
  • 10. WHAT ARE ADVERSARIAL EXAMPLES • 현실에서는 무엇이 문제인가 ➢자율주행 자동차 • 2017년 테슬라 자율주행 자동차 운전자 트레일러 충돌 사망 • 2018년 우버 자율주행 자동차에 치어 보행자 사망 • 2018년 테슬라 고속도로 중앙분리대 추돌 • 2019 년 테슬라 자율주행차 교차로 점 세 개 잘못 인식하여 역주행 10 테슬라 model x
  • 11. AGENDA 1. What are Adversarial Examples 2. Explaining and Harnessing Adversarial Examples
  • 12. OVERALL • EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES ➢Ian J. Goodfellow, Jonathon Shlens & Christian Szegedy ➢ICLR 2015 ➢Be cited 2132 times ➢Adversarial example 문제를 제기한 첫 번째 논문은 아니지만 가장 유명한 논문 ➢Fast Gradient Sign Method (FGSM) 방식을 소개 • Gradient-based attack method 12
  • 13. INTRODUCTION • Adversarial example을 통하여 우리의 학습 algorithms에 대한 blind spots을 찾을 수 있음 ➢보다 사람다운 모델 & 학습 방식을 찾아야 함 • 이전의 실험들에서는 adversarial example이 신비롭고, 매우 비선형적인 DNN에 대해서 engineer가 학습을 온전히 하지 못했기 때문에 발생한다고 추측 함 ➢본 논문에서는 이러한 추측이 잘못 됐음을 보임 • 기존에 사용했던 dropout과 pretraining과 같은 정규화 방식은 효과가 없음 • RBF와 같은 매우 비선형적인 activation function을 사용하면 효과가 있음 ➢DNN은 우리가 기대하는 것 만큼 비선형적인 구조가 아님 13
  • 14. THE LINEAR EXPLANATION OF ADVERSARIAL EXAMPLES • 개별 input feature의 precision은 제한적임 ➢예를 들어 image pixel의 1/255보다 작은 범위는 고려하지 못함 ➢대체로, 𝑥와 ෤𝑥 = 𝑥 + 𝜂, where ∥ 𝜂 ∥∞< 𝜖 and 𝜂 𝑖𝑠 𝑠𝑚𝑎𝑙𝑙 𝑒𝑛𝑜𝑢𝑔ℎ 를 동일한 class로 분류하길 희망함 • Weight와 adversarial example ෤𝑥의 내적을 고려하면 다음과 같음: 𝑤 𝑇 ෤𝑥 = 𝑤 𝑇 𝑥 + 𝑤 𝑇 𝜂 ➢Adversarial perturbation은 𝑤 𝑇 𝜂씩 증가함 ➢ 𝜂 = 𝑠𝑖𝑔𝑛(𝑤)로 assign함으로써 𝜂에 대한 max norm 제약 조건에 따라 adversarial perturbation을 최대화 할 수 있음 14
  • 15. LINEAR PERTURBATION OF NON-LINEAR MODELS • We hypothesize that neural networks are too linear to resist linear adversarial perturbation ➢LSTM, ReLUs는 최적화를 위해 태생이 매우 linear한 구조임 ➢모델을 학습 하다 보면 sigmoid같이 보다 더 비선형적인 함수에서도 선형성을 지닌 부분에 많은 activation 이 되도록 tuning 됨 ➢ 𝜃를 모델의 파라미터, 𝑥를 인풋, 𝑦를 target, 그리고 𝐽(𝜃, 𝑥, 𝑦)를 모델의 cost function이라고 할 때 optimal max- norm constrained perturbation 은 아래와 같이 구해 짐(Fast gradient Sign Method): 𝜼 = 𝜖𝑠𝑖𝑔𝑛 ∇ 𝑥 𝐽 𝜽, 𝒙, 𝑦 ➢논문에서는 𝜖의 크기에 따른 공격 성공률을 보이고 있는데 대체적으로 97-99%의 정확도로 모델을 공격 성공 함 • 사용한 data set : MNIST • 공격 모델 : maxout network 15
  • 16. LINEAR PERTURBATION OF NON-LINEAR MODELS • We hypothesize that neural networks are too linear to resist linear adversarial perturbation ➢LSTM, ReLUs는 최적화를 위해 태생이 매우 linear한 구조임 ➢모델을 학습 하다 보면 sigmoid같이 보다 더 비선형적인 함수에서도 선형성을 지닌 부분에 많은 activation 이 되도록 tuning 됨 ➢ 𝜃를 모델의 파라미터, 𝑥를 인풋, 𝑦를 target, 그리고 𝐽(𝜃, 𝑥, 𝑦)를 모델의 cost function이라고 할 때 optimal max- norm constrained perturbation 은 아래와 같이 구해 짐(Fast gradient Sign Method): 𝜼 = 𝜖𝑠𝑖𝑔𝑛 ∇ 𝑥 𝐽 𝜽, 𝒙, 𝑦 ➢논문에서는 𝜖의 크기에 따른 공격 성공률을 보이고 있는데 대체적으로 97-99%의 정확도로 모델을 공격 성공 함 • 사용한 data set : MNIST • 공격 모델 : maxout network • LINEAR PERTURBATION을 NON-LINEAR MODELS에 적용해도 공격이 됨 ➢DNN이 우리 기대만큼 non-linear 하지 못함 16
  • 17. ADVERSARIAL TRAINING • 최초로 제안 된 매우 직관적인 defense against adversarial attack의 방법 ➢Training set에 adversarial example을 포함해서 학습을 시키자 • 모델 학습 중에 공격방식을 적용해서 adversarial example을 생성하면서 학습을 진행하는 방식 • 애초에 생성 된 adversarial example들을 가지고 모델 학습을 진행하는 방식 ➢Adversarial training 방식 자체가 여러 공격에 robust하지 못하다는 단점들이 밝혀지면서 최근에는 추가적인 방어 기법들이 사용 됨 17
  • 18. 논문에 직관적인 그림이 없어서 실험 진행 • 공격 진행 ➢ FGSM으로 adversarial example 생성 ➢ 대상 모델은 ResNet ➢ 공격 target class는 931번 index인 bagel임 ➢ Input image는 Siberian husky 18
  • 19. 논문에 직관적인 그림이 없어서 실험 진행 • 공격 결과 19 Iteration Prediction class (name / index) Confidence loss 1 Papillon / 157 0.1496 6.9292 2 Chihuahua / 151 0.0209 3.5987 3 Bagel / 931 0.6431 0.7531 4 Bagel / 931 0.9439 0.012 5 Bagel / 931 0.9993 0 6 Bagel / 931 0.9996 0 7 Bagel / 931 0.9999 0 8 Bagel / 931 0.9999 0 9 Bagel / 931 0.9999 0 10 Bagel / 931 0.9999 0 11 Bagel / 931 0.9999 0 12 Bagel / 931 0.9999 0 13 Bagel / 931 0.9999 0 14 Bagel / 931 0.9999 0 15 Bagel / 931 0.9999 0
  • 20. 공격 결과 Iteration Prediction class (name / index) Confidence loss 1 Papillon / 157 0.1496 6.9292 2 Chihuahua / 151 0.0209 3.5987 3 Bagel / 931 0.6431 0.7531 4 Bagel / 931 0.9439 0.012 5 Bagel / 931 0.9993 0 6 Bagel / 931 0.9996 0 7 Bagel / 931 0.9999 0 8 Bagel / 931 0.9999 0 9 Bagel / 931 0.9999 0 10 Bagel / 931 0.9999 0 11 Bagel / 931 0.9999 0 12 Bagel / 931 0.9999 0 13 Bagel / 931 0.9999 0 14 Bagel / 931 0.9999 0 15 Bagel / 931 0.9999 0 20
  • 21. 공격 결과 Iteration Prediction class (name / index) Confidence loss 1 Papillon / 157 0.1496 6.9292 2 Chihuahua / 151 0.0209 3.5987 3 Bagel / 931 0.6431 0.7531 4 Bagel / 931 0.9439 0.012 5 Bagel / 931 0.9993 0 6 Bagel / 931 0.9996 0 7 Bagel / 931 0.9999 0 8 Bagel / 931 0.9999 0 9 Bagel / 931 0.9999 0 10 Bagel / 931 0.9999 0 11 Bagel / 931 0.9999 0 12 Bagel / 931 0.9999 0 13 Bagel / 931 0.9999 0 14 Bagel / 931 0.9999 0 15 Bagel / 931 0.9999 0 21
  • 23. Clean Image Adversarial example 이미지 비교 23
  • 24. Clean Image Adversarial example 결과 비교 24
  • 25. Clean Image Adversarial example 결과 비교 25
  • 26. Computer’s view Our view 결과 비교 26