19.05.07 explaining and harnessing adversarial examples

EXPLAINING AND HARNESSING
ADVERSARIAL EXAMPLES
고려대학교 산업경영공학부 석박통합과정 서승완
2019. 05. 07

AGENDA
1. What are Adversarial Examples
2. Explaining and Harnessing Adversarial
Examples

WHAT ARE ADVERSARIAL EXAMPLES
• Image patch를 통하여 거의
100%의 confidence를 가지고
바나나를 토스터로 분류하게
만드는 영상
4
with Image patch

• Adversarial example 정의
➢Original input에 매우 작은 noise를 더하여(perturbation) 사람의 눈에는 차이가 없어 보이나 분류기는 잘못
분류 하도록 변형된 input
• 이미지에 국한되는 개념이 아님
• 공격 종류
➢White-Box Attacks : model의 parameters를 adversary가 알고 있음
➢Black-Box Attacks : model의 parameters를 adversary가 알지 못함
• Target model을 근사하는 model을 만들어 만들어진 model의 parameter를 통하여 공격
➢공격 목적:Adversarial examples을 잘 만들어 target model이 분류를 잘못 하도록 하는 것∶ 𝑓 𝑥∗
≠ 𝑓(𝑥)
5

• Adversarial example 정의
➢Original input에 매우 작은 noise를 더하여(perturbation) 사람의 눈에는 차이가 없어 보이나 분류기는 잘못
분류 하도록 변형된 input
• 이미지에 국한되는 개념이 아님
• 공격 종류
➢White-Box Attacks : model의 parameters를 adversary가 알고 있음
➢Black-Box Attacks : model의 parameters를 adversary가 알지 못함
• Target model을 근사하는 model을 만들어 만들어진 model의 parameter를 통하여 공격
➢공격 목적:Adversarial examples을 잘 만들어 target model이 분류를 잘못 하도록 하는 것∶ 𝑓 𝑥∗
≠ 𝑓(𝑥)
6

• CNN외의 DNN에서도 통하는가
7

• DNN을 통하여 강화 학습의 policy를 정하는 구조는 공격을 받음
➢Adversarial Attacks on Neural Network Policies(Huan et al. 2017)
8

• RNN 구조도 공격을 받음
➢Black Black-Box Attacks against RNN based Malware Detection Algorithms(Hu and Tan, 2017)
➢HotFlip:White-Box Adversarial Examples forText Classification (Javid Ebrahimi et al., 2018)
9

• 현실에서는 무엇이 문제인가
➢자율주행 자동차
• 2017년 테슬라 자율주행 자동차 운전자 트레일러 충돌 사망
• 2018년 우버 자율주행 자동차에 치어 보행자 사망
• 2018년 테슬라 고속도로 중앙분리대 추돌
• 2019 년 테슬라 자율주행차 교차로 점 세 개 잘못 인식하여 역주행
10
테슬라 model x

OVERALL
• EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES
➢Ian J. Goodfellow, Jonathon Shlens & Christian Szegedy
➢ICLR 2015
➢Be cited 2132 times
➢Adversarial example 문제를 제기한 첫 번째 논문은 아니지만 가장 유명한 논문
➢Fast Gradient Sign Method (FGSM) 방식을 소개
• Gradient-based attack method
12

INTRODUCTION
• Adversarial example을 통하여 우리의 학습 algorithms에 대한 blind spots을 찾을 수
있음
➢보다 사람다운 모델 & 학습 방식을 찾아야 함
• 이전의 실험들에서는 adversarial example이 신비롭고, 매우 비선형적인 DNN에
대해서 engineer가 학습을 온전히 하지 못했기 때문에 발생한다고 추측 함
➢본 논문에서는 이러한 추측이 잘못 됐음을 보임
• 기존에 사용했던 dropout과 pretraining과 같은 정규화 방식은 효과가 없음
• RBF와 같은 매우 비선형적인 activation function을 사용하면 효과가 있음
➢DNN은 우리가 기대하는 것 만큼 비선형적인 구조가 아님
13

THE LINEAR EXPLANATION OF ADVERSARIAL EXAMPLES
• 개별 input feature의 precision은 제한적임
➢예를 들어 image pixel의 1/255보다 작은 범위는 고려하지 못함
➢대체로, 𝑥와 ෤𝑥 = 𝑥 + 𝜂, where ∥ 𝜂 ∥∞< 𝜖 and 𝜂 𝑖𝑠 𝑠𝑚𝑎𝑙𝑙 𝑒𝑛𝑜𝑢𝑔ℎ 를 동일한 class로 분류하길 희망함
• Weight와 adversarial example ෤𝑥의 내적을 고려하면 다음과 같음:
𝑤 𝑇 ෤𝑥 = 𝑤 𝑇 𝑥 + 𝑤 𝑇 𝜂
➢Adversarial perturbation은 𝑤 𝑇 𝜂씩 증가함
➢ 𝜂 = 𝑠𝑖𝑔𝑛(𝑤)로 assign함으로써 𝜂에 대한 max norm 제약 조건에 따라 adversarial perturbation을 최대화 할 수
있음
14

LINEAR PERTURBATION OF NON-LINEAR MODELS
• We hypothesize that neural networks are too linear to resist linear adversarial
perturbation
➢LSTM, ReLUs는 최적화를 위해 태생이 매우 linear한 구조임
➢모델을 학습 하다 보면 sigmoid같이 보다 더 비선형적인 함수에서도 선형성을 지닌 부분에 많은 activation 이
되도록 tuning 됨
➢ 𝜃를 모델의 파라미터, 𝑥를 인풋, 𝑦를 target, 그리고 𝐽(𝜃, 𝑥, 𝑦)를 모델의 cost function이라고 할 때 optimal max-
norm constrained perturbation 은 아래와 같이 구해 짐(Fast gradient Sign Method):
𝜼 = 𝜖𝑠𝑖𝑔𝑛 ∇ 𝑥 𝐽 𝜽, 𝒙, 𝑦
➢논문에서는 𝜖의 크기에 따른 공격 성공률을 보이고 있는데 대체적으로 97-99%의 정확도로 모델을 공격 성공 함
• 사용한 data set : MNIST
• 공격 모델 : maxout network
15

LINEAR PERTURBATION OF NON-LINEAR MODELS
• We hypothesize that neural networks are too linear to resist linear adversarial
perturbation
➢LSTM, ReLUs는 최적화를 위해 태생이 매우 linear한 구조임
➢모델을 학습 하다 보면 sigmoid같이 보다 더 비선형적인 함수에서도 선형성을 지닌 부분에 많은 activation 이
되도록 tuning 됨
➢ 𝜃를 모델의 파라미터, 𝑥를 인풋, 𝑦를 target, 그리고 𝐽(𝜃, 𝑥, 𝑦)를 모델의 cost function이라고 할 때 optimal max-
norm constrained perturbation 은 아래와 같이 구해 짐(Fast gradient Sign Method):
𝜼 = 𝜖𝑠𝑖𝑔𝑛 ∇ 𝑥 𝐽 𝜽, 𝒙, 𝑦
➢논문에서는 𝜖의 크기에 따른 공격 성공률을 보이고 있는데 대체적으로 97-99%의 정확도로 모델을 공격 성공 함
• 사용한 data set : MNIST
• 공격 모델 : maxout network
• LINEAR PERTURBATION을 NON-LINEAR MODELS에 적용해도 공격이 됨
➢DNN이 우리 기대만큼 non-linear 하지 못함
16

ADVERSARIAL TRAINING
• 최초로 제안 된 매우 직관적인 defense against adversarial attack의 방법
➢Training set에 adversarial example을 포함해서 학습을 시키자
• 모델 학습 중에 공격방식을 적용해서 adversarial example을 생성하면서 학습을 진행하는 방식
• 애초에 생성 된 adversarial example들을 가지고 모델 학습을 진행하는 방식
➢Adversarial training 방식 자체가 여러 공격에 robust하지 못하다는 단점들이 밝혀지면서 최근에는 추가적인
방어 기법들이 사용 됨
17

논문에 직관적인 그림이 없어서 실험 진행
• 공격 진행
➢ FGSM으로 adversarial example 생성
➢ 대상 모델은 ResNet
➢ 공격 target class는 931번 index인 bagel임
➢ Input image는 Siberian husky
18

논문에 직관적인 그림이 없어서 실험 진행
• 공격 결과
19
Iteration Prediction class (name / index) Confidence loss
1 Papillon / 157 0.1496 6.9292
2 Chihuahua / 151 0.0209 3.5987
3 Bagel / 931 0.6431 0.7531
4 Bagel / 931 0.9439 0.012
5 Bagel / 931 0.9993 0
6 Bagel / 931 0.9996 0
7 Bagel / 931 0.9999 0
8 Bagel / 931 0.9999 0
9 Bagel / 931 0.9999 0
10 Bagel / 931 0.9999 0
11 Bagel / 931 0.9999 0
12 Bagel / 931 0.9999 0
13 Bagel / 931 0.9999 0
14 Bagel / 931 0.9999 0
15 Bagel / 931 0.9999 0

공격 결과
1 Papillon / 157 0.1496 6.9292
2 Chihuahua / 151 0.0209 3.5987
3 Bagel / 931 0.6431 0.7531
4 Bagel / 931 0.9439 0.012
5 Bagel / 931 0.9993 0
6 Bagel / 931 0.9996 0
7 Bagel / 931 0.9999 0
8 Bagel / 931 0.9999 0
9 Bagel / 931 0.9999 0
10 Bagel / 931 0.9999 0
11 Bagel / 931 0.9999 0
12 Bagel / 931 0.9999 0
13 Bagel / 931 0.9999 0
14 Bagel / 931 0.9999 0
15 Bagel / 931 0.9999 0
20

공격 결과
1 Papillon / 157 0.1496 6.9292
2 Chihuahua / 151 0.0209 3.5987
3 Bagel / 931 0.6431 0.7531
4 Bagel / 931 0.9439 0.012
5 Bagel / 931 0.9993 0
6 Bagel / 931 0.9996 0
7 Bagel / 931 0.9999 0
8 Bagel / 931 0.9999 0
9 Bagel / 931 0.9999 0
10 Bagel / 931 0.9999 0
11 Bagel / 931 0.9999 0
12 Bagel / 931 0.9999 0
13 Bagel / 931 0.9999 0
14 Bagel / 931 0.9999 0
15 Bagel / 931 0.9999 0
21

??? ???
이미지 비교(ATTACK VS. NORMAL)

Clean Image Adversarial example
이미지 비교
23

결과 비교
24

결과 비교
25

Computer’s view Our view
결과 비교
26

19.05.07 explaining and harnessing adversarial examples

Recommended

Recommended

More Related Content

Featured

Featured (20)

19.05.07 explaining and harnessing adversarial examples