SAGAN_2024seminar announce_seoultech.pptx

Self-Attention Generative Adversarial Networks(SAGAN)
한정현

Abstract
• 이미지 생성을 위한 SAGAN을 제안 --> attention-driven, long-range dependency modeling을
가능하게 함.
• 기존 Conv GAN들은 lower-resolution feature maps 의 only spatially local points를 함수로 사용하여,
high-resolution details을 생성함.
• SAGAN은 모든 feature locations를 단서로 사용하여 detail을 생성한다
• 기존 방법들은 Spectral norm(= l2 norm)은 Generator에 적용하지 않았는데, SAGAN에서는
Generator에도 적용해서 실험  효과는 좋았음.

Introduction
• Multi-class dataset으로 학습했을 때, 몇몇 class의 image를 생성하는 것에 어려움을 보임 
예시로, 바다나 하늘처럼 geometry보다는 어떤 질감(?)으로 구분되는 이미지는 잘 생성하지
만 강아지의 발처럼 geometry적인 특징을 갖는 class의 생성에는 어려움을 보임
• 위 문제에 대해 가능한 설명은, 기존 모델은 지나치게 conv에 의존했음
- Conv는 local receptive field를 가지기 때문에, long range
dependency는 몇 개의 Conv layer를 지나야 참조가 됨
- (1,1) 과 (5,5)를 예시로 들면, 저 둘이 무엇인가 “연산”이 되려
면 layer3에서 가능

Introduction
• 이는 long-term dependency를 학습하는 것을 여러가지 이유로 방해한다
1 . A small model may not be able to represent them.  간단히 말해, 통과할 수 있는 Layer가 적기
때문에 먼 거리의 픽셀과의 dependency가 떨어짐
2. Optimization algorithm이 parameter값들을 찾아내는데 어려움을 겪도록 하는데, 여기서 parameter
값들이란 이러한 dependency를 잡아내는 여러 layer들을 조정하는 값  즉 , dependency를 인식하기
위해 여러 layer들을 섬세히 조절하는 parameter찾기 힘듦
3. 그렇다고 Conv kernel-size를 늘리면, representation capacity는 증가시킬 수 있지만, 계산이나 통계
적인 효율성은 떨어진다.
 Self-attention은 long-range dependency를 모델링하는 능력과 computational and statistical 효율성 사이
에서 더 나은 balance를 보여준다.
 Self-attention 모듈은 convolution에 상호 보완적이고 이미지 영역을 가로질러 long range, multi-level
dependency를 모델링 하는데 도움을 준다
목표)
Generator : 모든 위치에서의 섬세한 detail이 다른 위치에서의 detail과 잘 연관된 이미지를 생성할 수 있다
Discriminator : 이미지를 전체적으로 보았을 때 알 수 있는 복잡한 기하학적 특징을 검출해낼 수 있다

Related Works
• GAN을 학습하는 것은 불안정 뿐만 아니라 hyperparameter에 민감하였다.
• 최근, 한 논문에서는 discriminator 함수의 Lipschitz constant를 제한하기 위해 discriminator에서의
weight 행렬의 spectral norm(=L2 norm, 즉 the largest singular value)을 제한시키는 방법을 제안했다.
• Projection 기반의 discriminator와 결합하여 spectrally normalized model은 ImageNet 데이터셋에서 크
게 class-conditional Image 생성을 개선시켰다.
 Spectral norm이 뭐지? 간단히 살펴봅시다.
 증명까지는 아니고, 왜 사용을 하고 결론은 뭔지? 이정도만!

Related Works
• Please enter your details
• Please enter your details
D(X)는 discriminator가 구분하는 확률, 리턴 값

Related Works
• Objective function of GAN(여러분들이 다들 잘 아시는)
• Optimizing GAN
• GAN의 기본 가정은 일 때를 optimum이라고 가정하는 것인데요, 과연 이것이 합당한 가
정일까?
• 첫번째로, 지금부터 어떤 G에 대해서 optimal한 discriminator를 갖고 있다고 생각해봅시다. 이 때
(고정된 G에 대한) D의 성능을 다음과 같이 정의할 수 있습니다. optimal 하다면 0.5로 수렴.
• 이 optimal한 D에 대한 objective function은 아래와 같음. 그리고 그 식에서 기대값을 x에 대한
함수로 나타내어 표시
* alog(x)+blog(1-x)의 최대는 a/a+b로 알려져 있음

Related Works
• D의 식을 미분하게 되면, 여기서는 쓰지는 않겠지만 미분 값(그냥 로그 미분이라서
어렵지는 않음)이 제한이 없음  굉장히 큰 Gradient가 도출되면 학습이 이상해짐
• WGAN에서는 이러한 문제를 clipping을 통해 해결하고자 했죠?
• SNGAN이라는 논문에서는 discriminator에 Spectral norm(l2 norm)을 활용해서 립
시츠 상수를 1 이하로 제한했음. (증명은 매우 어려움, 증명이 중요한 것은 아니니까
우선 이런게 가능하구나? 정도를 이해합시다)

Related Works
Y= sinX 의 립시츠 상수는 1이다

Related Works
• 결론은 SNGAN이라는 논문에서 spectral norm으로 weight를 제한하여 립시츠 상수를 1이하로
제한하였는데, Discriminator에 실행함! SAGAN에서는 Generator에도 적용해본다!!!
• Self- attention에 대한 Related Works 내용은 최근 다뤘으니 넘어가겠습니다

SAGAN
value
Query, key 둘 중 어떤 건지는 논문에 안나옴.
둘중 하나겠죠? 근데 g쪽이 쿼리고, f쪽이
key라고 생각들긴함
위 수식은 모델이 j번째 픽셀을 생성할 때 i번째 픽셀에 관심을 갖는 정도를 계산한다.
구조적으로 보면, j번째 픽셀을 생성할 때의 기준을 부여해주는 Wg는 Transformer의
Query로 볼 수 있다. 그럼 Wf는 key로 해석한다.

SAGAN
• 계산한 attention map과 value인 h(x)를 곱한 후 1x1 convolution을 한번 더 취해 self-attention
feature maps ’o’를 계산합니다.
• SAGAN에서는 v(x) 인 1x1 convolution이 하나 추가되어 계산하는 것이 차이입니다

SAGAN
Self-attention feature map은 그 다음 layer의 인풋으로 들어갈 때 학습 가능한 파라미터 γ로
scale되고 이전 convolution layer의 element xi가 더해진다.
γ는 처음에 0으로 초기화되고 이후 학습을 통해 점차 증가하는데, 연구진은 이를 통해 처음
에는 간단한 task(xi의 local한 정보)를 학습하고 점차 복잡한 task(이미지의 global한 정보)
를 학습하는 것을 의도했다.
진짜 논문에 이렇게 나옴

SAGAN
• Loss는 hinge loss를 사용하였다.
• Hinge loss는 제 기억에 cs231n 과목에도 초반에 등장하고, 되게 오래된(?) loss라서
단점이 좀 많고, svm에서 주로 사용하는 것으로 알고 있는데 굉장히 오랜만에 봐서
낯설었고, 왜 hinge loss를 쓰는지 조사해봄.

SAGAN
Spectral Normalization
Spectral Normalization은 Spectral Normalization for Generative Adversarial
Networks에서 GANs 학습 안정화를 위해 판별 모델에 적용되었습니다. 각
layer의 spectral norm을을 특정 상수로 제한하는 것으로 판별 모델의 Lipschitz
상수를 제한하는 방법으로 모든 가중치 레이어의 spectral norm은 1로 설정하
는 것이 지속적으로 잘 수행되기 때문에 다른 normalization 방법과 비교해 추
가적인 hyperparameter 튜닝을 필요로 하지 않는다 합니다. 또한 계산 비용이
적은 것이 장점입니다.
SAGAN은 생성 모델에도 Spectral normalization을 적용하는 것으로 생성 모델
의 파라미터 크기의 상승을 방지하고 비정상적인 gradient를 피할 수 있어
Spectral normalization을 생성 모델과 판별 모델 모두에 적용합니다. 이후 생성
모델과 판별 모델 모두의 Spectral normalization이 안정적인 학습을 보여줄 뿐
만 아니라 생성 모델 업데이트 당 판별 모델 업데이트 수를 더 적게 만드는 것
이 가능해 학습에 대한 계산 비용을 크게 감소시킨다는 것을 발견했습니다.
SAGAN은 판별모델의 learning rate는 0.0004로, 생성 모델의 learning rate는
0.0001을 사용해 판별 모델과 생성 모델 업데이트 비율을 1:1로 학습합니다.

SAGAN
TTLU
Two Time-Scale Update Rule(TTUR)은 GANs Trained by a Two Time-Scale Update Rule
Converge to a Local Nash Equilibrium에서 제안한 방법으로 생성 모델과 판별 모델에 별
도의 learning rate를 사용하는 방법입니다. 판별 모델 학습 : 생성 모델 학습 = 5 : 1과 같
이 판별 모델의 느린 학습 문제를 보완하기 위해 SAGAN에서는 TTUR을 사용했습니다.
TTUR을 사용해 판별 모델 학습 : 생성 모델 학습 = 1 : 1로 학습이 가능하며 판별 모델의
학습 step 수를 더 적게 사용하므로 동일한 시간에서 더 나은 결과를 얻고자 했습니다.

생성된 결과만 간단히 보기

생성된 결과만 간단히 보기
• 맨 왼쪽 그림들은 SAGAN으로 생성한 그림이고, 쿼리에 대한 시각화를 한 것임
• 4개의 color point가 쿼리고, 그 옆에 사진들은 쿼리가 참조한 방향을 시각화(attention)
• 자세히 보면, 굉장히 먼 부분도 참조해서 만들기도 함

SAGAN_2024seminar announce_seoultech.pptx

SAGAN_2024seminar announce_seoultech.pptx

Recommended

Recommended

More Related Content

Similar to SAGAN_2024seminar announce_seoultech.pptx

Similar to SAGAN_2024seminar announce_seoultech.pptx (20)

SAGAN_2024seminar announce_seoultech.pptx