[study] Long Text Generation via Adversarial Training with Leaked Information

Long Text Generation via Adversarial Training
with Leaked Information
Jiaxian Guo, Sidi Lu, Han Cai, Weinan Zhang, Yong Yu, Jun Wang
AAAI 2018, pp.5141-5148
https://arxiv.org/pdf/1709.08624.pdf
국민대학교 자연어처리연구실 남규현
Natural Language Processing Lab. @Kookmin University

Preview
• 텍스트 생성 사용 분야
- 기계 번역, 대화 시스템, 이미지 캡션
• GAN
- 생성자, 판별자 개념을 도입함으로서 비지도 학습으로 문장을 생성 가능
- 문장이 길어질 수록 생성된 문장의 품질이 안 좋아짐.
• LeakGAN
- 판별자 : 높은 단계의 featur들을 생성자에게 유출(Leak)
- 생성자 : Manager, Worker 로 구성
- Manager : 현재 생성한 단어로 latent vector 를 추출, worker에게 전달
- Worker : latent vector로 다음 단어를 예측

읽어봐야 할 논문
• SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient
• FeUdal Networks for Hierarchical Reinforcement Learning

• RNN
- 통계적 방식으로 N-gram을 이용해 단어를 생성하듯이
RNN에서 이전 단어를 이용해 다음 단어 예측
RNN
https://arxiv.org/pdf/1308.0850.pdf
T-1 시점에서 생성한 단어는
T 시점에서 단어를 예측할 때 사용된다.

• SeqGAN
- 기존의 GAN은 텍스트 같은 discrete data를 생성하기 어려움
- 판별자에서 생성자로 gradient를 전달하는데
개별적인 출력때문에 어려움
- 부분적으로 생성된 데이터의 경우 점수를 내기 어려움
- 생성자를 강화학습의 확률 정책(stochastic policy)로 모델링
SeqGAN
http://www.aaai.org/Conferences/AAAI/2017/PreliminaryPapers/12-Yu-L-14344.pdf

• SeqGAN
SeqGAN
- 기존의 GAN과 마찬가지로 생성자는 문장을 생성, 판별자는 실제 문장과 생성 문장을 판별
- 단, 학습 절차를 강화 학습(Reinforcement)을 이용함.

• Generator
SeqGAN
- 생성자는 GRU cell과 attention 을 적용하여 문장을 생성함
T 1 2 3 4 5
Word 나는 밥을 먹고 학교에 갔다
• Generator update
- 모델 파라미터 theta 에 대한 보상 함수 J
- 시점 T에서 state : s 와 action : a 의 생성 확률 G와 목적 함수 Q 곱의 합

집에 …
도서관에 …
SeqGAN
- State-action value function : Q
T 1 2 3 4 5
State Action
𝑌1:𝑇
1
𝑌1:𝑇
2
𝑌1:𝑇
𝑛

SeqGAN
- Derivate J
- Gradient update

• Discriminator
SeqGAN
- CNN 을 이용하여 판별
> Concat
> Convolution
> Polling
• Discriminator Update
- 실제 데이터 분포 P data, 예측 데이터 분포 G theta

SeqGAN

SeqGAN
T 1 2 3 4 5
- State-action value function : Q

• 기존 연구에서 문제점
- 문장이 완성되어야 신호를 줄 수 있는 D 때문에, 문장이 길어질 경우 D의 신호(signal)이 희박해짐.
- 미리 정의된 도메인에서 문장을 생성하는 시도는 있었음.
LeakGAN
https://arxiv.org/abs/1709.08624
• Idea
- 전체를 생성하는 문제에서 여러 부분을 생성하는 문제로 변경하자. (Hierarchical task)
- 정해진 도메인의 데이터 뿐만 아니라 다른 데이터도 생성하자.

LeakGAN

• Leaked feature from D as Guiding signals
- s : input, Pi : model parameter, F : CNN, f : feature vector (leaked information)
LeakGAN
• Hierarchical Structure of G
- D의 유출된 정보를 이용하기 위해 Manager-Worker 계층 구조 형태를 가짐
- Manager : 각 시점 t 에서 유출 정보 ft 를 이용해 goal vector : gt 를 생성
- Worker : manager의 gt를 토대로 다음 단어 생성

• Generation process (Manager)
- Manager 은 유출 정보로 goal vector (worker들의 guideline) 을 생성해야 함.
- hM : hidden state, theta : model parameter, M : LSTM
LeakGAN
- 이전 시점의 goal vector 와 현재 벡터를 embedding.
- Phsai : model parameter

• Generation process (Worker)
- Worker 는 Manager의 goal vector 와 현재 단어로 다음 단어를 예측해야 함.
- Xt : 현재 단어, h : hidden state, theta : model parameter, W : LSTM, a : temp parameter
LeakGAN

• Training of G
- G의 모든 과정은 미분 가능한 구조로 되었으므로, gradient policy를 따라서 아래와 같이
Manager 의 gradient 를 계산.
LeakGAN
- Q : state value function,
현재 상태 st, goal vector : gt 를 바탕으로 monte carlo 을 거쳐 reward를 측정.
- Dcos : 두 벡터의 코사인 유사도
- Ft+c : c step 이후 유출된 정보
- Gt : goal vector by param theta

• Training of G
- Worker의 reward gradient
LeakGAN
- Rt : 본질적인 reward

• NLL & BLEU
LeakGAN
• BLEU score
- Machine translation 에서 실제 문장과 번역한 문장을
성능 비교할 때 사용하는 방법
- Ngram 당 precision을 측정하여 점수를 매김

• Turing test
LeakGAN

[study] Long Text Generation via Adversarial Training with Leaked Information

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [study] Long Text Generation via Adversarial Training with Leaked Information

Similar to [study] Long Text Generation via Adversarial Training with Leaked Information (10)

More from Gyuhyeon Nam

More from Gyuhyeon Nam (10)

[study] Long Text Generation via Adversarial Training with Leaked Information