SlideShare a Scribd company logo
1 of 46
Download to read offline
A Generative Model for Joint Natural
Language Understanding and Generation
자연어처리 팀 : 김은희, 백지윤, 주정헌
목차
•연구 목적,모델 구성
•모델 최적화 방법
•실험 및 결과 분석
•연관된 연구
연구 목적 🏹
•인간의 언어 소통 : 인간과 인간의 소통
👩
“야 티비 꺼줘”
👧
“나한테 이래라
저래라 하지마”
•자연어처리 : 인간과 컴퓨터의 소통
👩
“지니야 티비 꺼줘” “티비를 끕니다”
상식 추론
“티비가 무엇이지?”
목적 기반 대화
“어떠한 명령을
시키는 거지?”
의미론적 구문 분석
“무슨 말을 하는거지?”
🖥
NLU ; 컴퓨터가 자연어를
이해하는 것
NLG ; 컴퓨터가 자연어를
생산하는 것
NLP ; 인간과 컴퓨터가 소통할 수 있도록 하는 일
NLU ; 컴퓨터가 자연어를
이해하는 것
x ; 자연어 잠재공간 z Y ; 컴퓨터가 이해한 방식
NLG ; 컴퓨터가 자연어를
생산하는 것
Y ; 컴퓨터가 이해한 방식 잠재공간 z x ; 자연어
잠재공간 z
x ; 자연어 Y ; 컴퓨터가 이해한 방식
1. 잠재공간을 잘 활용하여서 NLU 와 NLG의 성능을 동시에 향상시킬 수는 없을까 ?
x ; 자연어
Y ; 컴퓨터가 이해한 방식
2. (x,y) 주석 처리 =
막대한 시간과 비용
잠재공간을 잘 활용하여서
두 과제 사이의 정보 교환
이 원할하게 만들 수 있지
않을까?
= x (y) 데이터만을 가지고 y (x)
데이터를 만들어낼 수 있지 않을까 ?
모델 구성 🤖
step by step
1. NLG
Y
Average-Pooling
Bi-lstm
그런데 똑같은 인풋 Y 를 넣어도 z 는 그때그때 달라진다 ! 😨
1. NLG
Y
그렇다면 z 의 모수를 통해서 z를 추정해주자 !
z는 몇 차원으로 할까 ? = latent_dim
Average-Pooling
Bi-lstm
Dense Dense
μ σ
z_mean=layers.Dense(latent_dim)(y)
z_log_var=layers.Dense(latent_dim)(y)
vae 코드
vae 에서 인코더는 z의 최적화된 모수를 output 으로 산출하도록 학습 !
Z 의 차원과 모수에 대한 직관적인 이해
Vary Z1 :
Degree of smile
Vary Z2 :
Head pose
[ [μ 1 ,σ1],
[μ 2 ,σ2]]
[ [z1],
[z2]]
μ : 인풋의 인코딩 값이 어디를 중심으로 몰려있어야하는지를 결정
σ : 각각의 인풋의 인코딩 값이 평균으로부터 얼마나 달라질 수 있는지를 결정
1. NLG
Y
인코더와 디코더를 어떻게 연결하지 ?
인코더 (y ->z)
디코더 (z ->x)
Average-Pooling
Bi-lstm
Dense Dense
μ σ
인코더
Z
z의 확률분포(모수로 추정) 로부터
z 랜덤 추출
디코더
이렇게는 불가능 ! Z 값은 그때 그때 달라질 수 있기 때문에 오차역전파가 안되는 문제 발생 !
“Stochastic” 🚫
1. NLG
Y
인코더와 디코더를 어떻게 연결하지 ? Reparametrization trick !
인코더 (y ->z)
디코더 (z ->x)
Average-Pooling
Bi-lstm
Dense Dense
μ σ
인코더
디코더
Z = μ+ σε
Y
ε ; 표준 정규분포로부터 매우 작은 값 랜덤 추출
*
+
“Stochastic”
“Deterministic”
이렇게 구성함으로써 μ와 σ는 학습가능한 매개변수가 되고 stochastic 문제는 ε한테 떠넘기기 !
1. NLG
Y
인코더와 디코더를 어떻게 연결하지 ? Reparametrization trick !
인코더 (y ->z)
디코더 (z ->x)
Average-Pooling
Bi-lstm
Dense Dense
μ σ
인코더
디코더
Z = μ+ σε
Y
ε ; 표준 정규분포로부터 매우 작은 값 랜덤 추출
*
+
“Stochastic”
“Deterministic”
이렇게 구성함으로써 μ와 σ는 학습가능한 매개변수가 되고 stochastic 문제는 ε한테 떠넘기기 !
attention
lstm
x
Z lstm Attention
Soft
max
Dense
모델이 생성한 문장
Output
🔘 🔘
Y (input) : “{name=giraffe,eat_type=restaurant,price_range=more than 30,near=the six bells}
X (output) : “For those prepared to pay over 30,giraffe is a restaurant located near the six bells”
인코더
디코더
giraffe restaurant more than 30 the six bells
For those …
NLG 에서 Weather dataset 의 encoder input 의
경우 tree structure(y) 를 linearize 해서 집어넣기 !
2. NLU
Y
인코더와 디코더를 어떻게 연결하지 ? Reparametrization trick !
인코더 (x ->z)
디코더 (z ->y)
Average-Pooling
Bi-lstm
Dense Dense
μ σ
인코더
디코더
X
“Deterministic”
NLU 과제는 비교적 인풋 인코딩 값(X) 의 주요 특징 만을 가지고도 해결할 수 있음 ! z=μ
attention
lstm
Y
Z lstm Attention
Soft
max
Dense
모델이 생성한 문장
Output
🔘 🔘
μ : 인풋의 인코딩 값이 어디를 중심으로 몰려있어야하는지를 결정
σ : 각각의 인풋의 인코딩 값이 평균으로부터 얼마나 달라질 수 있는지를 결정
Remind
Y (input) : “{name=giraffe,eat_type=restaurant,price_range=more than 30,near=the six bells}
X (output) : “For those prepared to pay over 30,giraffe is a restaurant located near the six bells”
인코더
디코더
For those prepared to
name eat_type price_range
E2E 데이터셋의 경우 slot 1개 당 한 개의 classifier 존재
…
near
Giraffe
…
Elephant
질문 있으신가요 ? 🙋🙋
모델 최적화 방법 🧩
step by step
은 수학,수학,수학으로 이루어졌더라구요 🙄
지금부터 차근차근 살펴보아요 🌊
1. 옌킨의 부등식
2. KL-Divergence : 두 분포의 차이
1. p 분포를 따를 때 얻는
평균적인 정보량
2. 그런데 p분포가 아닌
q 분포를 따른다면
3. 정보량이
어떻게 달라질까 ?
3. Marginalization
: A 변수 와 B 변수의 관계 (확률값 등등) 를 보고 싶은데, C 변수가 개입되어있다면 ?
모든 C 변수의 경우에서 A 변수와 B 변수의 관계를 구해줘야지 정확한 결과가 나옴 !
P(happiness|weather) = P(happiness, country=England | weather) + P(happiness, country=Scotland | weather) + P(happiness, country=Wales | weather)
A
B C
⛳ P (Z | X,Y) 를 최대화시키기
MLE 방식 > P (X,Y| Z) 를 최대화시키기
여기서 잠깐 !
x 나 y 를 구할 때 z 가 관여
복권에 대한 상금의 기댓값 :
상금 100 50 10
확률 1/1000 1/500 1/100
복권 종류에 따라서 상금이 당첨될 확률이 결정 !
100 * (1/1000) + 50 * (1/500) + 10 * (1/100)
샘플링한 z 에 대한 의 기댓값 :
Z ~
(X 값 고정, Y 값 고정) Z 값 = ?
확률 ?
…
z 에 따라서 값 각각이 나올 수 있는 확률이 결정
Remind
ELBO 가 커지면 log likelihood 값도 커지게 된다 👀 ELBO 를 최적화함수로 사용하자 !
ELBO
따라서, 최적화 함수는
그런데 ! ⏪ ⏪
Z 를 X 를 통해서 구했다 !
따라서, NLU 모델 최적화 함수는
NLG 모델 최적화 함수는
X 만 주어진 경우나 Y 만 주어진 경우는 ?
⛳ P (Z | X) 를 최대화시키기
X 만 주어진 경우
MLE 방식 > P (X | Z) 를 최대화시키기
그런데 ! ⛳ 정확히 말하면 결국 X 데이터만 주어진 unsupervised 방식에서도 최적의 Y를 구하고 싶은 것 !
따라서 ! MLE 방식 > P (X x->z->y->z->x | Z) 를 최대화시키기
X 를 구할 때 Y,Z 가 관여 -> marginalize !
각 경우별 최적화 함수 정리
1. (X,Y) labelled data 에서 NLU 성능 향상을 위한 Z 최적화
2. (X,Y) labelled data 에서 NLG 성능 향상을 위한 Z 최적화
3. (X,?) unlabelled data 에서 NLU 성능 향상을 위한 Z 최적화
4. (?,Y) unlabelled data 에서 NLU 성능 향상을 위한 Z 최적화
그런데 ! ⏪ ⏪
x ; 자연어
하지만 현재 상태 (NLU 최적화는 주황색, NLG 최적화는 보라색)
잠재공간 z Y ; 컴퓨터가 이해한 방식
잠재공간 z
아이디어 1 ) prior 을 맞춰주자 !
q(z|x) = q(x|z) * p(z)
q(z|y) = q(y|z) * p(z)
하지만 NLU,NLG 모델의 최적화 함수가 달라서
공간이 좁혀지는 데에는 한계가 생김
prior 을 단순히 통일시키는 것이 아니라 prior 을 활용해서 두 공간을 연결 시키자 !
q(z|x) = q(x|z) * p(z|y)
q(z|y) = q(y|z) * p(z|x)
스포일러
드디어 !
JUG 모델의 최적화 함수
1. (X,Y) labelled data 에서 NLU,NLG 성능 향상을 위한 Z 최적화
2. (X,Y) labelled data 에서 NLU,NLG 성능 향상을 위한 Z 최적화,
auto-encoding paths 최적화
3. 일부 unlabelled data 를 추가했을 때 NLU,NLG 성능 향상을 위한 Z 최적화
➕
➕
➕ ➕
➕
➕ ➕
질문 있으신가요 ? 🙋🙋
실험 및 결과 분석 🧐
JUG model vs 기존 NLU, NLG 모델
치트키 :
JUG semi
치트키 :
Augmentation
Augmentation :
1) 단일 NLU,NLG 모델을 unlabelled data 로
pre-training , 이를 통해 labelled data 생성(;labelled data2)
2) 기존에 존재하는 labelled data1에 labelled data2 까지 추가하여
1)의 단일 모델 fine-tuning
JUG basic vs 기존 NLU, NLG 모델
NLU, NLG 모델 각각에서
성능이 고르게 우수 !
JUG vs 기존 NLU, NLG 모델
단일 모델(Decoupled) 도 치트키인
Augmentation 에서는 성능이 향상하였지만 그래도
JUG 모델의 성능에는 못 미침
JUG semi 모델 💯 ! 특히 labelled data 의 비율이
적은 경우 결과가 매우 유의미 -> 데이터 수가
부족한 경우에 JUG 모델이 잘 활용될 가능성을 보임
공유 공간 Z 의 빈 자리가 얼마나 클까 ?
X 데이터 셋 vs Y 데이터 셋
Z 는 shared latent space 이기 때문에 bi-unlabelled data 를 사용했을 때
제일 효과적
질문 있으신가요 ? 🙋🙋
연관된 연구 🗂
Auto-encoder
🚂
https://arxiv.org/pdf/2003.05991.pdf
Vae
🚗
https://arxiv.org/pdf/1312.6114.pdf
vae 코드
def vae_loss(x, x_decoded_mean):
xent_loss = objectives.binary_crossentropy(x,
x_decoded_mean)
kl_loss = -0.5 * K.mean(1 + z_log_var -
K.square(z_mean) - K.exp(z_log_var))
loss = xent_loss + kl_loss
return loss
질문 있으신가요 ? 🙋🙋
감사합니다 ! 🌝
발표 자료가 필요하시면 337jenny79@gmail.com 으로 연락 주세요

More Related Content

Similar to A Generative Model for Joint Natural Language Understanding and Generation

Introduction to Julia
Introduction to JuliaIntroduction to Julia
Introduction to Julia岳華 杜
 
Big Data Analysis
Big Data AnalysisBig Data Analysis
Big Data AnalysisNBER
 
Supervised learning: Types of Machine Learning
Supervised learning: Types of Machine LearningSupervised learning: Types of Machine Learning
Supervised learning: Types of Machine LearningLibya Thomas
 
Declarative Datalog Debugging for Mere Mortals
Declarative Datalog Debugging for Mere MortalsDeclarative Datalog Debugging for Mere Mortals
Declarative Datalog Debugging for Mere MortalsBertram Ludäscher
 
DeepStochLog: Neural Stochastic Logic Programming
DeepStochLog: Neural Stochastic Logic ProgrammingDeepStochLog: Neural Stochastic Logic Programming
DeepStochLog: Neural Stochastic Logic ProgrammingThomas Winters
 
Deep generative model.pdf
Deep generative model.pdfDeep generative model.pdf
Deep generative model.pdfHyungjoo Cho
 
Lecture 6
Lecture 6Lecture 6
Lecture 6hunglq
 
Neural Nets Deconstructed
Neural Nets DeconstructedNeural Nets Deconstructed
Neural Nets DeconstructedPaul Sterk
 
know Machine Learning Basic Concepts.pdf
know Machine Learning Basic Concepts.pdfknow Machine Learning Basic Concepts.pdf
know Machine Learning Basic Concepts.pdfhemangppatel
 
Interactive Proof Systems and An Introduction to PCP
Interactive Proof Systems and An Introduction to PCPInteractive Proof Systems and An Introduction to PCP
Interactive Proof Systems and An Introduction to PCPReza Rahimi
 
20230213_ComputerVision_연구.pptx
20230213_ComputerVision_연구.pptx20230213_ComputerVision_연구.pptx
20230213_ComputerVision_연구.pptxssuser7807522
 
GDSC SSN - solution Challenge : Fundamentals of Decision Making
GDSC SSN - solution Challenge : Fundamentals of Decision MakingGDSC SSN - solution Challenge : Fundamentals of Decision Making
GDSC SSN - solution Challenge : Fundamentals of Decision MakingGDSCSSN
 

Similar to A Generative Model for Joint Natural Language Understanding and Generation (20)

Introduction to Julia
Introduction to JuliaIntroduction to Julia
Introduction to Julia
 
Big Data Analysis
Big Data AnalysisBig Data Analysis
Big Data Analysis
 
Supervised learning: Types of Machine Learning
Supervised learning: Types of Machine LearningSupervised learning: Types of Machine Learning
Supervised learning: Types of Machine Learning
 
Declarative Datalog Debugging for Mere Mortals
Declarative Datalog Debugging for Mere MortalsDeclarative Datalog Debugging for Mere Mortals
Declarative Datalog Debugging for Mere Mortals
 
GuessWhat?!
GuessWhat?!GuessWhat?!
GuessWhat?!
 
DeepStochLog: Neural Stochastic Logic Programming
DeepStochLog: Neural Stochastic Logic ProgrammingDeepStochLog: Neural Stochastic Logic Programming
DeepStochLog: Neural Stochastic Logic Programming
 
The Perceptron (D1L2 Deep Learning for Speech and Language)
The Perceptron (D1L2 Deep Learning for Speech and Language)The Perceptron (D1L2 Deep Learning for Speech and Language)
The Perceptron (D1L2 Deep Learning for Speech and Language)
 
Deep generative model.pdf
Deep generative model.pdfDeep generative model.pdf
Deep generative model.pdf
 
Lecture 6
Lecture 6Lecture 6
Lecture 6
 
Lecture12 xing
Lecture12 xingLecture12 xing
Lecture12 xing
 
Neural Nets Deconstructed
Neural Nets DeconstructedNeural Nets Deconstructed
Neural Nets Deconstructed
 
SEGAN: Speech Enhancement Generative Adversarial Network
SEGAN: Speech Enhancement Generative Adversarial NetworkSEGAN: Speech Enhancement Generative Adversarial Network
SEGAN: Speech Enhancement Generative Adversarial Network
 
Fol
FolFol
Fol
 
"Let us talk about output features! by Florence d’Alché-Buc, LTCI & Full Prof...
"Let us talk about output features! by Florence d’Alché-Buc, LTCI & Full Prof..."Let us talk about output features! by Florence d’Alché-Buc, LTCI & Full Prof...
"Let us talk about output features! by Florence d’Alché-Buc, LTCI & Full Prof...
 
Word2vec and Friends
Word2vec and FriendsWord2vec and Friends
Word2vec and Friends
 
know Machine Learning Basic Concepts.pdf
know Machine Learning Basic Concepts.pdfknow Machine Learning Basic Concepts.pdf
know Machine Learning Basic Concepts.pdf
 
Interactive Proof Systems and An Introduction to PCP
Interactive Proof Systems and An Introduction to PCPInteractive Proof Systems and An Introduction to PCP
Interactive Proof Systems and An Introduction to PCP
 
20230213_ComputerVision_연구.pptx
20230213_ComputerVision_연구.pptx20230213_ComputerVision_연구.pptx
20230213_ComputerVision_연구.pptx
 
Quantification
QuantificationQuantification
Quantification
 
GDSC SSN - solution Challenge : Fundamentals of Decision Making
GDSC SSN - solution Challenge : Fundamentals of Decision MakingGDSC SSN - solution Challenge : Fundamentals of Decision Making
GDSC SSN - solution Challenge : Fundamentals of Decision Making
 

More from taeseon ryu

OpineSum Entailment-based self-training for abstractive opinion summarization...
OpineSum Entailment-based self-training for abstractive opinion summarization...OpineSum Entailment-based self-training for abstractive opinion summarization...
OpineSum Entailment-based self-training for abstractive opinion summarization...taeseon ryu
 
3D Gaussian Splatting
3D Gaussian Splatting3D Gaussian Splatting
3D Gaussian Splattingtaeseon ryu
 
Hyperbolic Image Embedding.pptx
Hyperbolic  Image Embedding.pptxHyperbolic  Image Embedding.pptx
Hyperbolic Image Embedding.pptxtaeseon ryu
 
MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정
MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정
MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정taeseon ryu
 
LLaMA Open and Efficient Foundation Language Models - 230528.pdf
LLaMA Open and Efficient Foundation Language Models - 230528.pdfLLaMA Open and Efficient Foundation Language Models - 230528.pdf
LLaMA Open and Efficient Foundation Language Models - 230528.pdftaeseon ryu
 
Dataset Distillation by Matching Training Trajectories
Dataset Distillation by Matching Training Trajectories Dataset Distillation by Matching Training Trajectories
Dataset Distillation by Matching Training Trajectories taeseon ryu
 
Packed Levitated Marker for Entity and Relation Extraction
Packed Levitated Marker for Entity and Relation ExtractionPacked Levitated Marker for Entity and Relation Extraction
Packed Levitated Marker for Entity and Relation Extractiontaeseon ryu
 
MOReL: Model-Based Offline Reinforcement Learning
MOReL: Model-Based Offline Reinforcement LearningMOReL: Model-Based Offline Reinforcement Learning
MOReL: Model-Based Offline Reinforcement Learningtaeseon ryu
 
Scaling Instruction-Finetuned Language Models
Scaling Instruction-Finetuned Language ModelsScaling Instruction-Finetuned Language Models
Scaling Instruction-Finetuned Language Modelstaeseon ryu
 
Visual prompt tuning
Visual prompt tuningVisual prompt tuning
Visual prompt tuningtaeseon ryu
 
variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdf
variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdfvariBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdf
variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdftaeseon ryu
 
Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdf
Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdfReinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdf
Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdftaeseon ryu
 
The Forward-Forward Algorithm
The Forward-Forward AlgorithmThe Forward-Forward Algorithm
The Forward-Forward Algorithmtaeseon ryu
 
Towards Robust and Reproducible Active Learning using Neural Networks
Towards Robust and Reproducible Active Learning using Neural NetworksTowards Robust and Reproducible Active Learning using Neural Networks
Towards Robust and Reproducible Active Learning using Neural Networkstaeseon ryu
 
BRIO: Bringing Order to Abstractive Summarization
BRIO: Bringing Order to Abstractive SummarizationBRIO: Bringing Order to Abstractive Summarization
BRIO: Bringing Order to Abstractive Summarizationtaeseon ryu
 

More from taeseon ryu (20)

VoxelNet
VoxelNetVoxelNet
VoxelNet
 
OpineSum Entailment-based self-training for abstractive opinion summarization...
OpineSum Entailment-based self-training for abstractive opinion summarization...OpineSum Entailment-based self-training for abstractive opinion summarization...
OpineSum Entailment-based self-training for abstractive opinion summarization...
 
3D Gaussian Splatting
3D Gaussian Splatting3D Gaussian Splatting
3D Gaussian Splatting
 
JetsonTX2 Python
 JetsonTX2 Python  JetsonTX2 Python
JetsonTX2 Python
 
Hyperbolic Image Embedding.pptx
Hyperbolic  Image Embedding.pptxHyperbolic  Image Embedding.pptx
Hyperbolic Image Embedding.pptx
 
MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정
MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정
MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정
 
LLaMA Open and Efficient Foundation Language Models - 230528.pdf
LLaMA Open and Efficient Foundation Language Models - 230528.pdfLLaMA Open and Efficient Foundation Language Models - 230528.pdf
LLaMA Open and Efficient Foundation Language Models - 230528.pdf
 
YOLO V6
YOLO V6YOLO V6
YOLO V6
 
Dataset Distillation by Matching Training Trajectories
Dataset Distillation by Matching Training Trajectories Dataset Distillation by Matching Training Trajectories
Dataset Distillation by Matching Training Trajectories
 
RL_UpsideDown
RL_UpsideDownRL_UpsideDown
RL_UpsideDown
 
Packed Levitated Marker for Entity and Relation Extraction
Packed Levitated Marker for Entity and Relation ExtractionPacked Levitated Marker for Entity and Relation Extraction
Packed Levitated Marker for Entity and Relation Extraction
 
MOReL: Model-Based Offline Reinforcement Learning
MOReL: Model-Based Offline Reinforcement LearningMOReL: Model-Based Offline Reinforcement Learning
MOReL: Model-Based Offline Reinforcement Learning
 
Scaling Instruction-Finetuned Language Models
Scaling Instruction-Finetuned Language ModelsScaling Instruction-Finetuned Language Models
Scaling Instruction-Finetuned Language Models
 
Visual prompt tuning
Visual prompt tuningVisual prompt tuning
Visual prompt tuning
 
mPLUG
mPLUGmPLUG
mPLUG
 
variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdf
variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdfvariBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdf
variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdf
 
Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdf
Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdfReinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdf
Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdf
 
The Forward-Forward Algorithm
The Forward-Forward AlgorithmThe Forward-Forward Algorithm
The Forward-Forward Algorithm
 
Towards Robust and Reproducible Active Learning using Neural Networks
Towards Robust and Reproducible Active Learning using Neural NetworksTowards Robust and Reproducible Active Learning using Neural Networks
Towards Robust and Reproducible Active Learning using Neural Networks
 
BRIO: Bringing Order to Abstractive Summarization
BRIO: Bringing Order to Abstractive SummarizationBRIO: Bringing Order to Abstractive Summarization
BRIO: Bringing Order to Abstractive Summarization
 

Recently uploaded

EGYPTIAN IMPRINT IN SPAIN Lecture by Dr Abeer Zahana
EGYPTIAN IMPRINT IN SPAIN Lecture by Dr Abeer ZahanaEGYPTIAN IMPRINT IN SPAIN Lecture by Dr Abeer Zahana
EGYPTIAN IMPRINT IN SPAIN Lecture by Dr Abeer ZahanaDr.Mahmoud Abbas
 
whole genome sequencing new and its types including shortgun and clone by clone
whole genome sequencing new  and its types including shortgun and clone by clonewhole genome sequencing new  and its types including shortgun and clone by clone
whole genome sequencing new and its types including shortgun and clone by clonechaudhary charan shingh university
 
LESSON PLAN IN SCIENCE GRADE 4 WEEK 1 DAY 2
LESSON PLAN IN SCIENCE GRADE 4 WEEK 1 DAY 2LESSON PLAN IN SCIENCE GRADE 4 WEEK 1 DAY 2
LESSON PLAN IN SCIENCE GRADE 4 WEEK 1 DAY 2AuEnriquezLontok
 
Timeless Cosmology: Towards a Geometric Origin of Cosmological Correlations
Timeless Cosmology: Towards a Geometric Origin of Cosmological CorrelationsTimeless Cosmology: Towards a Geometric Origin of Cosmological Correlations
Timeless Cosmology: Towards a Geometric Origin of Cosmological CorrelationsDanielBaumann11
 
Unveiling the Cannabis Plant’s Potential
Unveiling the Cannabis Plant’s PotentialUnveiling the Cannabis Plant’s Potential
Unveiling the Cannabis Plant’s PotentialMarkus Roggen
 
BACTERIAL DEFENSE SYSTEM by Dr. Chayanika Das
BACTERIAL DEFENSE SYSTEM by Dr. Chayanika DasBACTERIAL DEFENSE SYSTEM by Dr. Chayanika Das
BACTERIAL DEFENSE SYSTEM by Dr. Chayanika DasChayanika Das
 
Loudspeaker- direct radiating type and horn type.pptx
Loudspeaker- direct radiating type and horn type.pptxLoudspeaker- direct radiating type and horn type.pptx
Loudspeaker- direct radiating type and horn type.pptxpriyankatabhane
 
GENERAL PHYSICS 2 REFRACTION OF LIGHT SENIOR HIGH SCHOOL GENPHYS2.pptx
GENERAL PHYSICS 2 REFRACTION OF LIGHT SENIOR HIGH SCHOOL GENPHYS2.pptxGENERAL PHYSICS 2 REFRACTION OF LIGHT SENIOR HIGH SCHOOL GENPHYS2.pptx
GENERAL PHYSICS 2 REFRACTION OF LIGHT SENIOR HIGH SCHOOL GENPHYS2.pptxRitchAndruAgustin
 
Environmental acoustics- noise criteria.pptx
Environmental acoustics- noise criteria.pptxEnvironmental acoustics- noise criteria.pptx
Environmental acoustics- noise criteria.pptxpriyankatabhane
 
Q4-Mod-1c-Quiz-Projectile-333344444.pptx
Q4-Mod-1c-Quiz-Projectile-333344444.pptxQ4-Mod-1c-Quiz-Projectile-333344444.pptx
Q4-Mod-1c-Quiz-Projectile-333344444.pptxtuking87
 
LAMP PCR.pptx by Dr. Chayanika Das, Ph.D, Veterinary Microbiology
LAMP PCR.pptx by Dr. Chayanika Das, Ph.D, Veterinary MicrobiologyLAMP PCR.pptx by Dr. Chayanika Das, Ph.D, Veterinary Microbiology
LAMP PCR.pptx by Dr. Chayanika Das, Ph.D, Veterinary MicrobiologyChayanika Das
 
Oxo-Acids of Halogens and their Salts.pptx
Oxo-Acids of Halogens and their Salts.pptxOxo-Acids of Halogens and their Salts.pptx
Oxo-Acids of Halogens and their Salts.pptxfarhanvvdk
 
Probability.pptx, Types of Probability, UG
Probability.pptx, Types of Probability, UGProbability.pptx, Types of Probability, UG
Probability.pptx, Types of Probability, UGSoniaBajaj10
 
linear Regression, multiple Regression and Annova
linear Regression, multiple Regression and Annovalinear Regression, multiple Regression and Annova
linear Regression, multiple Regression and AnnovaMansi Rastogi
 
FBI Profiling - Forensic Psychology.pptx
FBI Profiling - Forensic Psychology.pptxFBI Profiling - Forensic Psychology.pptx
FBI Profiling - Forensic Psychology.pptxPayal Shrivastava
 
final waves properties grade 7 - third quarter
final waves properties grade 7 - third quarterfinal waves properties grade 7 - third quarter
final waves properties grade 7 - third quarterHanHyoKim
 
DNA isolation molecular biology practical.pptx
DNA isolation molecular biology practical.pptxDNA isolation molecular biology practical.pptx
DNA isolation molecular biology practical.pptxGiDMOh
 
Science (Communication) and Wikipedia - Potentials and Pitfalls
Science (Communication) and Wikipedia - Potentials and PitfallsScience (Communication) and Wikipedia - Potentials and Pitfalls
Science (Communication) and Wikipedia - Potentials and PitfallsDobusch Leonhard
 

Recently uploaded (20)

EGYPTIAN IMPRINT IN SPAIN Lecture by Dr Abeer Zahana
EGYPTIAN IMPRINT IN SPAIN Lecture by Dr Abeer ZahanaEGYPTIAN IMPRINT IN SPAIN Lecture by Dr Abeer Zahana
EGYPTIAN IMPRINT IN SPAIN Lecture by Dr Abeer Zahana
 
whole genome sequencing new and its types including shortgun and clone by clone
whole genome sequencing new  and its types including shortgun and clone by clonewhole genome sequencing new  and its types including shortgun and clone by clone
whole genome sequencing new and its types including shortgun and clone by clone
 
LESSON PLAN IN SCIENCE GRADE 4 WEEK 1 DAY 2
LESSON PLAN IN SCIENCE GRADE 4 WEEK 1 DAY 2LESSON PLAN IN SCIENCE GRADE 4 WEEK 1 DAY 2
LESSON PLAN IN SCIENCE GRADE 4 WEEK 1 DAY 2
 
Timeless Cosmology: Towards a Geometric Origin of Cosmological Correlations
Timeless Cosmology: Towards a Geometric Origin of Cosmological CorrelationsTimeless Cosmology: Towards a Geometric Origin of Cosmological Correlations
Timeless Cosmology: Towards a Geometric Origin of Cosmological Correlations
 
Unveiling the Cannabis Plant’s Potential
Unveiling the Cannabis Plant’s PotentialUnveiling the Cannabis Plant’s Potential
Unveiling the Cannabis Plant’s Potential
 
BACTERIAL DEFENSE SYSTEM by Dr. Chayanika Das
BACTERIAL DEFENSE SYSTEM by Dr. Chayanika DasBACTERIAL DEFENSE SYSTEM by Dr. Chayanika Das
BACTERIAL DEFENSE SYSTEM by Dr. Chayanika Das
 
Let’s Say Someone Did Drop the Bomb. Then What?
Let’s Say Someone Did Drop the Bomb. Then What?Let’s Say Someone Did Drop the Bomb. Then What?
Let’s Say Someone Did Drop the Bomb. Then What?
 
Loudspeaker- direct radiating type and horn type.pptx
Loudspeaker- direct radiating type and horn type.pptxLoudspeaker- direct radiating type and horn type.pptx
Loudspeaker- direct radiating type and horn type.pptx
 
GENERAL PHYSICS 2 REFRACTION OF LIGHT SENIOR HIGH SCHOOL GENPHYS2.pptx
GENERAL PHYSICS 2 REFRACTION OF LIGHT SENIOR HIGH SCHOOL GENPHYS2.pptxGENERAL PHYSICS 2 REFRACTION OF LIGHT SENIOR HIGH SCHOOL GENPHYS2.pptx
GENERAL PHYSICS 2 REFRACTION OF LIGHT SENIOR HIGH SCHOOL GENPHYS2.pptx
 
Environmental acoustics- noise criteria.pptx
Environmental acoustics- noise criteria.pptxEnvironmental acoustics- noise criteria.pptx
Environmental acoustics- noise criteria.pptx
 
Q4-Mod-1c-Quiz-Projectile-333344444.pptx
Q4-Mod-1c-Quiz-Projectile-333344444.pptxQ4-Mod-1c-Quiz-Projectile-333344444.pptx
Q4-Mod-1c-Quiz-Projectile-333344444.pptx
 
LAMP PCR.pptx by Dr. Chayanika Das, Ph.D, Veterinary Microbiology
LAMP PCR.pptx by Dr. Chayanika Das, Ph.D, Veterinary MicrobiologyLAMP PCR.pptx by Dr. Chayanika Das, Ph.D, Veterinary Microbiology
LAMP PCR.pptx by Dr. Chayanika Das, Ph.D, Veterinary Microbiology
 
Oxo-Acids of Halogens and their Salts.pptx
Oxo-Acids of Halogens and their Salts.pptxOxo-Acids of Halogens and their Salts.pptx
Oxo-Acids of Halogens and their Salts.pptx
 
Interferons.pptx.
Interferons.pptx.Interferons.pptx.
Interferons.pptx.
 
Probability.pptx, Types of Probability, UG
Probability.pptx, Types of Probability, UGProbability.pptx, Types of Probability, UG
Probability.pptx, Types of Probability, UG
 
linear Regression, multiple Regression and Annova
linear Regression, multiple Regression and Annovalinear Regression, multiple Regression and Annova
linear Regression, multiple Regression and Annova
 
FBI Profiling - Forensic Psychology.pptx
FBI Profiling - Forensic Psychology.pptxFBI Profiling - Forensic Psychology.pptx
FBI Profiling - Forensic Psychology.pptx
 
final waves properties grade 7 - third quarter
final waves properties grade 7 - third quarterfinal waves properties grade 7 - third quarter
final waves properties grade 7 - third quarter
 
DNA isolation molecular biology practical.pptx
DNA isolation molecular biology practical.pptxDNA isolation molecular biology practical.pptx
DNA isolation molecular biology practical.pptx
 
Science (Communication) and Wikipedia - Potentials and Pitfalls
Science (Communication) and Wikipedia - Potentials and PitfallsScience (Communication) and Wikipedia - Potentials and Pitfalls
Science (Communication) and Wikipedia - Potentials and Pitfalls
 

A Generative Model for Joint Natural Language Understanding and Generation

  • 1. A Generative Model for Joint Natural Language Understanding and Generation 자연어처리 팀 : 김은희, 백지윤, 주정헌
  • 2. 목차 •연구 목적,모델 구성 •모델 최적화 방법 •실험 및 결과 분석 •연관된 연구
  • 4. •인간의 언어 소통 : 인간과 인간의 소통 👩 “야 티비 꺼줘” 👧 “나한테 이래라 저래라 하지마”
  • 5. •자연어처리 : 인간과 컴퓨터의 소통 👩 “지니야 티비 꺼줘” “티비를 끕니다” 상식 추론 “티비가 무엇이지?” 목적 기반 대화 “어떠한 명령을 시키는 거지?” 의미론적 구문 분석 “무슨 말을 하는거지?” 🖥 NLU ; 컴퓨터가 자연어를 이해하는 것 NLG ; 컴퓨터가 자연어를 생산하는 것 NLP ; 인간과 컴퓨터가 소통할 수 있도록 하는 일
  • 6. NLU ; 컴퓨터가 자연어를 이해하는 것 x ; 자연어 잠재공간 z Y ; 컴퓨터가 이해한 방식 NLG ; 컴퓨터가 자연어를 생산하는 것 Y ; 컴퓨터가 이해한 방식 잠재공간 z x ; 자연어 잠재공간 z x ; 자연어 Y ; 컴퓨터가 이해한 방식 1. 잠재공간을 잘 활용하여서 NLU 와 NLG의 성능을 동시에 향상시킬 수는 없을까 ?
  • 7. x ; 자연어 Y ; 컴퓨터가 이해한 방식 2. (x,y) 주석 처리 = 막대한 시간과 비용 잠재공간을 잘 활용하여서 두 과제 사이의 정보 교환 이 원할하게 만들 수 있지 않을까? = x (y) 데이터만을 가지고 y (x) 데이터를 만들어낼 수 있지 않을까 ?
  • 9. 1. NLG Y Average-Pooling Bi-lstm 그런데 똑같은 인풋 Y 를 넣어도 z 는 그때그때 달라진다 ! 😨
  • 10. 1. NLG Y 그렇다면 z 의 모수를 통해서 z를 추정해주자 ! z는 몇 차원으로 할까 ? = latent_dim Average-Pooling Bi-lstm Dense Dense μ σ z_mean=layers.Dense(latent_dim)(y) z_log_var=layers.Dense(latent_dim)(y) vae 코드 vae 에서 인코더는 z의 최적화된 모수를 output 으로 산출하도록 학습 !
  • 11. Z 의 차원과 모수에 대한 직관적인 이해 Vary Z1 : Degree of smile Vary Z2 : Head pose [ [μ 1 ,σ1], [μ 2 ,σ2]] [ [z1], [z2]] μ : 인풋의 인코딩 값이 어디를 중심으로 몰려있어야하는지를 결정 σ : 각각의 인풋의 인코딩 값이 평균으로부터 얼마나 달라질 수 있는지를 결정
  • 12. 1. NLG Y 인코더와 디코더를 어떻게 연결하지 ? 인코더 (y ->z) 디코더 (z ->x) Average-Pooling Bi-lstm Dense Dense μ σ 인코더 Z z의 확률분포(모수로 추정) 로부터 z 랜덤 추출 디코더 이렇게는 불가능 ! Z 값은 그때 그때 달라질 수 있기 때문에 오차역전파가 안되는 문제 발생 ! “Stochastic” 🚫
  • 13. 1. NLG Y 인코더와 디코더를 어떻게 연결하지 ? Reparametrization trick ! 인코더 (y ->z) 디코더 (z ->x) Average-Pooling Bi-lstm Dense Dense μ σ 인코더 디코더 Z = μ+ σε Y ε ; 표준 정규분포로부터 매우 작은 값 랜덤 추출 * + “Stochastic” “Deterministic” 이렇게 구성함으로써 μ와 σ는 학습가능한 매개변수가 되고 stochastic 문제는 ε한테 떠넘기기 !
  • 14. 1. NLG Y 인코더와 디코더를 어떻게 연결하지 ? Reparametrization trick ! 인코더 (y ->z) 디코더 (z ->x) Average-Pooling Bi-lstm Dense Dense μ σ 인코더 디코더 Z = μ+ σε Y ε ; 표준 정규분포로부터 매우 작은 값 랜덤 추출 * + “Stochastic” “Deterministic” 이렇게 구성함으로써 μ와 σ는 학습가능한 매개변수가 되고 stochastic 문제는 ε한테 떠넘기기 ! attention lstm x Z lstm Attention Soft max Dense 모델이 생성한 문장 Output 🔘 🔘
  • 15. Y (input) : “{name=giraffe,eat_type=restaurant,price_range=more than 30,near=the six bells} X (output) : “For those prepared to pay over 30,giraffe is a restaurant located near the six bells” 인코더 디코더 giraffe restaurant more than 30 the six bells For those … NLG 에서 Weather dataset 의 encoder input 의 경우 tree structure(y) 를 linearize 해서 집어넣기 !
  • 16. 2. NLU Y 인코더와 디코더를 어떻게 연결하지 ? Reparametrization trick ! 인코더 (x ->z) 디코더 (z ->y) Average-Pooling Bi-lstm Dense Dense μ σ 인코더 디코더 X “Deterministic” NLU 과제는 비교적 인풋 인코딩 값(X) 의 주요 특징 만을 가지고도 해결할 수 있음 ! z=μ attention lstm Y Z lstm Attention Soft max Dense 모델이 생성한 문장 Output 🔘 🔘 μ : 인풋의 인코딩 값이 어디를 중심으로 몰려있어야하는지를 결정 σ : 각각의 인풋의 인코딩 값이 평균으로부터 얼마나 달라질 수 있는지를 결정 Remind
  • 17. Y (input) : “{name=giraffe,eat_type=restaurant,price_range=more than 30,near=the six bells} X (output) : “For those prepared to pay over 30,giraffe is a restaurant located near the six bells” 인코더 디코더 For those prepared to name eat_type price_range E2E 데이터셋의 경우 slot 1개 당 한 개의 classifier 존재 … near Giraffe … Elephant
  • 19. 모델 최적화 방법 🧩 step by step
  • 23. 2. KL-Divergence : 두 분포의 차이 1. p 분포를 따를 때 얻는 평균적인 정보량 2. 그런데 p분포가 아닌 q 분포를 따른다면 3. 정보량이 어떻게 달라질까 ?
  • 24. 3. Marginalization : A 변수 와 B 변수의 관계 (확률값 등등) 를 보고 싶은데, C 변수가 개입되어있다면 ? 모든 C 변수의 경우에서 A 변수와 B 변수의 관계를 구해줘야지 정확한 결과가 나옴 ! P(happiness|weather) = P(happiness, country=England | weather) + P(happiness, country=Scotland | weather) + P(happiness, country=Wales | weather) A B C
  • 25. ⛳ P (Z | X,Y) 를 최대화시키기 MLE 방식 > P (X,Y| Z) 를 최대화시키기 여기서 잠깐 ! x 나 y 를 구할 때 z 가 관여
  • 26. 복권에 대한 상금의 기댓값 : 상금 100 50 10 확률 1/1000 1/500 1/100 복권 종류에 따라서 상금이 당첨될 확률이 결정 ! 100 * (1/1000) + 50 * (1/500) + 10 * (1/100) 샘플링한 z 에 대한 의 기댓값 : Z ~ (X 값 고정, Y 값 고정) Z 값 = ? 확률 ? … z 에 따라서 값 각각이 나올 수 있는 확률이 결정
  • 27. Remind ELBO 가 커지면 log likelihood 값도 커지게 된다 👀 ELBO 를 최적화함수로 사용하자 ! ELBO 따라서, 최적화 함수는
  • 28. 그런데 ! ⏪ ⏪ Z 를 X 를 통해서 구했다 ! 따라서, NLU 모델 최적화 함수는 NLG 모델 최적화 함수는
  • 29. X 만 주어진 경우나 Y 만 주어진 경우는 ? ⛳ P (Z | X) 를 최대화시키기 X 만 주어진 경우 MLE 방식 > P (X | Z) 를 최대화시키기 그런데 ! ⛳ 정확히 말하면 결국 X 데이터만 주어진 unsupervised 방식에서도 최적의 Y를 구하고 싶은 것 ! 따라서 ! MLE 방식 > P (X x->z->y->z->x | Z) 를 최대화시키기 X 를 구할 때 Y,Z 가 관여 -> marginalize !
  • 30. 각 경우별 최적화 함수 정리 1. (X,Y) labelled data 에서 NLU 성능 향상을 위한 Z 최적화 2. (X,Y) labelled data 에서 NLG 성능 향상을 위한 Z 최적화 3. (X,?) unlabelled data 에서 NLU 성능 향상을 위한 Z 최적화 4. (?,Y) unlabelled data 에서 NLU 성능 향상을 위한 Z 최적화
  • 31. 그런데 ! ⏪ ⏪ x ; 자연어 하지만 현재 상태 (NLU 최적화는 주황색, NLG 최적화는 보라색) 잠재공간 z Y ; 컴퓨터가 이해한 방식 잠재공간 z 아이디어 1 ) prior 을 맞춰주자 ! q(z|x) = q(x|z) * p(z) q(z|y) = q(y|z) * p(z) 하지만 NLU,NLG 모델의 최적화 함수가 달라서 공간이 좁혀지는 데에는 한계가 생김 prior 을 단순히 통일시키는 것이 아니라 prior 을 활용해서 두 공간을 연결 시키자 ! q(z|x) = q(x|z) * p(z|y) q(z|y) = q(y|z) * p(z|x) 스포일러
  • 33. JUG 모델의 최적화 함수 1. (X,Y) labelled data 에서 NLU,NLG 성능 향상을 위한 Z 최적화 2. (X,Y) labelled data 에서 NLU,NLG 성능 향상을 위한 Z 최적화, auto-encoding paths 최적화 3. 일부 unlabelled data 를 추가했을 때 NLU,NLG 성능 향상을 위한 Z 최적화 ➕ ➕ ➕ ➕ ➕ ➕ ➕
  • 35. 실험 및 결과 분석 🧐
  • 36. JUG model vs 기존 NLU, NLG 모델 치트키 : JUG semi 치트키 : Augmentation Augmentation : 1) 단일 NLU,NLG 모델을 unlabelled data 로 pre-training , 이를 통해 labelled data 생성(;labelled data2) 2) 기존에 존재하는 labelled data1에 labelled data2 까지 추가하여 1)의 단일 모델 fine-tuning
  • 37. JUG basic vs 기존 NLU, NLG 모델 NLU, NLG 모델 각각에서 성능이 고르게 우수 !
  • 38. JUG vs 기존 NLU, NLG 모델 단일 모델(Decoupled) 도 치트키인 Augmentation 에서는 성능이 향상하였지만 그래도 JUG 모델의 성능에는 못 미침 JUG semi 모델 💯 ! 특히 labelled data 의 비율이 적은 경우 결과가 매우 유의미 -> 데이터 수가 부족한 경우에 JUG 모델이 잘 활용될 가능성을 보임
  • 39. 공유 공간 Z 의 빈 자리가 얼마나 클까 ?
  • 40. X 데이터 셋 vs Y 데이터 셋 Z 는 shared latent space 이기 때문에 bi-unlabelled data 를 사용했을 때 제일 효과적
  • 44. vae 코드 def vae_loss(x, x_decoded_mean): xent_loss = objectives.binary_crossentropy(x, x_decoded_mean) kl_loss = -0.5 * K.mean(1 + z_log_var - K.square(z_mean) - K.exp(z_log_var)) loss = xent_loss + kl_loss return loss
  • 46. 감사합니다 ! 🌝 발표 자료가 필요하시면 337jenny79@gmail.com 으로 연락 주세요