2017 tensor flow dev summit (Sequence Models and the RNN API)
작성된 자료로 2017년 2월 22일 오후 8시 부터 Maru180에서
GDG Seoul 에서 주최한 2017 Tensorflow Dev Summit Extended Seou에서
발표를 진행
Sequence Models and the RNN API 정리 내역 공유
DeBERTA : Decoding-Enhanced BERT with Disentangled Attentiontaeseon ryu
오늘 소개해 드릴 논문은 구글의 BERT와 페이스북 현재 메타의 RoBERTa를 기반으로 만들어진 모델입니다. RoBERTa + Disentangled Attention과 enhanced mask decode
두가지의 핵심 기술로 RoBERTa를 더욱 개선 시킨 모델이라고 이해하시면 될 것 같습니다. 추가적으로 Scale Invariant Fine Tuning을 도입하여 RoBERTa를 상당히 많은 테스크에서, NLU 테스크에서는 RoBERTa, BERT이상의 성능을 보여준 논문이기도 합니다.
논문의 자세한 리뷰부터, 백그라운드 지식까지, 자연어처리팀 진명훈님이 도와주셨습니다.
모두를 위한 기계번역 (박찬준)
○ 개요
2014년 본격적으로 NMT에 대한 연구가 진행되었으며 현재는 Transformer 기반의 다양한 NMT 시스템들이 연구되고 있습니다.
더 나아가 최근 NLP에서 가장 뜨거운 연구분야인 Language Representation 분야에서도 Transformer를 기반으로 한 BERT, GPT-2, XLNET 등의 모델이 개발되고 있습니다.
본 테크톡에서는 먼저 RBMT와 SMT에 대해서 간략하게 살펴보고 RNN기반 NMT 부터 Transformer를 기반으로 하는 NMT까지 자세히 살펴볼 예정입니다.
더 나아가 최근 WMT에서 매년 Shared Task로 열리고 있는 Automatic Post Editing System과 Parallel Corpus Filtering, Quality Estimation 분야에 대해서 설명하며 NMT를 이용한 다양한 응용 연구분야를 소개해드리겠습니다. (ex. 실시간 강연통역 시스템, 문법교정 시스템) , 기계번역에 대해서 아무것도 모르시는 분, 궁금하시분들도 이해할 수 있는 수준으로 쉽게 설명을 진행할 예정입니다.
○ 목차
1)기계번역이란
2)RBMT에 대한 간략한 소개
3)SMT에 대한 간략한 소개
4)RNN기반 딥러닝부터 Transformer까지
5)NMT를 이용한 다양한 응용 연구 소개
a. Automatic Post Editing
b. Quality Estimation
c. Parallel Corpus Filtering
d. Grammar Error Correction
e. 실시간 강연통역 시스템
6)OpenNMT 소개
Energy based models and boltzmann machines - v2.0Soowan Lee
This is version 2.0 of my previous slides. (http://www.slideshare.net/blaswan/energy-based-models-and-boltzmann-machines)
Removed very simple recommendation example and Added feature extractor example referenced from Hinton's lecture.
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Haezoom Inc.
인공신경망을 이용한 generative model로서 많은 관심을 받고 있는 Variational Autoencoder (VAE)를 보다 잘 이해하기 위해서, 여러 가지 재미있는 관점에서 바라봅니다. VAE 및 머신러닝 일반에 지식을 가지고 있는 청중을 대상으로 진행된 세미나 자료입니다. 현장에서 구두로 설명된 부분은 슬라이드의 회색 박스에 보충설명을 적어두었습니다.
네이버에서 진행한 NLP challenge에서 수상 후 발표한 자료입니다.
[대회링크] https://github.com/naver/nlp-challenge
-------------------------------------------------------------------------------
이신의 (lsnfamily02@yonsei.ac.kr)
박장원 (adieujw@gmail.com)
2017 tensor flow dev summit (Sequence Models and the RNN API)
작성된 자료로 2017년 2월 22일 오후 8시 부터 Maru180에서
GDG Seoul 에서 주최한 2017 Tensorflow Dev Summit Extended Seou에서
발표를 진행
Sequence Models and the RNN API 정리 내역 공유
DeBERTA : Decoding-Enhanced BERT with Disentangled Attentiontaeseon ryu
오늘 소개해 드릴 논문은 구글의 BERT와 페이스북 현재 메타의 RoBERTa를 기반으로 만들어진 모델입니다. RoBERTa + Disentangled Attention과 enhanced mask decode
두가지의 핵심 기술로 RoBERTa를 더욱 개선 시킨 모델이라고 이해하시면 될 것 같습니다. 추가적으로 Scale Invariant Fine Tuning을 도입하여 RoBERTa를 상당히 많은 테스크에서, NLU 테스크에서는 RoBERTa, BERT이상의 성능을 보여준 논문이기도 합니다.
논문의 자세한 리뷰부터, 백그라운드 지식까지, 자연어처리팀 진명훈님이 도와주셨습니다.
모두를 위한 기계번역 (박찬준)
○ 개요
2014년 본격적으로 NMT에 대한 연구가 진행되었으며 현재는 Transformer 기반의 다양한 NMT 시스템들이 연구되고 있습니다.
더 나아가 최근 NLP에서 가장 뜨거운 연구분야인 Language Representation 분야에서도 Transformer를 기반으로 한 BERT, GPT-2, XLNET 등의 모델이 개발되고 있습니다.
본 테크톡에서는 먼저 RBMT와 SMT에 대해서 간략하게 살펴보고 RNN기반 NMT 부터 Transformer를 기반으로 하는 NMT까지 자세히 살펴볼 예정입니다.
더 나아가 최근 WMT에서 매년 Shared Task로 열리고 있는 Automatic Post Editing System과 Parallel Corpus Filtering, Quality Estimation 분야에 대해서 설명하며 NMT를 이용한 다양한 응용 연구분야를 소개해드리겠습니다. (ex. 실시간 강연통역 시스템, 문법교정 시스템) , 기계번역에 대해서 아무것도 모르시는 분, 궁금하시분들도 이해할 수 있는 수준으로 쉽게 설명을 진행할 예정입니다.
○ 목차
1)기계번역이란
2)RBMT에 대한 간략한 소개
3)SMT에 대한 간략한 소개
4)RNN기반 딥러닝부터 Transformer까지
5)NMT를 이용한 다양한 응용 연구 소개
a. Automatic Post Editing
b. Quality Estimation
c. Parallel Corpus Filtering
d. Grammar Error Correction
e. 실시간 강연통역 시스템
6)OpenNMT 소개
Energy based models and boltzmann machines - v2.0Soowan Lee
This is version 2.0 of my previous slides. (http://www.slideshare.net/blaswan/energy-based-models-and-boltzmann-machines)
Removed very simple recommendation example and Added feature extractor example referenced from Hinton's lecture.
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Haezoom Inc.
인공신경망을 이용한 generative model로서 많은 관심을 받고 있는 Variational Autoencoder (VAE)를 보다 잘 이해하기 위해서, 여러 가지 재미있는 관점에서 바라봅니다. VAE 및 머신러닝 일반에 지식을 가지고 있는 청중을 대상으로 진행된 세미나 자료입니다. 현장에서 구두로 설명된 부분은 슬라이드의 회색 박스에 보충설명을 적어두었습니다.
네이버에서 진행한 NLP challenge에서 수상 후 발표한 자료입니다.
[대회링크] https://github.com/naver/nlp-challenge
-------------------------------------------------------------------------------
이신의 (lsnfamily02@yonsei.ac.kr)
박장원 (adieujw@gmail.com)
ChatGPT is a natural language processing technology developed by OpenAI. This model is based on the GPT-3 architecture and can be applied to various language tasks by training on large-scale datasets. When applied to a search engine, ChatGPT enables the implementation of an AI-based conversational system that understands user questions or queries and provides relevant information.
ChatGPT takes user questions as input and generates appropriate responses based on them. Since this model considers the context of previous conversations, it can provide more natural dialogue. Moreover, ChatGPT has been trained on diverse information from the internet, allowing it to provide practical and accurate answers to user questions.
When applying ChatGPT to a search engine, the system searches for relevant information based on the user's search query and uses ChatGPT to generate answers to present along with the search results. To do this, the search engine provides an interface that connects with ChatGPT, allowing the user's questions to be passed to the model and the answers generated by the model to be presented alongside the search results.
Exploring Deep Learning Acceleration Technology Embedded in LLMsTae Young Lee
Lab's research presentation
I am a doctoral student at Seoul National University of Science and Technology and am currently the head of the Applying LLMs to Various Industry (AL2VI) Lab.
deep encoder, shallow decoder reevaluating non-autoregressive machine transl...taeseon ryu
오늘 소개 드릴 논문은 최근 NMT에서 Decoder단에서 병렬화 하여 처리하는 non autoregressive NMT에 대한 연구가 많이 진행되고 있습니다 그러나 여러 문제로 한 단어가 여러 개의 단어로 번역이 가능한 경우 조건부 독립 분포는 다른 단어를 허용하지 않기 때문에 모든 가능성을 고려한 번역이 불가능하다는 문제점이 있는대요, 이 연구는 디코더 단에서 Speed quality tradeoff라는 해결책을 제시하여 높은 성능향상을 끌어 냈습니다.
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...hoondong kim
[Tensorflow-KR Offline 세미나 발표자료]
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps Cycle 구성 방법론. (Azure Docker PaaS 위에서 1만 TPS Tensorflow Inference Serving 방법론 공유)
4. Abstract
▪ “Pre-training”은 2018년 이후 자연어 처리 분야에서 가장 활발한 연구가 이루어지는 주제 중 하나
▪ 그 중, Google이 내놓은 BERT와 XLNet은 특히 자연어 이해 (NLU) Task에서 엄청난 성공을 거둔 모델들
▪ e.g.) Sentiment Classification, Natural Language Inference, Machine Reading Comprehension …
▪ 그러나 NLP에는 NLU Task 외에도 Sequence-to-Sequence를 기반으로 하는 다양한 자연어 생성 Task들이 있음
▪ e.g) Machine Translation, Abstract Text Summarization, Conversational Response Generation,
Question Answering, Text Style Transfer …
▪ 이러한 자연어 생성 Task를 위해서는 “Encoder-Attention-Decoder” 구조의 모델들이 지배적으로 사용되고 있음
5. ▪ 인코더는 Source sequence “X”를 Input으로 받은 후, 이를 hidden representations sequence로 변형
▪ 디코더는 인코더로부터 hidden representations sequence를 전달 받아 Target Sequence “Y”를 생성하며,
이 때 Attention mechanism이 학습한 Input에 대한 정보를 함께 참조
Abstract: What is Encoder-attention-Decoder Framework?
6. ▪ BERT(좌측)와 XLNet은 Language Understanding을 위해 인코더를 Pre-train하는 반면,
GPT(우측)는 Language Modeling을 위해 디코더를 Pre-train 시키는 구조를 지니고 있음
▪ 즉, 이전 모델들의 환경에서는 인코더, Attention 메커니즘 그리고 디코더가 함께 훈련될 수 없음
▪ 주지하다시피 Attention 메커니즘은 Language generation에서 매우 중요한 요소이기 때문에 이를 따로 학습시키지 않는
BERT나 XLNet, 그리고 GPT는 Language generation Task에 있어 최적의 성능을 발휘할 수가 없음
Abstract: Previous works(BERT, XLNet and GPT)
7. A new pre-training method
▪ Sequence to Sequence 기반의 Language Generation 문제 해결을 목표로 새로운 Pre-training 기법을 고안 !
▪ 우리가 제시하는 새로운 모델 MASS는 MAsked Sequence to Sequence Pre-training의 약자로,
: Input에서 k 개의 토큰 조각을 임의로 지정해 마스킹 한 후, 마스킹 된 해당 조각들을
Encoder-attention-Decoder Framework를 거쳐 예측하도록 훈련시키는 Pre-training 기법
▪ e.g.) 인코더는 3, 4, 5, 6번째 토큰이 마스킹 된 Input sequence의 hidden representations을 생성하고,
디코더는 인코더 측에서 마스킹 된 토큰들의 예측을 수행 (이때, 인코더에서 마스킹 되지 않았던 다른 토큰들이 마스킹 됨)
8. A new pre-training method: Three advantages of MASS
1. 인코더 측에서 마스킹 되지 않은 토큰들이 디코더 측에서 마스킹 됨에 따라, 디코더는 인코더가 제공한
hidden representation과 Attention 정보만을 참고해 마스킹 된 토큰들을 예측해야 하게 되고
이는 Encoder-attention-Decoder가 함께 Pre-train 될 수 있는 환경을 제공하게 됨
2. 인코더는 디코더에 보다 유용한 정보를 제공하기 위해 인코더 측에서 마스킹되지 않은 토큰들의 정보를
잘 추출할 수 있도록 학습하고, 이를 통해 Language Understanding 능력이 개선되게 됨
3. 디코더는 인코더 측에서 마스킹 된 토큰들에 대한 예측을 “연속적으로” 수행해야 하기 때문에
Language Modeling 능력을 학습하게 됨
9. General Pre-training Framework
▪ 모델 MASS에는 아주 중요한 하이퍼 파라미터 “k”가 있는데, 이는 인코더에서 “마스킹되는 토큰 개수”를 의미
▪ 해당 하이퍼 파라미터 k를 조정함에 따라 MASS는 BERT의 Masked LM과 GPT의 Standard LM을 모두 구현할 수 있음
▪ [Masked LM]: k=1일 때 인코더 측에서는 하나의 토큰이 마스킹되고, 디코더는 마스킹 된 하나의 토큰을 예측
▪ 즉, 별다른 Input Information 없이 하나의 마스킹 토큰을 예측하는 해당 디코더는 BERT의 Masked LM과 같아짐
10. General Pre-training Framework
▪ [Standard LM]: 하이퍼 파라미터 k가 Input 문장의 전체 길이인 m과 같을 때 인코더 측의 모든 토큰들이 마스킹 됨
▪ 디코더는 인코더로부터 어떠한 정보도 부여 받지 않은 채 모든 토큰을 예측해야 하므로, GPT의 Standard LM과 같아짐
11. General Pre-training Framework: The probability formulation
▪ 앞서 언급한 하이퍼 파라미터 k의 변화에 따른 MASS의 확률 수식은 위의 표와 같음
▪ m: Input sequence의 전체 길이 | u: 마스킹 된 fragment의 시작점 | v: 마스킹 된 fragment의 끝점
X_u:v: u부터 v까지의 fragment | X_\u:v: u부터 v까지 마스킹 된 Input sequence
▪ k=1이면 BERT의 masked LM과 확률 수식이 같아지고, k=m이면 GPT의 standard LM과 확률 수식이 같아짐
12. General Pre-training Framework: The probability formulation
▪ 위 그림들은 하이퍼 파라미터 k를 다르게 설정해가며, MASS 성능에 대한 다양한 실험을 수행한 결과
▪ 경험적 실험을 통해 k가 “문장의 절반 정도”의 크기에 해당할 때, downstream task에서 가장 좋은 성능을 보임을 알게 됨
▪ 문장 내 절반의 토큰을 마스킹하는 것이 인코더와 디코더의 Pre-training에 있어 “적절한 균형”을 제공해주기 때문
▪ 그러나 k가 1 (like. BERT) 혹은 m (like. GPT) 이었을 때는 downstream task에서 좋은 성능이 나오지 않았는데,
이는 MASS가 Sequence to Sequence 기반의 Language Generation Task에 이점을 지니고 있음을 반증 !
13. Experiment on language generation tasks: Pre-training
▪ 기본적으로 MASS는 Pre-training을 위해 monolingual 데이터를 필요로 함 ( e.g. Wikipedia data )
▪ 그러나 기계번역과 같은 Cross-lingual Task와 텍스트 요약과 같은 Monolingual Task를 모두 수행할 수 있음
▪ 영어-불어 번역과 같은 Cross-lingual Task의 수행을 위해서는 Pre-training으로 하나의 MASS 모델에
‘English-English’와 ‘French-French’ 데이터를 모두 학습시키는 방법을 사용
▪ 이때, 두 언어를 구분 짓기 위해 “Language embedding” 이라는 정보를 추가적으로 더해 줌
▪ Pre-training 이후에는 MASS의 성능을 입증하기 위해 [ Unsupervised Machine Translation, Low-resource
Machine Translation, Abstractive Summarization, Conversational Response Generation ]과 같은
Language Generation downstream task들에 대해 Fine-tuning을 수행
14. Experiment: Unsupervised Machine Translation
▪ 첫 번째로 Unsupervised Machine Translation Task에 있어 이전 모델들, 특히 최근까지 SOTA였던
Facebook의 XLM(Cross-lingual Language Model) 모델과 MASS의 성능 비교를 수행하였음
▪ Facebook의 XLM은 인코더와 디코더를 각각 BERT의 Masked LM과 standard LM으로 Pre-train 시킨 모델
▪ MASS는 6개의 기계번역 Task에 있어 XLM을 능가하는 성능을 보이며 SOTA를 기록
15. Experiment: Low-resource Machine Translation
▪ Low-resource Machine Translation: bilingual 트레이닝 데이터셋이 부족한 환경에서의 기계번역
▪ [WMT14 English-French], [WMT16 English-German, English-Romanian] 데이터셋을
10K, 100K, 1M의 사이즈로 늘려가며 Low-resource 환경에서의 기계번역 시나리오 테스트
▪ 그림에서 확인할 수 있듯 MASS는 모든 스케일에서 Low-resource MT의 baseline 성능을 능가했으며,
특히 이러한 성능의 개선은 데이터셋의 사이즈가 작을수록 더 두드러지게 나타남 ( see result of10K )
16. Experiment: Abstractive Summarization
▪ Pre-trained BERT를 인코더로 Pre-trained Language Model을 디코더로 사용한 BERT+LM 모델과
DAE(Denoising Auto-Encoder), MASS의 Abstractive Summarization 성능을 Gigaword Corpus에 대해 비교
▪ 표에서 확인할 수 있듯, MASS는 BERT+LM과 DAE 두 모델의 Abstractive Summarization 성능을 모두 능가
17. Experiment: Conversational Response Generation
▪ Abstractive Summarization 성능 비교에 사용되었던 BERT+LM 모델과 Baseline, 그리고 MASS의
Conversational Response Generation 성능을 Cornell Movie Dialog Corpus에 대해 비교
▪ 마찬가지로 MASS가 BERT+LM 모델과 Baseline 보다 낮은 Perplexity (PPL)를 기록하며 좋은 성능을 보여줌
18. Conclusion and Future work
▪ MASS는 Sequence to Sequence 기반의 다양한 Language generation Task에 있어 좋은 성능을 기록
▪ Language generation에서 좋은 성능을 기록한 MASS가 BERT와 XLNet이 뛰어난 결과를 기록한
Natural Language Understanding Task에서도 좋은 성능을 보일 것인지 차후 실험해볼 예정
▪ 또한 MASS 모델이 Image와 Video와 같은 NLP와 다른 도메인에서도 Sequence to Sequence 기반의
생성 Task를 수행해낼 수 있을지에 대한 추가 실험 역시 이루어질 것