네이버에서 진행한 NLP challenge에서 수상 후 발표한 자료입니다.
[대회링크] https://github.com/naver/nlp-challenge
-------------------------------------------------------------------------------
이신의 (lsnfamily02@yonsei.ac.kr)
박장원 (adieujw@gmail.com)
Imagination-Augmented Agents for Deep Reinforcement Learning성재 최
I will introduce a paper about I2A architecture made by deepmind. That is about Imagination-Augmented Agents for Deep Reinforcement Learning
This slide were presented at Deep Learning Study group in DAVIAN LAB.
Paper link: https://arxiv.org/abs/1707.06203
Big Bird - Transformers for Longer Sequencestaeseon ryu
안녕하세요 딥러닝 논문 읽기 모임입니다. 오늘 업로드된 논문 리뷰 영상은 NeurIPS 2020 에 발표된 'Big Bird - Transformers for Longer Sequences'라는 제목의 논문입니다.
오늘 소개해 드릴 논문은 Big Bird로, Transformer 계열 논문들의 Full Attention 구조의 한계를 리캡하고, Long Sequence의 처리를 매우 효율적으로 처리하기 위함을 목표로 나온 논문입니다. 트랜스포머의 엄청난 성능은 이미 다들 잘 알고 계시지만, 시퀀스 길이가 길어질수록 연산의 한계에 부딪히게 되는데, 이에 많은 논문이 비효율적인 연산을 줄이고자 많은 시도가 있었고, Big Bird도 그중 하나의 논문이라고 생각해 주시면 됩니다. 오늘 논문 리뷰를 위해 자연어 처리팀 백지윤 님이 자세한 리뷰 도와주셨습니다.
네이버에서 진행한 NLP challenge에서 수상 후 발표한 자료입니다.
[대회링크] https://github.com/naver/nlp-challenge
-------------------------------------------------------------------------------
이신의 (lsnfamily02@yonsei.ac.kr)
박장원 (adieujw@gmail.com)
Imagination-Augmented Agents for Deep Reinforcement Learning성재 최
I will introduce a paper about I2A architecture made by deepmind. That is about Imagination-Augmented Agents for Deep Reinforcement Learning
This slide were presented at Deep Learning Study group in DAVIAN LAB.
Paper link: https://arxiv.org/abs/1707.06203
Big Bird - Transformers for Longer Sequencestaeseon ryu
안녕하세요 딥러닝 논문 읽기 모임입니다. 오늘 업로드된 논문 리뷰 영상은 NeurIPS 2020 에 발표된 'Big Bird - Transformers for Longer Sequences'라는 제목의 논문입니다.
오늘 소개해 드릴 논문은 Big Bird로, Transformer 계열 논문들의 Full Attention 구조의 한계를 리캡하고, Long Sequence의 처리를 매우 효율적으로 처리하기 위함을 목표로 나온 논문입니다. 트랜스포머의 엄청난 성능은 이미 다들 잘 알고 계시지만, 시퀀스 길이가 길어질수록 연산의 한계에 부딪히게 되는데, 이에 많은 논문이 비효율적인 연산을 줄이고자 많은 시도가 있었고, Big Bird도 그중 하나의 논문이라고 생각해 주시면 됩니다. 오늘 논문 리뷰를 위해 자연어 처리팀 백지윤 님이 자세한 리뷰 도와주셨습니다.
2. Introduction
• Evaluate two Gated RNN-based models(LSTM, GRU) + tanh-RNN
• 본 논문에서는 polyphonic music, speech signal modeling dataset을 사용하여
실험을 진행하였으나 NLP에서의 활용사례를 중심으로 설명
5. Methodology
• LSTM
i : input gate, Whether to write to cell
f : forget gate, whether to erase cell
o :output gate, how much to reveal cell
g :gate gate, how much to write to cell
Sigmoid 통과한 0~1값
Tanh 통과한 -1~1값
8. Methodology
• LSTM
-output gate
• 은닉 상태를 결정하는 일에 쓰임, hidden state의 입력으로 들어감
• 앞에서 구한 cell state 값을 tanh에 넣어서 -1~1사이 값이 되고 출력 게이트와 곱해지면서 filtering역할 하게 됨
9. Methodology
• GRU • Cell state vector와 hidden state vector를 일원화함
• Reset gate -> 이전의 hidden state를 얼마나 제외할 지 결정
• Forget gate 대신 (1-input gate) 사용 –> 합쳐서 update gate
Update gate
Reset gate