220109 dl paper review grokking (iclr 2021 workshop)

•

0 likes•104 views

오늘 소개드릴 논문은 소규모 데이터셋의 오버피팅 이후에 발생하는 모델의 일반화 현상 이른바 Grokking 현상에 대한 내용입니다. 트레이닝셋의 학습이 이제 잘 끝난 모델에는 이터레이션이 지속 될수록 트레이닝 에러는 지속적으로 감소하는 반면에 테스트에러는 최저점에 도달한 이후에 다시 증가하는 경향이 있는데요 이 트레이닝에러와 테스트에러가 가장 최소화되는 지점에서 이제 학습을 끝내면 이 모델의 일반화가 잘 되었다고 얘기합니다. 오버피팅이 발생해 버리면 테스트 셋은 정작 제대로 추론하지 못하는 경향이 있는대 논문의 저자들은 오버피팅으로 끝난 모델을 계속 학습을 시키면 이제 어느순간 지날수록 갑자기 모델이 일반화에 성공하는 현상을 발견했고 이걸 그로킹 현상으로 명명했습니다. 방법론 실험과 그로킹 현상에 대해서 자세하게 펀디멘탈팀 이근배님이 자세한 리뷰 도와주셨습니다. 오늘도 많은 관심 미리 감사드립니다 ! https://youtu.be/mcnSN645xUE

Data & Analytics

Paper review
2022/1/9
Presenter 이근배
Fundamental Team 김동현, 김채현, 박종익, 송헌, 양현모, 오대환, 이재윤, 조남경
1st Mathematical Reasoning in General Artificial Intelligence Workshop, ICLR 2021
https://alogs.theguntretort.com/.media/21f57cd5af2ccd6a1e95ee2ec1dc91c538a70f7375d6e98e50a58eabf8fbc197.pdf

Image credit: Different methods for mitigating overfitting on Neural Networks, Pablo Sanchez https://quantdare.com/mitigating-overfitting-neural-networks/
Recap: Model generalization

Grokking: A dramatic example of generalization far after overfitting on an
algorithmic dataset
Left: Figure 1, Power, Alethea, et al. "Grokking: Generalization beyond overfitting on small algorithmic datasets." ICLR MATH-AI Workshop. 2021.
Right: Figure 4, Power, Alethea, et al. "Grokking: Generalization beyond overfitting on small algorithmic datasets." ICLR MATH-AI Workshop. 2021.

Grokking: Generalization beyond Overfitting on small algorithmic datasets (Paper Explained) https://youtu.be/dND-7llwrpw

Contributions
• Long after severely overfitting, validation accuracy sometimes suddenly
begins to increase from chance level toward perfect generalization. We call
this phenomenon ‘grokking’.
• We find that weight decay is particularly effective at improving
generalization on the tasks we study.

Dataset: Binary operations
Appendix A, Power, Alethea, et al. "Grokking: Generalization beyond overfitting on small algorithmic datasets." ICLR MATH-AI Workshop. 2021.

Tuning optimization hyperparamters
1. Adam w/ full batch
2. Adam
3. Adam w/ full batch and Gaussian noise added to the update direction for each
parameter (W ← W + lr · (∆W + ε), where ε is sampled from unit Gaussian, ∆W
is the standard Adam weight update
4. Adam w/ dropout = 0.1
5. AdamW w/ weight decay = 1
6. AdamW w/ weight decay 1 towards the initialization instead of the origin
7. Adam w/ lr = 3 · 10−4
8. Adam w/ lr = 3 · 10−3
9. Adam w/ Gaussian weight noise of standard deviation = 0.01 (i.e. each
parameter W replaced by W + 0.01 · ε in the model, with ε sampled from unit
Gaussian).

Figure 1, Power, Alethea, et al. "Grokking: Generalization beyond overfitting on small algorithmic datasets." ICLR MATH-AI Workshop. 2021.
Training time required to reach 99% validation accuracy

Figure 2, Power, Alethea, et al. "Grokking: Generalization beyond overfitting on small algorithmic datasets." ICLR MATH-AI Workshop. 2021.
Best validation accuracy achieved after 105 steps

Figure 2, Power, Alethea, et al. "Grokking: Generalization beyond overfitting on small algorithmic datasets." ICLR MATH-AI Workshop. 2021.
Different optimization algorithms lead to different amounts of generalization

Figure 6, Power, Alethea, et al. "Grokking: Generalization beyond overfitting on small algorithmic datasets." ICLR MATH-AI Workshop. 2021.
Generalization with memorizing several outliers

220109 dl paper review grokking (iclr 2021 workshop)

More from taeseon ryu

이 논문은 데이터셋 디스틸레이션에 대한 새로운 접근법을 제안합니다. 데이터셋 디스틸레이션은 전체 데이터셋에서 학습된 모델의 테스트 정확도를 일치시킬 수 있는 작은 데이터셋을 합성하는 작업입니다. 제안된 방법은 디스틸레이션 데이터를 최적화하여 실제 데이터로 학습된 네트워크와 유사한 상태로 이끌어냅니다. 이 방법은 기존 방법들을 능가하며, 더 높은 해상도의 시각 데이터를 디스틸레이션할 수 있게 합니다. 데이터셋 디스틸레이션은 지속적인 학습, 신경 아키텍처 검색, 개인정보 보호 ML 등 다양한 응용 분야가 있습니다.

YOLO V6

taeseon ryu

Dataset Distillation by Matching Training Trajectories

taeseon ryu

이 논문은 강화 학습(Reinforcement Learning, RL)을 감독 학습(Supervised Learning, SL)의 형태로 변환하는 새로운 접근법을 제안합니다. 이를 'Upside Down RL (UDRL)'이라 부릅니다. 표준 RL은 보상을 예측하는 반면, UDRL은 보상을 작업 정의 입력으로 사용하며, 시간 지향성과 기타 계산 가능한 함수를 이력 데이터와 원하는 미래 데이터에 적용합니다. UDRL은 이러한 입력 관찰을 명령으로 해석하고, 과거 경험에 대한 SL을 통해 이를 행동(또는 행동 확률)에 매핑하여 학습합니다. UDRL은 높은 보상이나 다른 목표를 달성하기 위해 일반화하며, 이는 "주어진 시간 내에 많은 보상을 얻으라!"와 같은 입력 명령을 통해 이루어집니다. 또한 UDRL은 탐색 전략을 개선하는 방법을 배울 수 있습니다. 별도의 논문에서는 UDRL의 초기 버전이 특정 강화 학습 문제에서 전통적인 기준 알고리즘을 능가할 수 있다는 것을 보여줍니다. 이 논문은 또한 로봇이 사람을 모방하는 방법을 가르치는 접근법을 개념적으로 단순화합니다. 먼저 로봇의 현재 행동을 모방하는 사람들을 비디오로 촬영한 다음, 로봇이 이 비디오(입력 명령으로)를 이러한 행동에 매핑하는 방법을 SL을 통해 학습하게 합니다. 그런 다음 로봇은 일반화하고 이전에 알려지지 않은 행동을 실행하는 사람들의 비디오를 모방하게 됩니다. 오늘 논문 리뷰를 위해 강화학습 이도현님이 자세한 리뷰를 도와주셨습니다 많은 관심 미리 감사드립니다! https://youtu.be/bsBvKdKCc1E

RL_UpsideDown

taeseon ryu

핵심 키워드 Packed Levitated Markers (PL-Marker) Neighborhood-oriented packing strategy: Subject-oriented packing strategy 지금까지 발표한 논문 :https://github.com/Lilcob/-DL_PaperReadingMeeting 발표자료 : https://www.slideshare.net/taeseonryu/morel-modelbased-offline-reinforcement-learning 이 논문은 새로운 개체 및 관계 추출 방법인 Packed Levitated Markers (PL-Marker)에 초점을 맞추고 있습니다. PL-Marker는 인코더 내에서 전략적으로 마커를 패킹하여 스팬 간의 상호 관계를 고려합니다. 논문에서는 이웃 중심 패킹 전략과 주제 중심 패킹 전략 두 가지를 제시합니다. 이러한 전략들은 개체 경계 정보와 동일 주제 스팬 쌍 간의 상호 관계를 더 잘 모델링하도록 설계되었습니다. 실험 결과는 제안된 접근법의 효과를 보여줍니다. PL-Marker는 6개의 Named Entity Recognition (NER) 벤치마크에서 이전의 최첨단 모델들을 능가합니다. 오늘 논문 리뷰를 위해 자연어 처리 김유진님이 자세한 리뷰를 도와주셨습니다 많은 관심 미리 감사드립니다! https://youtu.be/aiS_iNOOUl8

Packed Levitated Marker for Entity and Relation Extraction

taeseon ryu

오늘 소개할 논문은 'MOReL: Model-Based Offline Reinforcement Learning'입니다. 이 논문은 오프라인 강화 학습(Reinforcement Learning, RL)에 초점을 맞추고 있습니다. 오프라인 RL은 행동 정책을 개선하기 위해 사전에 수집된 데이터만을 사용하는 학습 방법입니다. 이 논문에서는 MOReL이라는 새로운 알고리즘 프레임워크를 제시하며, 이는 오프라인 RL을 위한 것입니다. MOReL은 두 단계로 구성되어 있습니다: 첫째, 오프라인 데이터셋을 사용하여 비관적인 MDP(Model-based Decision Process)를 학습하고, 둘째, 이 P-MDP에서 거의 최적의 정책을 학습합니다. 학습된 P-MDP는 정책 평가와 학습에 대한 좋은 대리자 역할을 하며, 모델 기반 RL의 일반적인 함정인 모델 활용을 극복합니다. 이 논문에서는 MOReL이 오프라인 RL에 대해 최소최대 최적(minimax optimal)이며, 널리 연구된 벤치마크에서 최첨단 성능을 달성함을 보여줍니다. 또한, 이 논문은 오프라인 RL의 중요한 문제인 행동 정책의 안전성에 대한 중요한 통찰력을 제공합니다. 이 논문은 오프라인 강화 학습의 새로운 접근법을 제시하며, 이를 통해 더 효율적인 방식으로 다양한 강화 학습 작업에 대한 성능을 향상시킬 수 있음을 보여줍니다.

MOReL: Model-Based Offline Reinforcement Learning

taeseon ryu

이 논문은 언어 모델에 대한 fine tuning하는 방법에 대해 탐구하고 있습니다. 특히, 작업의 수, 모델 크기, 그리고 체인-오브-소트 데이터를 확장하는 것에 초점을 맞추고 있습니다. 결과적으로, 다양한 모델 클래스와 평가 벤치마크에서 보이는 성능과 미처 보지 못한 작업에 대한 일반화에 있어서 상당한 향상을 보여줍니다. 이 논문은 또한, 강력한 few-shot 성능을 달성하는 Flan-T5 체크포인트를 공개합니다. 지시사항 미세조정은 사전 훈련된 언어 모델의 성능과 사용성을 향상시키는 일반적인 방법입니다. 이 논문은 언어 모델의 미세조정에 대한 새로운 접근법을 제시하며, 이를 통해 더 효율적인 방식으로 다양한 언어 작업에 대한 성능을 향상시킬 수 있음을 보여줍니다. 오늘 논문 리뷰를 위해 자연어처리 박산희님이 자세한 리뷰를 도와주셨습니다 많은 관심 미리 감사드립니다! https://youtu.be/lta-rKYtVbg

Scaling Instruction-Finetuned Language Models

taeseon ryu

Visual Prompt Tuning (VPT),Parameter-efficient fine-tuning 지금까지 발표한 논문 :https://github.com/Lilcob/-DL_PaperReadingMeeting 발표자료 : https://www.slideshare.net/taeseonryu/mplug 안녕하세요 딥러닝 논문읽기 모임 입니다! 오늘 소개 드릴 논문은 'Visual Prompt Tuning for Transformers with Frozen Weights' 입니다. 오늘 소개하는 논문은 대규모 Transformer 모델을 비전에 효율적이고 효과적으로 미세조정하는 대안인 Visual Prompt Tuning (VPT)를 소개하고 있습니다. VPT는 입력 공간에서 작은 양의 훈련 가능한 매개변수를 도입하면서 모델 백본을 고정합니다. 이 방법을 통해, VPT는 다른 매개변수 효율적인 튜닝 프로토콜에 비해 상당한 성능 향상을 달성하며, 많은 경우에는 전체 미세조정을 능가하면서 작업당 저장 비용을 줄인다는 것을 실험적으로 보여줍니다. 이 논문은 효과성과 효율성 면에서 대규모 사전 훈련된 Transformer를 하위 작업에 적용하는 도전을 다룹니다. 이를 통해, 더 효율적인 방식으로 다양한 비전-언어 작업에 대한 성능을 향상시킬 수 있음을 보여줍니다. 오늘 논문 리뷰를 위해 이미지처리 조경진님이 자세한 리뷰를 도와주셨습니다 많은 관심 미리 감사드립니다! https://youtu.be/bVOk-hSYyZw

Visual prompt tuning

taeseon ryu

오늘 영상에서 소개된 논문은 Alibaba의 DAMO Academy가 개발한 새로운 비전-언어 기반 모델인 mPLUG입니다. mPLUG는 cross-modal skip-connections을 사용하여 기존의 사전 훈련된 모델에서 나타나는 계산 효율성이 낮고 정보 불균형 문제를 해결합니다. mPLUG는 이미지 캡셔닝, 이미지-텍스트 검색, 시각적 그라운딩, 시각적 질문 응답 등 다양한 비전-언어 하위 작업에서 최첨단 결과를 보여줍니다. 또한, 다수의 비디오-언어 작업에 직접 전환할 때 강력한 제로샷 전이성을 보여줍니다.

mPLUG

taeseon ryu

Train중 예상 Return 을 최대화하기 위해 알려지지 않은 환경에서 '탐색'과 '활용' 사이의 균형을 잘 이루는 것이 중요합니다. 이를 이상적으로 수행하는 '베이즈 최적 정책'은 환경 상태뿐만 아니라 에이전트가 환경에 대해 느끼는 불확실성에 따라 행동을 결정합니다. 하지만, 베이즈 최적 정책을 계산하는 것은 작은 작업들에 대해서조차 까다롭습니다. 이 논문에서는, 알려지지 않은 환경에서 근사적으로 추론을 수행하고, 그 불확실성을 행동 선택 과정에 직접 포함시키는 방법, 'variational Bayes-Adaptive Deep RL' (variBAD)를 소개합니다.

variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdf

taeseon ryu

논문에서는 최적화 컴파일러에서 신경망 연산 그래프의 실행 비용을 최소화하는 깊은 강화 학습 방법을 제시합니다. 이전의 학습 기반 작업들은 최적화될 동일한 그래프에서 최적화기를 훈련하는 것이 필요했지만, 논문은 오프라인에서 최적화기를 훈련하고 이후에는 추가 훈련 없이 이전에 보지 못한 그래프에 일반화하는 학습 접근법을 제안합니다. 이를 통해 논문의 방법은 시간 대신 초 단위로 실제 세계의 텐서플로우(TensorFlow) 그래프에서 고품질의 실행 결정을 생성할 수 있습니다. 논문은 연산 그래프에 대한 두 가지 최적화 작업을 고려합니다: 실행 시간과 최대 메모리 사용량을 최소화하는 것입니다. 광범위한 기준 세트에 비해, 우리의 접근법은 이 두 가지 작업에서 고전적인 방법과 다른 학습 기반 방법에 비해 상당한 개선을 보여줍니다.

Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdf

taeseon ryu

이 논문은 신경망 학습에 대한 새로운 방법을 제시하는데, 이 방법의 이름은 'Forward-Forward 알고리즘'입니다. 기존의 딥러닝 방법은 데이터를 앞으로 보내고 결과를 다시 뒤(backward)로 보내는 '앞-뒤' 방식인데, 이 새로운 방법은 '앞-앞' 방식을 사용하니까 'Forward-Forward'라고 부릅니다. 이 알고리즘에서는 '양의 데이터'와 '부정적인 데이터' 두 종류를 사용합니다. '양의 데이터'는 실제로 우리가 가진 정보를 의미하고, '부정적인 데이터'는 신경망이 스스로 생성하는 정보를 말합니다. 이 두 종류의 데이터를 각각 앞으로 보내서, 각 계층이 '양의 데이터'에 대해는 좋은 결과를, '부정적인 데이터'에 대해는 나쁜 결과를 내도록 학습합니다. 핵심은 신경망의 학습 방법에 변화를 주어, 더 효율적이고 간편하게 학습을 진행할 수 있도록 한다는 점입니다. 이 방법을 사용하면 비디오 같은 데이터를 신경망을 통해 처리하면서 복잡한 연산을 중단하거나 데이터를 저장할 필요 없이 진행할 수 있다는 것이 큰 장점입니다.

The Forward-Forward Algorithm

taeseon ryu

활성 학습(Active Learning, AL)은 대량의 라벨이 없는 데이터를 처리하고, 데이터 라벨링 비용이 지나치게 높은 영역에서 이를 줄이는데 유망한 머신러닝 패러다임입니다. 최근에 제안된 신경망 기반의 활성 학습 방법들은 이 목표를 달성하기 위해 다양한 휴리스틱을 사용합니다. 이 연구에서는 동일한 실험 조건 하에서, 다른 종류의 활성 학습 알고리즘들(불확실성 기반, 다양성 기반, 커미티 기반)이 무작위 샘플링 기준에 비해 일관성 없는 향상을 보이는 것을 보여줍니다. 다양한 실험을 통해, 확률적 요인을 제어하면서, 활성 학습 알고리즘들이 달성하는 성능 지표의 변동성이 이전에 보고된 결과와 일치하지 않는 결과를 가져올 수 있음을 보여줍니다

Towards Robust and Reproducible Active Learning using Neural Networks

taeseon ryu

이 논문에서는 추상적 요약 모델의 훈련 방식에 대해 논의하고 있습니다. 일반적으로 이러한 모델은 최대 가능도 추정을 사용하여 훈련되는데, 이는 이상적인 모델이 모든 확률 질량을 참조 요약에 할당할 것이라고 가정하는 결정론적인 목표 분포를 가정합니다. 이런 가정은 추론 과정에서 성능 저하를 초래할 수 있는데, 모델이 참조 요약에서 벗어난 여러 후보 요약을 비교해야 하기 때문입니다. 이 문제를 해결하기 위해, 저자들은 서로 다른 후보 요약들이 그들의 품질에 따라 확률 질량을 할당받는 비결정론적 분포를 가정하는 새로운 훈련 패러다임을 제안합니다. 이 방법은 CNN/DailyMail (47.78 ROUGE-1) 및 XSum (49.07 ROUGE-1) 데이터셋에서 새로운 최고 성능을 달성했습니다.

BRIO: Bringing Order to Abstractive Summarization

taeseon ryu

논문은 환경과 상호작용을 통해 데이터를 샘플링하고 확률적 경사 상승법을 사용하여 "대리" 목표 함수를 최적화하는 강화 학습을 위한 새로운 정책 경사 방법들을 제안합니다. 표준 정책 경사 방법은 데이터 샘플마다 한 번의 경사 업데이트를 수행하지만, 미니배치 업데이트를 여러 에폭 수행할 수 있는 독창적인 목표 함수를 제안합니다. 이 새로운 방법을 근접 정책 최적화(Proximal Policy Optimization, PPO)라고 부르며, 신뢰 영역 정책 최적화(Trust Region Policy Optimization, TRPO)의 일부 이점이 있지만, 구현이 훨씬 간단하고 일반적이며 샘플 복잡성 면에서도 뛰어납니다(실제로). 실험에서는 PPO를 로봇 보행 시뮬레이션과 아타리 게임 등의 벤치마크 작업에 적용하였으며, 이를 통해 PPO가 다른 온라인 정책 경사 방법보다 우수하며, 전반적으로 샘플 복잡성, 단순성, 실제 소요 시간 면에서 유리한 균형을 이루고 있다는 것을 보여줍니다.

ProximalPolicyOptimization

taeseon ryu

학습된 월드 모델은 에이전트의 경험을 요약하여 복잡한 행동 학습을 쉽게 만듭니다. 고차원의 감각 입력으로부터 월드 모델을 학습하는 것이 딥러닝을 통해 가능해지고 있지만, 그로부터 행동을 도출하는 여러 가지 방법이 있습니다. 우리는 Dreamer라는 강화학습 에이전트를 소개합니다. 이 에이전트는 이미지를 기반으로 순수한 잠재 상상력을 통해 장기적인 작업을 해결합니다. 학습된 월드 모델의 간결한 상태 공간에서 상상된 궤적을 통해 학습된 상태 가치의 분석 기울기를 역전파함으로써 행동을 효율적으로 학습합니다. 20개의 어려운 시각적 제어 과제에서 Dreamer는 데이터 효율성, 계산 시간 및 최종 성능 면에서 기존 접근 방식을 능가합니다.

Dream2Control paper review

taeseon ryu

이 논문은 Continual Learning이라는 분야에서의 문제를 다루며, 현실 세계에서 새로운 데이터나 클래스가 추가되는 상황에서 전체 데이터셋을 사용하지 않고도, 잊어버리는 현상을 최소화하면서 새로운 작업에 효과적으로 적응하는 것을 목표로 합니다. Continual Learning을 해결하기 위한 일반적인 방법은 세 가지로 분류됩니다: 정규화(Regularization), 파라미터 격리(Parameter Isolation), 그리고 경험 재생(Experience Replay)입니다. 이 발표의 논문은 Experience Replay 방식을 사용합니다. Continual Learning의 일반적인 설정에 대해 설명한 뒤, 본 연구는 실제 환경에서 사용될 수 있는 더 많은 조건을 적용한 문제를 정의합니다. 이 연구에서는 일부 클래스가 겹치지 않는 Disjoint Split과 온라인 스트림에서 지속적으로 새로운 데이터가 들어오는 Blurry Split과 같은 설정을 다룹니다. 이 논문의 목표는 두 가지 주요 문제를 해결하는 것입니다. 첫째, i-Blurry-N-M 작업에서 잘 수행하는 방법을 찾는 것으로, 이는 N 퍼센트의 클래스가 특정 작업에서 겹치지 않게 분리되고, M 레벨의 Blurry 클래스가 모든 작업에서 나타나게 됩니다. 둘째, 연속적인 학습을 사용할 때, 트레이닝이 끝난 후가 아닌 중간에 추론을 진행하는 것이 필요한 상황에 적합한 메트릭을 찾는 것입니다. 오늘 논문 리뷰를 위해 이미지 처리 강인하 님이 자세한 리뷰를 도와주셨습니다 많은 관심 미리 감사드립니다!

Online Continual Learning on Class Incremental Blurry Task Configuration with...

taeseon ryu

CutLER은 라벨 없이 객체 탐지와 분할 모델을 훈련시키는 간단한 방법입니다. 자가 지도 학습 모델의 객체를 찾는 능력을 이용하고, 이를 강화하여 최첨단 위치 지정 모델을 사람의 라벨 없이 훈련시킵니다. CutLER은 먼저 MaskCut 방법을 사용하여 이미지에서 여러 객체의 대략적인 마스크를 생성한 다음, 이러한 마스크에 대해 견고한 손실 함수를 사용하여 탐지기를 학습시킵니다. 모델의 예측 결과로 자가 훈련을 통해 성능을 더욱 향상시킵니다. 이전 연구에 비해 CutLER은 더 간단하며 다양한 탐지 아키텍처와 호환되고 여러 객체를 탐지할 수 있습니다. 또한 CutLER은 무감독 탐지기로서 다양한 도메인의 벤치마크에서 AP50 성능을 2.7배 이상 향상시킵니다. 오늘 논문 리뷰를 위해 자연어처리 조해창님이 자세한 리뷰를 도와주셨습니다 많은 관심 미리 감사드립니다!

[2023] Cut and Learn for Unsupervised Object Detection and Instance Segmentation

taeseon ryu

비지도 학습 기반의 기계 번역은 균형 잡힌 양 언어 데이터가 없는 경우에도 높은 성능을 보였지만, 데이터가 부족한 영역에서는 여전히 문제가 있습니다. 이 문제를 해결하기 위해, 본 논문에서는 소량의 학습 데이터만을 사용하여 다른 도메인에 적응하는 비지도 신경 기계 번역(UNMT) 모델을 훈련시키는 새로운 메타러닝 알고리즘을 제안합니다. 데이터가 부족한 도메인 처리에 도메인 일반 지식이 중요하다고 가정하며, 높은 자원의 도메인에서 얻은 지식을 활용하는 메타러닝 알고리즘을 확장하여 저자원 UNMT의 성능을 향상시킵니다. 우리의 모델은 전이 학습 기반 접근 방식보다 최대 2-4 BLEU 점수로 뛰어납니다. 광범위한 실험 결과는 제안된 알고리즘이 빠른 적응에 적합하고 다른 기준 모델들보다 지속적으로 우수한 성능을 보여줍니다.

Unsupervised Neural Machine Translation for Low-Resource Domains

taeseon ryu

대규모 언어 모델은 적은 양의 학습 데이터로도 탁월한 성능을 발휘하여 다양한 자연어 처리 작업에서 매우 유용하게 사용됩니다. 이에 대한 이해를 더하기 위해, 구글은 PaLM이라는 5400억 개의 매개변수를 가진 언어 모델을 새로 개발하여, 다양한 자연어 이해 및 생성 작업에서 최첨단의 성능을 보여주고 있습니다. 이 모델은 Pathways라는 새로운 ML 시스템을 이용하여 6144개의 TPU v4 칩을 사용하여 학습되었습니다. PaLM은 다양한 과제에서 뛰어난 성능을 보이며, 특히 멀티스텝 추론 작업에서 최고의 성능을 발휘하여 인간 수준 이상의 결과를 달성하였습니다. 또한 다국어 작업과 소스 코드 생성 작업에서도 강력한 성능을 보이며, 편향성 및 독성에 대한 종합적인 분석과 모델 규모에 따른 학습 데이터 기억력 연구에 대한 결과도 제공합니다. 마지막으로, 대규모 언어 모델에 대한 윤리적 고민과 이를 완화하기 위한 전략에 대해 논의합니다.

PaLM Scaling Language Modeling with Pathways - 230219 (1).pdf

taeseon ryu

본 논문에서는 분배형 강화학습(Distributional Reinforcement Learning)에서 벨만 다이내믹스를 통해 확률 분포를 학습하는 문제를 고려합니다. 이전 연구들은 각 반환 분포의 유한 개의 통계량을 신경망을 통해 학습하는 방법을 사용해왔으나, 이 방법은 반환 분포의 함수적 형태에 제한을 받아 제한적인 표현력을 가지며, 미리 정의된 통계량을 유지하는 것이 어려웠습니다. 본 논문에서는 이러한 제한을 없애기 위해 최대 평균 거리(Maximum Mean Discrepancy, MMD)라는 가설 검정 기술을 활용해 반환 분포의 결정론적인(의사 난수를 사용한) 표본들을 학습하는 방법을 제안합니다. 이를 통해 반환 분포와 벨만 타겟 간의 모든 모멘트(순간값)를 암묵적으로 일치시킴으로써 분배형 벨만 연산자의 수렴성을 보장하며, 분포 근사에 대한 유한 샘플 분석을 제시합니다. 실험 결과, 본 논문에서 제안한 방법은 분배형 강화학습의 기본 모델보다 우수한 성능을 보이며, Atari 게임에서 분산형 에이전트를 사용하지 않는 경우에도 최고 성적을 기록합니다.

Distributional RL via Moment Matching

taeseon ryu

More from taeseon ryu (20)

YOLO V6

Dataset Distillation by Matching Training Trajectories

RL_UpsideDown

Packed Levitated Marker for Entity and Relation Extraction

MOReL: Model-Based Offline Reinforcement Learning

Scaling Instruction-Finetuned Language Models

Visual prompt tuning

mPLUG

variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdf

Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdf

The Forward-Forward Algorithm

Towards Robust and Reproducible Active Learning using Neural Networks

BRIO: Bringing Order to Abstractive Summarization

ProximalPolicyOptimization

Dream2Control paper review

Online Continual Learning on Class Incremental Blurry Task Configuration with...

[2023] Cut and Learn for Unsupervised Object Detection and Instance Segmentation

Unsupervised Neural Machine Translation for Low-Resource Domains

PaLM Scaling Language Modeling with Pathways - 230219 (1).pdf

Distributional RL via Moment Matching

220109 dl paper review grokking (iclr 2021 workshop)

1. Paper review 2022/1/9 Presenter 이근배 Fundamental Team 김동현, 김채현, 박종익, 송헌, 양현모, 오대환, 이재윤, 조남경 1st Mathematical Reasoning in General Artificial Intelligence Workshop, ICLR 2021 https://alogs.theguntretort.com/.media/21f57cd5af2ccd6a1e95ee2ec1dc91c538a70f7375d6e98e50a58eabf8fbc197.pdf

4. Image credit: Different methods for mitigating overfitting on Neural Networks, Pablo Sanchez https://quantdare.com/mitigating-overfitting-neural-networks/ Recap: Model generalization

5. Grokking: A dramatic example of generalization far after overfitting on an algorithmic dataset Left: Figure 1, Power, Alethea, et al. "Grokking: Generalization beyond overfitting on small algorithmic datasets." ICLR MATH-AI Workshop. 2021. Right: Figure 4, Power, Alethea, et al. "Grokking: Generalization beyond overfitting on small algorithmic datasets." ICLR MATH-AI Workshop. 2021.

6. Grokking: Generalization beyond Overfitting on small algorithmic datasets (Paper Explained) https://youtu.be/dND-7llwrpw

7. Contributions • Long after severely overfitting, validation accuracy sometimes suddenly begins to increase from chance level toward perfect generalization. We call this phenomenon ‘grokking’. • We find that weight decay is particularly effective at improving generalization on the tasks we study.

10. Dataset: Binary operations Appendix A, Power, Alethea, et al. "Grokking: Generalization beyond overfitting on small algorithmic datasets." ICLR MATH-AI Workshop. 2021.

11. Tuning optimization hyperparamters 1. Adam w/ full batch 2. Adam 3. Adam w/ full batch and Gaussian noise added to the update direction for each parameter (W ← W + lr · (∆W + ε), where ε is sampled from unit Gaussian, ∆W is the standard Adam weight update 4. Adam w/ dropout = 0.1 5. AdamW w/ weight decay = 1 6. AdamW w/ weight decay 1 towards the initialization instead of the origin 7. Adam w/ lr = 3 · 10−4 8. Adam w/ lr = 3 · 10−3 9. Adam w/ Gaussian weight noise of standard deviation = 0.01 (i.e. each parameter W replaced by W + 0.01 · ε in the model, with ε sampled from unit Gaussian).

12.

13. Figure 1, Power, Alethea, et al. "Grokking: Generalization beyond overfitting on small algorithmic datasets." ICLR MATH-AI Workshop. 2021. Training time required to reach 99% validation accuracy

14. Figure 2, Power, Alethea, et al. "Grokking: Generalization beyond overfitting on small algorithmic datasets." ICLR MATH-AI Workshop. 2021. Best validation accuracy achieved after 105 steps

15. Figure 2, Power, Alethea, et al. "Grokking: Generalization beyond overfitting on small algorithmic datasets." ICLR MATH-AI Workshop. 2021. Different optimization algorithms lead to different amounts of generalization

16. Figure 6, Power, Alethea, et al. "Grokking: Generalization beyond overfitting on small algorithmic datasets." ICLR MATH-AI Workshop. 2021. Generalization with memorizing several outliers

220109 dl paper review grokking (iclr 2021 workshop)

Recommended

Recommended

More Related Content

More from taeseon ryu

More from taeseon ryu (20)

220109 dl paper review grokking (iclr 2021 workshop)