오늘 소개드릴 논문은 소규모 데이터셋의 오버피팅 이후에 발생하는 모델의 일반화 현상 이른바 Grokking 현상에 대한 내용입니다. 트레이닝셋의 학습이 이제 잘 끝난 모델에는 이터레이션이 지속 될수록 트레이닝 에러는 지속적으로 감소하는 반면에 테스트에러는 최저점에 도달한 이후에 다시 증가하는 경향이 있는데요 이 트레이닝에러와 테스트에러가 가장 최소화되는 지점에서 이제 학습을 끝내면 이 모델의 일반화가 잘 되었다고 얘기합니다. 오버피팅이 발생해 버리면 테스트 셋은 정작 제대로 추론하지 못하는 경향이 있는대 논문의 저자들은 오버피팅으로 끝난 모델을 계속 학습을 시키면 이제 어느순간 지날수록 갑자기 모델이 일반화에 성공하는 현상을 발견했고 이걸 그로킹 현상으로 명명했습니다. 방법론 실험과 그로킹 현상에 대해서 자세하게 펀디멘탈팀 이근배님이 자세한 리뷰 도와주셨습니다. 오늘도 많은 관심 미리 감사드립니다 ! https://youtu.be/mcnSN645xUE