데이터셋 잘 나누는 방법 NIPS2016 by Andrew Ng

NIPS 2016
Nuts and bolts of building AI applications using Deep
Learning by Andrew Ng
김완수

지금 딥러닝이 뜨거운 감자인 이유
• 빅데이터 시대
• 그냥 딥러닝이 짱이여서
• 전통적인 모델은 Large-Scale의 데이터를 쥐어짜지 못함

End-To-End Learning
Traditional Model
- 단순한 Output (정수 혹은 확률)
Deep Learning
- 굉장히 복잡하고 다양한 Output
별걸다함

기존 Dataset Split
TRAIN TEST

그러면 어떻게?
TRAIN Train Val Test Val Test
검증셋을 2개로 나누자

Hman-Level
TRAIN
TEST-Val
TRAIN-Val
TEST
Variance
Bias mismatch
Overfitting

Work Flow
Training Error high
Train-Val Error high
Test-Val Error high
Test Error high
No
No
No
Yes
Yes
Yes
Yes
• 모델을 더 크게
• 학습을 더 길게
• 새로운 모델 구조
• 데이터를 더 많이
• 정규화
• Train 데이터와 Test
데이터를 더 유사하게
• Augmentation
• Test Dev을 더 쌓자

이런거 한 이유
• 당장 써먹을 수 있는 실용적인 팁이라 생각함
• Andrew Ng같이 빤짝한 학자가 아니라 견고한 학자가 되고싶음
• 사실 삐까뻔쩍한 신기술보다 이런 실용적인 내용을 더 좋아함
• NLP도 논문도 아니지만 꼭 해보고 싶었음

데이터셋 잘 나누는 방법 NIPS2016 by Andrew Ng

Recommended

Recommended

More Related Content

Similar to 데이터셋 잘 나누는 방법 NIPS2016 by Andrew Ng

Similar to 데이터셋 잘 나누는 방법 NIPS2016 by Andrew Ng (20)

데이터셋 잘 나누는 방법 NIPS2016 by Andrew Ng