20. 현재 결과 분석
데이터 부족으로 인한 과적합 (over-fitting)
Encoder & Decoder 학습이 원활하게 이루어지지 않음
실생활에서 사용하는 단어보다, 데이터 수집을 위한 단어가 많음
(acenaphthene, acetaldehyde 와 같은 약품 이름 등)
21. 개선 방안
모델 튜닝 (계층 간소화)
약간의 Dropout 추가
“데이터 추가”
…
22. 이용 방안 (정확도가 조금 더 올라간다면…)
거대한 말뭉치에 대한 Pre-Processing 작업에 사용가능
“혹시 follow-up이 필요하신 분들은 slack 주세요”
-> “혹시 팔로업이 필요하신 분들은 슬랙주세요”
(Ex.알파벳 정제작업)