[study] 띄어쓰기 오류에 강건한 문장 압축 기반 한국어 문장 분류

띄어쓰기 오류에 강건한 문장 압축 기반 한국어 문장 분류
Natural Language Processing Lab. @Kookmin University
박근영, 김경덕, 강인호
제30회 한글 및 한국어 정보처리 학술대회 논문집 (2018년) pp.600-604
국민대학교 자연어처리연구실 남규현

서론
• 텍스트 분류
- 텍스트 분류 응용 분야
- 스팸 탐지
- 댓글 분류
- 뉴스 주제 분석
- 성능 하락 요인
- 철자 오류
- 띄어쓰기 오류
• 오류를 수정하는 연구는 있지만 오류를 포함하는 연구는 없음
• 띄어쓰기 오류에 강건한 분류 모델을 제안

문장 분류
• CNN 기반 문장 분류 모델
- 음절 기반 임베딩
- 필터
- 개별 필터들이 각 특징 정보를 추출
- NLP에서는 N-gram 단위와 대응
- 여러 개의 필터 -> 여러 N-gram 정보 추출
- 풀링
- 음절 N-gram 정보 중 특징들을 추출하는 역할

문장 분류
• 문장 압축 기반 자질 구성
- 띄어쓰기 오류 패턴들을 모두 학습하는 것은 비효율적
- 압축 문자열을 추가
- 가변부, 불변부를 모두 학습

실험
• 실험 데이터
- naver sentiment movie corpus v1.0 (https://github.com/e9t/nsmc)
- 200000개 영화 리뷰
- 긍정 100000개
- 부정 100000개
- 문장의 최대 길이 146자
- <id>, <document>, <label> 로 구성됨

실험
• 하이퍼 파라미터

실험
• 결과
- 성능 평가
- 일반 문장 (Baseline)
- 일반 문장 + 문장압축기반 (Test)
- 평가 데이터에 띄어쓰기 추가/삭제 오류를
0/5/10/20/50% 수준으로 발생시킴

결론
• 띄어쓰기에 오류에 강건한 분류 모델을 제안하고 입증함
• 향후 연구
- 성능 개선
- 입력 자질의 보충
- 모델 네트워크 구조 변경
- 하이퍼 파라미터 최적화
- 철자 오류에 강건한 분류 모델
- 자모 단위 임베딩
- 철자 오류 발생을 자연스럽게

[study] 띄어쓰기 오류에 강건한 문장 압축 기반 한국어 문장 분류

Recommended

Recommended

More Related Content

More from Gyuhyeon Nam

More from Gyuhyeon Nam (6)

[study] 띄어쓰기 오류에 강건한 문장 압축 기반 한국어 문장 분류