SlideShare a Scribd company logo
띄어쓰기 오류에 강건한 문장 압축 기반 한국어 문장 분류
Natural Language Processing Lab. @Kookmin University
박근영, 김경덕, 강인호
제30회 한글 및 한국어 정보처리 학술대회 논문집 (2018년) pp.600-604
국민대학교 자연어처리연구실 남규현
Natural Language Processing Lab. @Kookmin University
서론
• 텍스트 분류
- 텍스트 분류 응용 분야
- 스팸 탐지
- 댓글 분류
- 뉴스 주제 분석
- 성능 하락 요인
- 철자 오류
- 띄어쓰기 오류
• 오류를 수정하는 연구는 있지만 오류를 포함하는 연구는 없음
• 띄어쓰기 오류에 강건한 분류 모델을 제안
Natural Language Processing Lab. @Kookmin University
문장 분류
• CNN 기반 문장 분류 모델
- 음절 기반 임베딩
- 필터
- 개별 필터들이 각 특징 정보를 추출
- NLP에서는 N-gram 단위와 대응
- 여러 개의 필터 -> 여러 N-gram 정보 추출
- 풀링
- 음절 N-gram 정보 중 특징들을 추출하는 역할
Natural Language Processing Lab. @Kookmin University
문장 분류
• 문장 압축 기반 자질 구성
- 띄어쓰기 오류 패턴들을 모두 학습하는 것은 비효율적
- 압축 문자열을 추가
- 가변부, 불변부를 모두 학습
Natural Language Processing Lab. @Kookmin University
실험
• 실험 데이터
- naver sentiment movie corpus v1.0 (https://github.com/e9t/nsmc)
- 200000개 영화 리뷰
- 긍정 100000개
- 부정 100000개
- 문장의 최대 길이 146자
- <id>, <document>, <label> 로 구성됨
Natural Language Processing Lab. @Kookmin University
실험
• 하이퍼 파라미터
Natural Language Processing Lab. @Kookmin University
실험
• 결과
- 성능 평가
- 일반 문장 (Baseline)
- 일반 문장 + 문장압축기반 (Test)
- 평가 데이터에 띄어쓰기 추가/삭제 오류를
0/5/10/20/50% 수준으로 발생시킴
Natural Language Processing Lab. @Kookmin University
결론
• 띄어쓰기에 오류에 강건한 분류 모델을 제안하고 입증함
• 향후 연구
- 성능 개선
- 입력 자질의 보충
- 모델 네트워크 구조 변경
- 하이퍼 파라미터 최적화
- 철자 오류에 강건한 분류 모델
- 자모 단위 임베딩
- 철자 오류 발생을 자연스럽게

More Related Content

More from Gyuhyeon Nam

grade server - block socket
grade server - block socketgrade server - block socket
grade server - block socket
Gyuhyeon Nam
 
[Tool] Tree Tagger 를 이용한 한국어 품사 태깅
[Tool] Tree Tagger 를 이용한 한국어 품사 태깅 [Tool] Tree Tagger 를 이용한 한국어 품사 태깅
[Tool] Tree Tagger 를 이용한 한국어 품사 태깅
Gyuhyeon Nam
 
[study] Long Text Generation via Adversarial Training with Leaked Information
[study] Long Text Generation via Adversarial Training with Leaked Information[study] Long Text Generation via Adversarial Training with Leaked Information
[study] Long Text Generation via Adversarial Training with Leaked Information
Gyuhyeon Nam
 
[Tool] chatscript 사용법
[Tool] chatscript 사용법[Tool] chatscript 사용법
[Tool] chatscript 사용법
Gyuhyeon Nam
 
[Tool] cwb cqp
[Tool] cwb cqp[Tool] cwb cqp
[Tool] cwb cqp
Gyuhyeon Nam
 
[Distributed System] ch4. interprocess communication
[Distributed System] ch4. interprocess communication[Distributed System] ch4. interprocess communication
[Distributed System] ch4. interprocess communication
Gyuhyeon Nam
 

More from Gyuhyeon Nam (6)

grade server - block socket
grade server - block socketgrade server - block socket
grade server - block socket
 
[Tool] Tree Tagger 를 이용한 한국어 품사 태깅
[Tool] Tree Tagger 를 이용한 한국어 품사 태깅 [Tool] Tree Tagger 를 이용한 한국어 품사 태깅
[Tool] Tree Tagger 를 이용한 한국어 품사 태깅
 
[study] Long Text Generation via Adversarial Training with Leaked Information
[study] Long Text Generation via Adversarial Training with Leaked Information[study] Long Text Generation via Adversarial Training with Leaked Information
[study] Long Text Generation via Adversarial Training with Leaked Information
 
[Tool] chatscript 사용법
[Tool] chatscript 사용법[Tool] chatscript 사용법
[Tool] chatscript 사용법
 
[Tool] cwb cqp
[Tool] cwb cqp[Tool] cwb cqp
[Tool] cwb cqp
 
[Distributed System] ch4. interprocess communication
[Distributed System] ch4. interprocess communication[Distributed System] ch4. interprocess communication
[Distributed System] ch4. interprocess communication
 

[study] 띄어쓰기 오류에 강건한 문장 압축 기반 한국어 문장 분류

  • 1. 띄어쓰기 오류에 강건한 문장 압축 기반 한국어 문장 분류 Natural Language Processing Lab. @Kookmin University 박근영, 김경덕, 강인호 제30회 한글 및 한국어 정보처리 학술대회 논문집 (2018년) pp.600-604 국민대학교 자연어처리연구실 남규현
  • 2. Natural Language Processing Lab. @Kookmin University 서론 • 텍스트 분류 - 텍스트 분류 응용 분야 - 스팸 탐지 - 댓글 분류 - 뉴스 주제 분석 - 성능 하락 요인 - 철자 오류 - 띄어쓰기 오류 • 오류를 수정하는 연구는 있지만 오류를 포함하는 연구는 없음 • 띄어쓰기 오류에 강건한 분류 모델을 제안
  • 3. Natural Language Processing Lab. @Kookmin University 문장 분류 • CNN 기반 문장 분류 모델 - 음절 기반 임베딩 - 필터 - 개별 필터들이 각 특징 정보를 추출 - NLP에서는 N-gram 단위와 대응 - 여러 개의 필터 -> 여러 N-gram 정보 추출 - 풀링 - 음절 N-gram 정보 중 특징들을 추출하는 역할
  • 4. Natural Language Processing Lab. @Kookmin University 문장 분류 • 문장 압축 기반 자질 구성 - 띄어쓰기 오류 패턴들을 모두 학습하는 것은 비효율적 - 압축 문자열을 추가 - 가변부, 불변부를 모두 학습
  • 5. Natural Language Processing Lab. @Kookmin University 실험 • 실험 데이터 - naver sentiment movie corpus v1.0 (https://github.com/e9t/nsmc) - 200000개 영화 리뷰 - 긍정 100000개 - 부정 100000개 - 문장의 최대 길이 146자 - <id>, <document>, <label> 로 구성됨
  • 6. Natural Language Processing Lab. @Kookmin University 실험 • 하이퍼 파라미터
  • 7. Natural Language Processing Lab. @Kookmin University 실험 • 결과 - 성능 평가 - 일반 문장 (Baseline) - 일반 문장 + 문장압축기반 (Test) - 평가 데이터에 띄어쓰기 추가/삭제 오류를 0/5/10/20/50% 수준으로 발생시킴
  • 8. Natural Language Processing Lab. @Kookmin University 결론 • 띄어쓰기에 오류에 강건한 분류 모델을 제안하고 입증함 • 향후 연구 - 성능 개선 - 입력 자질의 보충 - 모델 네트워크 구조 변경 - 하이퍼 파라미터 최적화 - 철자 오류에 강건한 분류 모델 - 자모 단위 임베딩 - 철자 오류 발생을 자연스럽게