ChatScript is a natural language tool and dialog manager created by Bruce Wilcox. It uses rule-based pattern matching to respond to user input. Some key features include a built-in WordNet dictionary, database integration, and support for Windows, Linux, Mac, iOS and Android. The source code is available on GitHub. ChatScript scripts consist of rules organized into topics to handle different conversations. Rules specify patterns to match input and output responses. Variables can also be used to store and reference information in the dialog.
[Distributed System] ch4. interprocess communicationGyuhyeon Nam
The document discusses several key issues related to data communication between computers including different data formats, marshalling or converting data to a common format for transmission, and representation standards like CORBA CDR, Java serialization, and XML. It also covers remote object references, multicast communication, and the failure characteristics of unreliable multicast.
ChatScript is a natural language tool and dialog manager created by Bruce Wilcox. It uses rule-based pattern matching to respond to user input. Some key features include a built-in WordNet dictionary, database integration, and support for Windows, Linux, Mac, iOS and Android. The source code is available on GitHub. ChatScript scripts consist of rules organized into topics to handle different conversations. Rules specify patterns to match input and output responses. Variables can also be used to store and reference information in the dialog.
[Distributed System] ch4. interprocess communicationGyuhyeon Nam
The document discusses several key issues related to data communication between computers including different data formats, marshalling or converting data to a common format for transmission, and representation standards like CORBA CDR, Java serialization, and XML. It also covers remote object references, multicast communication, and the failure characteristics of unreliable multicast.
[Distributed System] ch4. interprocess communication
[study] 띄어쓰기 오류에 강건한 문장 압축 기반 한국어 문장 분류
1. 띄어쓰기 오류에 강건한 문장 압축 기반 한국어 문장 분류
Natural Language Processing Lab. @Kookmin University
박근영, 김경덕, 강인호
제30회 한글 및 한국어 정보처리 학술대회 논문집 (2018년) pp.600-604
국민대학교 자연어처리연구실 남규현
2. Natural Language Processing Lab. @Kookmin University
서론
• 텍스트 분류
- 텍스트 분류 응용 분야
- 스팸 탐지
- 댓글 분류
- 뉴스 주제 분석
- 성능 하락 요인
- 철자 오류
- 띄어쓰기 오류
• 오류를 수정하는 연구는 있지만 오류를 포함하는 연구는 없음
• 띄어쓰기 오류에 강건한 분류 모델을 제안
3. Natural Language Processing Lab. @Kookmin University
문장 분류
• CNN 기반 문장 분류 모델
- 음절 기반 임베딩
- 필터
- 개별 필터들이 각 특징 정보를 추출
- NLP에서는 N-gram 단위와 대응
- 여러 개의 필터 -> 여러 N-gram 정보 추출
- 풀링
- 음절 N-gram 정보 중 특징들을 추출하는 역할
4. Natural Language Processing Lab. @Kookmin University
문장 분류
• 문장 압축 기반 자질 구성
- 띄어쓰기 오류 패턴들을 모두 학습하는 것은 비효율적
- 압축 문자열을 추가
- 가변부, 불변부를 모두 학습
5. Natural Language Processing Lab. @Kookmin University
실험
• 실험 데이터
- naver sentiment movie corpus v1.0 (https://github.com/e9t/nsmc)
- 200000개 영화 리뷰
- 긍정 100000개
- 부정 100000개
- 문장의 최대 길이 146자
- <id>, <document>, <label> 로 구성됨
7. Natural Language Processing Lab. @Kookmin University
실험
• 결과
- 성능 평가
- 일반 문장 (Baseline)
- 일반 문장 + 문장압축기반 (Test)
- 평가 데이터에 띄어쓰기 추가/삭제 오류를
0/5/10/20/50% 수준으로 발생시킴
8. Natural Language Processing Lab. @Kookmin University
결론
• 띄어쓰기에 오류에 강건한 분류 모델을 제안하고 입증함
• 향후 연구
- 성능 개선
- 입력 자질의 보충
- 모델 네트워크 구조 변경
- 하이퍼 파라미터 최적화
- 철자 오류에 강건한 분류 모델
- 자모 단위 임베딩
- 철자 오류 발생을 자연스럽게