SlideShare a Scribd company logo
1 of 21
Download to read offline
KoNLP 개선과 활용
SKT 데이터 분석가/KoNLP 개발자 전희원
이들의 공통점?
• 워드 클라우드 예제
• 안철수 교수 대선 출마 선언문 텍스트 요약
• 국정원 의심 계정 트윗 분석
• 단어간의 연관 관계 분석
• 북한 신년사 비교 예제를 통한 텍스트 분석의 이해
• 대하드라마 정도전 분석 사례
• 한국사회의 성별갈등을 데이터로 알아보았다.
• 학술 연구(교육, 사회, 정치학 관련 )
• https://scholar.google.co.kr/scholar?q=KoNLP
• 책
• 데이터 시각화 (허명회 저)
• R로하는 데이터 시각화 (전희원 저)
• R까기, R라뷰(서진수 저)
• 신입 탐정의 데이터 분석 입문 (이시다 모토히로 저)
• 소프트웨어
• KoNLPy
• http://konlpy-ko.readthedocs.io/ko/v0.4.3/
• Rtextrankr
• https://cran.r-project.org/web/packages/Rtextrankr/index.html
KoNLP : Korean NLP Package
한글 처리의 특수성
• 자연어 처리는 대상어에 따라 분석 방식이 상당히 달라진다.
• 한국어
• 1개 이상의 형태소가 한 어절을 이루고 있다.
• 형태소(morpheme) : 더 이상 분석하면 의미를 잃어버리는 말의 단위
예) 마을(village) -> 마 + 을 (더 이상 의미가 없어진다.)
• 형태소 분석의 모호성
• 감기는: (N 감기)+(J 는), (V 감)+(E 기)+(J 는), (V 감기)+(E 는), ...
• 형태소 분석의 필요성
• 최소 어절의 정규화
• 감기는, 감기고, 감기어…. -> 감기 로 정규화
• 검색 서비스, 기계번역, 스팸필터 등 텍스트 기반의 모든 서비스에는
반드시 필요한 과정
 통계적 품사 태깅
 한 문장을 이루는 어절열 w1,n이 주어졌을 때, 가장 확률이 높은 태그열 t1,n을 구
함
 일반적인 통계 기반 모델에서 tag의 확률
 이전의 history에 대한 조건부 확률로 구함
 현실적으로는 전체 history에 대해 조건부확률을 구하는 것이 불가능
∴ n-gram 모델을 도입하여 국부적인 문맥(local context)을 이용
 HMM
),(maxarg
)(
),(
maxarg
)|(maxarg)(
,1,1
,1
,1,1
,1,1,1
,1,1
,1
nn
tn
nn
t
nn
t
n
wtP
wP
wtP
wtPwT
nn
n


),|( 1,1,1 qqq twtP
KoNLP
KoNLP 구조
한나눔 형태소 분석
라이브러리 for KoNLP
한글 코퍼스 분석 도구
• KoNLP에 최적화 시킨 한나눔 형태소 분석기
• 문장 분리기, 부적합 어절 필터 등
• 대용량 사전 로딩 가능
• Concordance, Mutual Information 등
System 사전
Sejong NIADic
Dictionary Interface tools
From : 한나눔 형태소 분석기 사용자 매뉴얼
KoNLP : Korean NLP Package
• R 패키지로는 유일한 한글 텍스트 전처리 도구
• openNLP, RKEA, Snowball 등 영문 전용 텍스트 전처리 도구 위주
• 라이브러리로 제공하는 기존 형태소 분석기와는 다르게 ….
• 한글 텍스트 분석에 자주 쓰이는 기능 위주 인터페이스 제공
• 한글 분석에 대해 특별한 배경 지식 없이 간단한 함수로
사용가능
• 형태소 분석 및 POS Tagging 결과를 튜닝할 수 있는 사용자 사전
입력 인터페이스 제공
• 연구 분야별 사전 적용 가능, 연구자들의 활용도 높음
• 현재 시스템사전(28만) , 세종사전(8만), NIADic(93만) 사전을
제공하고 있음.
KoNLP v.0.80.0 개선 포인트
기존의 버그 수정/개선
빈번한 사전 데이터 호출로 인한 out of memory
대기큐로 인한 Infinite loop 현상
대용량(100만 이상 형태소) 사전 적용
메모리 사용 효율 고도화
저사양 유저들도 고품질의 사전을 활용할 수 있게
유연한 사전 활용 기반 제공
텍스트 전처리 플러그인 개발
문장 경계 인식
비정상 어절 필터
띄어쓰기 플러그인
OutofMemory!
• 비효율적인 메모리 관리로 인한 OutofMemory 빈번
• 100만 단어 이상의 사전을 로딩하기 위해서 해결해야 되는 문제
• 개선을 통해 저사양 PC에서도 전체 130만 단어를 모두 로딩 후 분석 가능
Total: 344.3 MB Total: 176.6 MB
갤럭시S5
CPU
Slow?!
 느림
SimplePos09() -> SimplePos22() -> extractNoun()
 빠름
extractNoun() -> extractNoun() -> extractNoun()
 동일 함수를 여러 번 구동하는 사용패턴에 최적화
More dictionary and Category!
 NIADic을 통한 36만 -> 130만 형태소 사전 보강
 우리말샘 사전(58만), 인사이터 사전(35만)
우리말샘 인사이터
• 40개 -> 82개 어절 단위 형태소
• 기존 2배 이상의 형태소 후보군 도출
Exporting Dictionary
• 형태소 사전의 txt 파일 다운로드 인터페이스 제공
• 타 형태소 분석기에 사전 데이터 활용 가능
문장 경계 인식 플러그인
자동 띄어쓰기(개발중)
75만 문장을 기반으로 학습된 띄어쓰기 엔
진 (한국일보 코퍼스, 세종 코퍼스..)
유니그램, 바이그램 HMM
Etc
 useNIAdic()
 Support Scala plugins
 SQLite based dictionary management
 Solving infinite wait of results with abnormal sentence.
 Adding Hangul vignette
Schedule
~ 11.20
KoNLP v.0.80.0 CRAN 등록
패키지 용량 이슈, vignette 한글 이슈 등등
~ 12.05
자동 띄어쓰기 교정 플러그인 구현/적용
사용자 정의 사전 강제 적용 옵션 구현
~
RNN POS Tagger plugins
How to use KoNLP
• How to Install
• To install from CRAN
• Install.package(“KoNLP”)
• To install from github
• Install.package(“devtools”)
• devtools::install_github(“haven-jeon/KoNLP”)
• Functions
• vignette(“KoNLP-API”)
KoNLP v0.80.0 Tutorial
Q&A
• https://github.com/haven-jeon/KoNLP
• https://github.com/haven-jeon/Sejong
• https://github.com/haven-jeon/NIADic

More Related Content

What's hot

화자인식 기술 및 관련 연구 소개
화자인식 기술 및 관련 연구 소개화자인식 기술 및 관련 연구 소개
화자인식 기술 및 관련 연구 소개NAVER Engineering
 
Raster data in GeoServer and GeoTools: Achievements, issues and future devel...
Raster data in GeoServer and GeoTools:  Achievements, issues and future devel...Raster data in GeoServer and GeoTools:  Achievements, issues and future devel...
Raster data in GeoServer and GeoTools: Achievements, issues and future devel...GeoSolutions
 
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용
Python과 Tensorflow를 활용한  AI Chatbot 개발 및 실무 적용Python과 Tensorflow를 활용한  AI Chatbot 개발 및 실무 적용
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용Susang Kim
 
인프콘 2022 - Rust 크로스 플랫폼 프로그래밍
인프콘 2022 - Rust 크로스 플랫폼 프로그래밍인프콘 2022 - Rust 크로스 플랫폼 프로그래밍
인프콘 2022 - Rust 크로스 플랫폼 프로그래밍Chris Ohk
 
NDC 2015 삼시세끼 빌드만들기
NDC 2015 삼시세끼 빌드만들기NDC 2015 삼시세끼 빌드만들기
NDC 2015 삼시세끼 빌드만들기Hyunsuk Ahn
 
게임서버프로그래밍 #2 - IOCP Adv
게임서버프로그래밍 #2 - IOCP Adv게임서버프로그래밍 #2 - IOCP Adv
게임서버프로그래밍 #2 - IOCP AdvSeungmo Koo
 
머신러닝 해외 취업 준비: 닳고 닳은 이력서와 고통스러웠던 면접을 돌아보며 SNU 2018
머신러닝 해외 취업 준비: 닳고 닳은 이력서와 고통스러웠던 면접을 돌아보며 SNU 2018머신러닝 해외 취업 준비: 닳고 닳은 이력서와 고통스러웠던 면접을 돌아보며 SNU 2018
머신러닝 해외 취업 준비: 닳고 닳은 이력서와 고통스러웠던 면접을 돌아보며 SNU 2018Taehoon Kim
 
추천시스템 구축을 위한 빅데이터 분석기법과 사례
추천시스템 구축을 위한 빅데이터 분석기법과 사례추천시스템 구축을 위한 빅데이터 분석기법과 사례
추천시스템 구축을 위한 빅데이터 분석기법과 사례HELENA LEE
 
임태현, Text-CNN을 이용한 Sentiment 분설모델 구현
임태현, Text-CNN을 이용한 Sentiment 분설모델 구현임태현, Text-CNN을 이용한 Sentiment 분설모델 구현
임태현, Text-CNN을 이용한 Sentiment 분설모델 구현태현 임
 
프로그래밍 언어의 F1머신 C++을 타고 Windows 10 UWP 앱 개발의 세계로~
프로그래밍 언어의 F1머신 C++을 타고 Windows 10 UWP 앱 개발의 세계로~프로그래밍 언어의 F1머신 C++을 타고 Windows 10 UWP 앱 개발의 세계로~
프로그래밍 언어의 F1머신 C++을 타고 Windows 10 UWP 앱 개발의 세계로~YEONG-CHEON YOU
 
파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차Taekyung Han
 
Efficient and effective passage search via contextualized late interaction ov...
Efficient and effective passage search via contextualized late interaction ov...Efficient and effective passage search via contextualized late interaction ov...
Efficient and effective passage search via contextualized late interaction ov...taeseon ryu
 
What is the best full text search engine for Python?
What is the best full text search engine for Python?What is the best full text search engine for Python?
What is the best full text search engine for Python?Andrii Soldatenko
 
181123 poseest101 devfest_pangyo_jwkang
181123 poseest101 devfest_pangyo_jwkang181123 poseest101 devfest_pangyo_jwkang
181123 poseest101 devfest_pangyo_jwkangJaewook. Kang
 
WebRTCがよく分からないから調べて試してみた
WebRTCがよく分からないから調べて試してみたWebRTCがよく分からないから調べて試してみた
WebRTCがよく分からないから調べて試してみたtoru tom
 
[SOSCON 2017] 주니어 개발자 5000명, 개발 해서 남 주자
[SOSCON 2017] 주니어 개발자 5000명, 개발 해서 남 주자[SOSCON 2017] 주니어 개발자 5000명, 개발 해서 남 주자
[SOSCON 2017] 주니어 개발자 5000명, 개발 해서 남 주자Yurim Jin
 
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [주식팀] : 특정 시간대의 주가 변동 패턴을 이용한 실시간 주가 예측
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [주식팀] : 특정 시간대의 주가 변동 패턴을 이용한 실시간 주가 예측제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [주식팀] : 특정 시간대의 주가 변동 패턴을 이용한 실시간 주가 예측
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [주식팀] : 특정 시간대의 주가 변동 패턴을 이용한 실시간 주가 예측BOAZ Bigdata
 
08_게임 물리 프로그래밍 가이드
08_게임 물리 프로그래밍 가이드08_게임 물리 프로그래밍 가이드
08_게임 물리 프로그래밍 가이드noerror
 
서비스중인 게임 DB 설계 (쿠키런 편)
서비스중인 게임 DB 설계 (쿠키런 편)서비스중인 게임 DB 설계 (쿠키런 편)
서비스중인 게임 DB 설계 (쿠키런 편)_ce
 

What's hot (20)

화자인식 기술 및 관련 연구 소개
화자인식 기술 및 관련 연구 소개화자인식 기술 및 관련 연구 소개
화자인식 기술 및 관련 연구 소개
 
Raster data in GeoServer and GeoTools: Achievements, issues and future devel...
Raster data in GeoServer and GeoTools:  Achievements, issues and future devel...Raster data in GeoServer and GeoTools:  Achievements, issues and future devel...
Raster data in GeoServer and GeoTools: Achievements, issues and future devel...
 
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용
Python과 Tensorflow를 활용한  AI Chatbot 개발 및 실무 적용Python과 Tensorflow를 활용한  AI Chatbot 개발 및 실무 적용
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용
 
인프콘 2022 - Rust 크로스 플랫폼 프로그래밍
인프콘 2022 - Rust 크로스 플랫폼 프로그래밍인프콘 2022 - Rust 크로스 플랫폼 프로그래밍
인프콘 2022 - Rust 크로스 플랫폼 프로그래밍
 
NDC 2015 삼시세끼 빌드만들기
NDC 2015 삼시세끼 빌드만들기NDC 2015 삼시세끼 빌드만들기
NDC 2015 삼시세끼 빌드만들기
 
게임서버프로그래밍 #2 - IOCP Adv
게임서버프로그래밍 #2 - IOCP Adv게임서버프로그래밍 #2 - IOCP Adv
게임서버프로그래밍 #2 - IOCP Adv
 
머신러닝 해외 취업 준비: 닳고 닳은 이력서와 고통스러웠던 면접을 돌아보며 SNU 2018
머신러닝 해외 취업 준비: 닳고 닳은 이력서와 고통스러웠던 면접을 돌아보며 SNU 2018머신러닝 해외 취업 준비: 닳고 닳은 이력서와 고통스러웠던 면접을 돌아보며 SNU 2018
머신러닝 해외 취업 준비: 닳고 닳은 이력서와 고통스러웠던 면접을 돌아보며 SNU 2018
 
추천시스템 구축을 위한 빅데이터 분석기법과 사례
추천시스템 구축을 위한 빅데이터 분석기법과 사례추천시스템 구축을 위한 빅데이터 분석기법과 사례
추천시스템 구축을 위한 빅데이터 분석기법과 사례
 
임태현, Text-CNN을 이용한 Sentiment 분설모델 구현
임태현, Text-CNN을 이용한 Sentiment 분설모델 구현임태현, Text-CNN을 이용한 Sentiment 분설모델 구현
임태현, Text-CNN을 이용한 Sentiment 분설모델 구현
 
프로그래밍 언어의 F1머신 C++을 타고 Windows 10 UWP 앱 개발의 세계로~
프로그래밍 언어의 F1머신 C++을 타고 Windows 10 UWP 앱 개발의 세계로~프로그래밍 언어의 F1머신 C++을 타고 Windows 10 UWP 앱 개발의 세계로~
프로그래밍 언어의 F1머신 C++을 타고 Windows 10 UWP 앱 개발의 세계로~
 
파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차
 
Efficient and effective passage search via contextualized late interaction ov...
Efficient and effective passage search via contextualized late interaction ov...Efficient and effective passage search via contextualized late interaction ov...
Efficient and effective passage search via contextualized late interaction ov...
 
What is the best full text search engine for Python?
What is the best full text search engine for Python?What is the best full text search engine for Python?
What is the best full text search engine for Python?
 
181123 poseest101 devfest_pangyo_jwkang
181123 poseest101 devfest_pangyo_jwkang181123 poseest101 devfest_pangyo_jwkang
181123 poseest101 devfest_pangyo_jwkang
 
WebRTCがよく分からないから調べて試してみた
WebRTCがよく分からないから調べて試してみたWebRTCがよく分からないから調べて試してみた
WebRTCがよく分からないから調べて試してみた
 
How A Compiler Works: GNU Toolchain
How A Compiler Works: GNU ToolchainHow A Compiler Works: GNU Toolchain
How A Compiler Works: GNU Toolchain
 
[SOSCON 2017] 주니어 개발자 5000명, 개발 해서 남 주자
[SOSCON 2017] 주니어 개발자 5000명, 개발 해서 남 주자[SOSCON 2017] 주니어 개발자 5000명, 개발 해서 남 주자
[SOSCON 2017] 주니어 개발자 5000명, 개발 해서 남 주자
 
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [주식팀] : 특정 시간대의 주가 변동 패턴을 이용한 실시간 주가 예측
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [주식팀] : 특정 시간대의 주가 변동 패턴을 이용한 실시간 주가 예측제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [주식팀] : 특정 시간대의 주가 변동 패턴을 이용한 실시간 주가 예측
제 14회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [주식팀] : 특정 시간대의 주가 변동 패턴을 이용한 실시간 주가 예측
 
08_게임 물리 프로그래밍 가이드
08_게임 물리 프로그래밍 가이드08_게임 물리 프로그래밍 가이드
08_게임 물리 프로그래밍 가이드
 
서비스중인 게임 DB 설계 (쿠키런 편)
서비스중인 게임 DB 설계 (쿠키런 편)서비스중인 게임 DB 설계 (쿠키런 편)
서비스중인 게임 DB 설계 (쿠키런 편)
 

Viewers also liked

황성수 공공데이터 개방과 공공이슈 해결
황성수 공공데이터 개방과 공공이슈 해결황성수 공공데이터 개방과 공공이슈 해결
황성수 공공데이터 개방과 공공이슈 해결r-kor
 
Flight Delay Compensation: How SwissRe is exploring new territories in Busine...
Flight Delay Compensation: How SwissRe is exploring new territories in Busine...Flight Delay Compensation: How SwissRe is exploring new territories in Busine...
Flight Delay Compensation: How SwissRe is exploring new territories in Busine...Codit
 
선박식별정보를 이용한 어업활동 공간밀도 가시화
선박식별정보를 이용한 어업활동 공간밀도 가시화선박식별정보를 이용한 어업활동 공간밀도 가시화
선박식별정보를 이용한 어업활동 공간밀도 가시화r-kor
 
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵r-kor
 
Airline flights delay prediction- 2014 Spring Data Mining Project
Airline flights delay prediction- 2014 Spring Data Mining ProjectAirline flights delay prediction- 2014 Spring Data Mining Project
Airline flights delay prediction- 2014 Spring Data Mining ProjectHaozhe Wang
 

Viewers also liked (6)

황성수 공공데이터 개방과 공공이슈 해결
황성수 공공데이터 개방과 공공이슈 해결황성수 공공데이터 개방과 공공이슈 해결
황성수 공공데이터 개방과 공공이슈 해결
 
Flight Delay Prediction
Flight Delay PredictionFlight Delay Prediction
Flight Delay Prediction
 
Flight Delay Compensation: How SwissRe is exploring new territories in Busine...
Flight Delay Compensation: How SwissRe is exploring new territories in Busine...Flight Delay Compensation: How SwissRe is exploring new territories in Busine...
Flight Delay Compensation: How SwissRe is exploring new territories in Busine...
 
선박식별정보를 이용한 어업활동 공간밀도 가시화
선박식별정보를 이용한 어업활동 공간밀도 가시화선박식별정보를 이용한 어업활동 공간밀도 가시화
선박식별정보를 이용한 어업활동 공간밀도 가시화
 
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵
 
Airline flights delay prediction- 2014 Spring Data Mining Project
Airline flights delay prediction- 2014 Spring Data Mining ProjectAirline flights delay prediction- 2014 Spring Data Mining Project
Airline flights delay prediction- 2014 Spring Data Mining Project
 

Similar to 한글 언어 자원과 R: KoNLP 개선과 활용

자바, 미안하다! 파이썬 한국어 NLP
자바, 미안하다! 파이썬 한국어 NLP자바, 미안하다! 파이썬 한국어 NLP
자바, 미안하다! 파이썬 한국어 NLPEunjeong (Lucy) Park
 
[224] backend 개발자의 neural machine translation 개발기 김상경
[224] backend 개발자의 neural machine translation 개발기 김상경[224] backend 개발자의 neural machine translation 개발기 김상경
[224] backend 개발자의 neural machine translation 개발기 김상경NAVER D2
 
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템Seokhwan Kim
 
GNMT로 알아보는 신경망 기반 기계번역
GNMT로 알아보는 신경망 기반 기계번역GNMT로 알아보는 신경망 기반 기계번역
GNMT로 알아보는 신경망 기반 기계번역Byeong il Ko
 
모바일 메신저 아키텍쳐 소개
모바일 메신저 아키텍쳐 소개모바일 메신저 아키텍쳐 소개
모바일 메신저 아키텍쳐 소개Hyogi Jung
 
클로져 소개 강의 (한국정보통신산업노동조합)
클로져 소개 강의 (한국정보통신산업노동조합)클로져 소개 강의 (한국정보통신산업노동조합)
클로져 소개 강의 (한국정보통신산업노동조합)Sang-Kyu Park
 
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성Hye-rim Jang
 
PyCon 12월 세미나 - 실전 파이썬 프로그래밍 책 홍보
PyCon 12월 세미나 - 실전 파이썬 프로그래밍 책 홍보PyCon 12월 세미나 - 실전 파이썬 프로그래밍 책 홍보
PyCon 12월 세미나 - 실전 파이썬 프로그래밍 책 홍보Young Hoo Kim
 
딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향LGCNSairesearch
 
18 2 파이썬표준라이브러리
18 2 파이썬표준라이브러리18 2 파이썬표준라이브러리
18 2 파이썬표준라이브러리Changwon National University
 
파이썬과 커뮤니티와 한국어 오픈데이터
파이썬과 커뮤니티와 한국어 오픈데이터파이썬과 커뮤니티와 한국어 오픈데이터
파이썬과 커뮤니티와 한국어 오픈데이터Eunjeong (Lucy) Park
 
NDC 2015 마비노기 듀얼 패치 시스템
NDC 2015 마비노기 듀얼 패치 시스템NDC 2015 마비노기 듀얼 패치 시스템
NDC 2015 마비노기 듀얼 패치 시스템tcaesvk
 
C 언어 스터디 01 - 기초
C 언어 스터디 01 - 기초C 언어 스터디 01 - 기초
C 언어 스터디 01 - 기초Yu Yongwoo
 
[214]베이지안토픽모형 강병엽
[214]베이지안토픽모형 강병엽[214]베이지안토픽모형 강병엽
[214]베이지안토픽모형 강병엽NAVER D2
 
Python 생태계의 이해
Python 생태계의 이해Python 생태계의 이해
Python 생태계의 이해용 최
 
AWSKRUG DS - 데이터 엔지니어가 실무에서 맞닥뜨리는 문제들
AWSKRUG DS - 데이터 엔지니어가 실무에서 맞닥뜨리는 문제들AWSKRUG DS - 데이터 엔지니어가 실무에서 맞닥뜨리는 문제들
AWSKRUG DS - 데이터 엔지니어가 실무에서 맞닥뜨리는 문제들Woong Seok Kang
 
Python machine learning_chap06_1
Python machine learning_chap06_1Python machine learning_chap06_1
Python machine learning_chap06_1PartPrime
 
Python machine learning Chapter 06 - PART1
Python machine learning Chapter 06 - PART1Python machine learning Chapter 06 - PART1
Python machine learning Chapter 06 - PART1Young Oh Jeong
 
[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템NAVER D2
 

Similar to 한글 언어 자원과 R: KoNLP 개선과 활용 (20)

자바, 미안하다! 파이썬 한국어 NLP
자바, 미안하다! 파이썬 한국어 NLP자바, 미안하다! 파이썬 한국어 NLP
자바, 미안하다! 파이썬 한국어 NLP
 
[224] backend 개발자의 neural machine translation 개발기 김상경
[224] backend 개발자의 neural machine translation 개발기 김상경[224] backend 개발자의 neural machine translation 개발기 김상경
[224] backend 개발자의 neural machine translation 개발기 김상경
 
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템
 
GNMT로 알아보는 신경망 기반 기계번역
GNMT로 알아보는 신경망 기반 기계번역GNMT로 알아보는 신경망 기반 기계번역
GNMT로 알아보는 신경망 기반 기계번역
 
모바일 메신저 아키텍쳐 소개
모바일 메신저 아키텍쳐 소개모바일 메신저 아키텍쳐 소개
모바일 메신저 아키텍쳐 소개
 
클로져 소개 강의 (한국정보통신산업노동조합)
클로져 소개 강의 (한국정보통신산업노동조합)클로져 소개 강의 (한국정보통신산업노동조합)
클로져 소개 강의 (한국정보통신산업노동조합)
 
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
 
PyCon 12월 세미나 - 실전 파이썬 프로그래밍 책 홍보
PyCon 12월 세미나 - 실전 파이썬 프로그래밍 책 홍보PyCon 12월 세미나 - 실전 파이썬 프로그래밍 책 홍보
PyCon 12월 세미나 - 실전 파이썬 프로그래밍 책 홍보
 
딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향
 
18 2 파이썬표준라이브러리
18 2 파이썬표준라이브러리18 2 파이썬표준라이브러리
18 2 파이썬표준라이브러리
 
파이썬과 커뮤니티와 한국어 오픈데이터
파이썬과 커뮤니티와 한국어 오픈데이터파이썬과 커뮤니티와 한국어 오픈데이터
파이썬과 커뮤니티와 한국어 오픈데이터
 
NDC 2015 마비노기 듀얼 패치 시스템
NDC 2015 마비노기 듀얼 패치 시스템NDC 2015 마비노기 듀얼 패치 시스템
NDC 2015 마비노기 듀얼 패치 시스템
 
C 언어 스터디 01 - 기초
C 언어 스터디 01 - 기초C 언어 스터디 01 - 기초
C 언어 스터디 01 - 기초
 
[214]베이지안토픽모형 강병엽
[214]베이지안토픽모형 강병엽[214]베이지안토픽모형 강병엽
[214]베이지안토픽모형 강병엽
 
Python 생태계의 이해
Python 생태계의 이해Python 생태계의 이해
Python 생태계의 이해
 
AWSKRUG DS - 데이터 엔지니어가 실무에서 맞닥뜨리는 문제들
AWSKRUG DS - 데이터 엔지니어가 실무에서 맞닥뜨리는 문제들AWSKRUG DS - 데이터 엔지니어가 실무에서 맞닥뜨리는 문제들
AWSKRUG DS - 데이터 엔지니어가 실무에서 맞닥뜨리는 문제들
 
Python machine learning_chap06_1
Python machine learning_chap06_1Python machine learning_chap06_1
Python machine learning_chap06_1
 
Python machine learning Chapter 06 - PART1
Python machine learning Chapter 06 - PART1Python machine learning Chapter 06 - PART1
Python machine learning Chapter 06 - PART1
 
파이썬을 활용한 자연어 분석
파이썬을 활용한 자연어 분석파이썬을 활용한 자연어 분석
파이썬을 활용한 자연어 분석
 
[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템
 

More from r-kor

RUCK 2017 MxNet과 R을 연동한 딥러닝 소개
RUCK 2017 MxNet과 R을 연동한 딥러닝 소개RUCK 2017 MxNet과 R을 연동한 딥러닝 소개
RUCK 2017 MxNet과 R을 연동한 딥러닝 소개r-kor
 
RUCK 2017 R에 날개 달기 - Microsoft R과 클라우드 머신러닝 소개
RUCK 2017 R에 날개 달기 - Microsoft R과 클라우드 머신러닝 소개RUCK 2017 R에 날개 달기 - Microsoft R과 클라우드 머신러닝 소개
RUCK 2017 R에 날개 달기 - Microsoft R과 클라우드 머신러닝 소개r-kor
 
RUCK 2017 샤이니 대시보드를 활용한 interactive chart 구현
RUCK 2017 샤이니 대시보드를 활용한 interactive chart 구현RUCK 2017 샤이니 대시보드를 활용한 interactive chart 구현
RUCK 2017 샤이니 대시보드를 활용한 interactive chart 구현r-kor
 
RUCK 2017 베이즈 모형의 꽃 - 계층 모형
RUCK 2017 베이즈 모형의 꽃 - 계층 모형RUCK 2017 베이즈 모형의 꽃 - 계층 모형
RUCK 2017 베이즈 모형의 꽃 - 계층 모형r-kor
 
RUCK 2017 REx: 엑셀 기반 R 연동 통계분석 소프트웨어
RUCK 2017 REx: 엑셀 기반 R 연동 통계분석 소프트웨어RUCK 2017 REx: 엑셀 기반 R 연동 통계분석 소프트웨어
RUCK 2017 REx: 엑셀 기반 R 연동 통계분석 소프트웨어r-kor
 
RUCK 2017 R로 API 서버를 만드는 4가지 방법(은 삽질기)
RUCK 2017 R로 API 서버를 만드는 4가지 방법(은 삽질기)RUCK 2017 R로 API 서버를 만드는 4가지 방법(은 삽질기)
RUCK 2017 R로 API 서버를 만드는 4가지 방법(은 삽질기)r-kor
 
RUCK 2017 Shiny의 또 다른 활용: RStudio addin 함수 및 패키지의 제작
RUCK 2017 Shiny의 또 다른 활용: RStudio addin 함수 및 패키지의 제작RUCK 2017 Shiny의 또 다른 활용: RStudio addin 함수 및 패키지의 제작
RUCK 2017 Shiny의 또 다른 활용: RStudio addin 함수 및 패키지의 제작r-kor
 
RUCK 2017 R 을 이용한 사회조사 자료의 분석 및 보고서 작성 방법
RUCK 2017 R 을 이용한 사회조사 자료의 분석 및 보고서 작성 방법RUCK 2017 R 을 이용한 사회조사 자료의 분석 및 보고서 작성 방법
RUCK 2017 R 을 이용한 사회조사 자료의 분석 및 보고서 작성 방법r-kor
 
RUCK 2017 빅데이터 분석에서 모형의 역할
RUCK 2017 빅데이터 분석에서 모형의 역할RUCK 2017 빅데이터 분석에서 모형의 역할
RUCK 2017 빅데이터 분석에서 모형의 역할r-kor
 
RUCK 2017 김성환 R 패키지 메타주성분분석(MetaPCA)
RUCK 2017 김성환 R 패키지 메타주성분분석(MetaPCA)RUCK 2017 김성환 R 패키지 메타주성분분석(MetaPCA)
RUCK 2017 김성환 R 패키지 메타주성분분석(MetaPCA)r-kor
 
RUCK 2017 김대영 R 기반 프로덕트의 개발과 배포
RUCK 2017 김대영 R 기반 프로덕트의 개발과 배포RUCK 2017 김대영 R 기반 프로덕트의 개발과 배포
RUCK 2017 김대영 R 기반 프로덕트의 개발과 배포r-kor
 
RUCK 2017 권재명 효율적 데이터 과학과 데이터 조직을 위한 7가지 요인
RUCK 2017 권재명 효율적 데이터 과학과 데이터 조직을 위한 7가지 요인RUCK 2017 권재명 효율적 데이터 과학과 데이터 조직을 위한 7가지 요인
RUCK 2017 권재명 효율적 데이터 과학과 데이터 조직을 위한 7가지 요인r-kor
 
RUCK 2017 - 강병엽 - Spark와 R을 연동한 빅데이터 분석
RUCK 2017 - 강병엽 - Spark와 R을 연동한 빅데이터 분석RUCK 2017 - 강병엽 - Spark와 R을 연동한 빅데이터 분석
RUCK 2017 - 강병엽 - Spark와 R을 연동한 빅데이터 분석r-kor
 
오픈데이터와 오픈소스 소프트웨어를 이용한 의료이용정보의 시각화
오픈데이터와 오픈소스 소프트웨어를 이용한 의료이용정보의 시각화오픈데이터와 오픈소스 소프트웨어를 이용한 의료이용정보의 시각화
오픈데이터와 오픈소스 소프트웨어를 이용한 의료이용정보의 시각화r-kor
 
구조화된 데이터: Schema.org와 Microdata, RDFa, JSON-LD
구조화된 데이터: Schema.org와 Microdata, RDFa, JSON-LD구조화된 데이터: Schema.org와 Microdata, RDFa, JSON-LD
구조화된 데이터: Schema.org와 Microdata, RDFa, JSON-LDr-kor
 
모듈형 패키지를 활용한 나만의 기계학습 모형 만들기 - 회귀나무모형을 중심으로
모듈형 패키지를 활용한 나만의 기계학습 모형 만들기 - 회귀나무모형을 중심으로 모듈형 패키지를 활용한 나만의 기계학습 모형 만들기 - 회귀나무모형을 중심으로
모듈형 패키지를 활용한 나만의 기계학습 모형 만들기 - 회귀나무모형을 중심으로 r-kor
 
지능정보시대를 위한 빅데이터, 이대로 좋은가
지능정보시대를 위한 빅데이터, 이대로 좋은가지능정보시대를 위한 빅데이터, 이대로 좋은가
지능정보시대를 위한 빅데이터, 이대로 좋은가r-kor
 
과학기술 발전과 오픈소스
과학기술 발전과 오픈소스과학기술 발전과 오픈소스
과학기술 발전과 오픈소스r-kor
 
오픈 데이터, 스마트 시티 그리고 인공지능
오픈 데이터, 스마트 시티 그리고 인공지능오픈 데이터, 스마트 시티 그리고 인공지능
오픈 데이터, 스마트 시티 그리고 인공지능r-kor
 
유엔 해비타트 신도시의제 실현을 위한 오픈소스 지오스페셜
유엔 해비타트 신도시의제 실현을 위한 오픈소스 지오스페셜유엔 해비타트 신도시의제 실현을 위한 오픈소스 지오스페셜
유엔 해비타트 신도시의제 실현을 위한 오픈소스 지오스페셜r-kor
 

More from r-kor (20)

RUCK 2017 MxNet과 R을 연동한 딥러닝 소개
RUCK 2017 MxNet과 R을 연동한 딥러닝 소개RUCK 2017 MxNet과 R을 연동한 딥러닝 소개
RUCK 2017 MxNet과 R을 연동한 딥러닝 소개
 
RUCK 2017 R에 날개 달기 - Microsoft R과 클라우드 머신러닝 소개
RUCK 2017 R에 날개 달기 - Microsoft R과 클라우드 머신러닝 소개RUCK 2017 R에 날개 달기 - Microsoft R과 클라우드 머신러닝 소개
RUCK 2017 R에 날개 달기 - Microsoft R과 클라우드 머신러닝 소개
 
RUCK 2017 샤이니 대시보드를 활용한 interactive chart 구현
RUCK 2017 샤이니 대시보드를 활용한 interactive chart 구현RUCK 2017 샤이니 대시보드를 활용한 interactive chart 구현
RUCK 2017 샤이니 대시보드를 활용한 interactive chart 구현
 
RUCK 2017 베이즈 모형의 꽃 - 계층 모형
RUCK 2017 베이즈 모형의 꽃 - 계층 모형RUCK 2017 베이즈 모형의 꽃 - 계층 모형
RUCK 2017 베이즈 모형의 꽃 - 계층 모형
 
RUCK 2017 REx: 엑셀 기반 R 연동 통계분석 소프트웨어
RUCK 2017 REx: 엑셀 기반 R 연동 통계분석 소프트웨어RUCK 2017 REx: 엑셀 기반 R 연동 통계분석 소프트웨어
RUCK 2017 REx: 엑셀 기반 R 연동 통계분석 소프트웨어
 
RUCK 2017 R로 API 서버를 만드는 4가지 방법(은 삽질기)
RUCK 2017 R로 API 서버를 만드는 4가지 방법(은 삽질기)RUCK 2017 R로 API 서버를 만드는 4가지 방법(은 삽질기)
RUCK 2017 R로 API 서버를 만드는 4가지 방법(은 삽질기)
 
RUCK 2017 Shiny의 또 다른 활용: RStudio addin 함수 및 패키지의 제작
RUCK 2017 Shiny의 또 다른 활용: RStudio addin 함수 및 패키지의 제작RUCK 2017 Shiny의 또 다른 활용: RStudio addin 함수 및 패키지의 제작
RUCK 2017 Shiny의 또 다른 활용: RStudio addin 함수 및 패키지의 제작
 
RUCK 2017 R 을 이용한 사회조사 자료의 분석 및 보고서 작성 방법
RUCK 2017 R 을 이용한 사회조사 자료의 분석 및 보고서 작성 방법RUCK 2017 R 을 이용한 사회조사 자료의 분석 및 보고서 작성 방법
RUCK 2017 R 을 이용한 사회조사 자료의 분석 및 보고서 작성 방법
 
RUCK 2017 빅데이터 분석에서 모형의 역할
RUCK 2017 빅데이터 분석에서 모형의 역할RUCK 2017 빅데이터 분석에서 모형의 역할
RUCK 2017 빅데이터 분석에서 모형의 역할
 
RUCK 2017 김성환 R 패키지 메타주성분분석(MetaPCA)
RUCK 2017 김성환 R 패키지 메타주성분분석(MetaPCA)RUCK 2017 김성환 R 패키지 메타주성분분석(MetaPCA)
RUCK 2017 김성환 R 패키지 메타주성분분석(MetaPCA)
 
RUCK 2017 김대영 R 기반 프로덕트의 개발과 배포
RUCK 2017 김대영 R 기반 프로덕트의 개발과 배포RUCK 2017 김대영 R 기반 프로덕트의 개발과 배포
RUCK 2017 김대영 R 기반 프로덕트의 개발과 배포
 
RUCK 2017 권재명 효율적 데이터 과학과 데이터 조직을 위한 7가지 요인
RUCK 2017 권재명 효율적 데이터 과학과 데이터 조직을 위한 7가지 요인RUCK 2017 권재명 효율적 데이터 과학과 데이터 조직을 위한 7가지 요인
RUCK 2017 권재명 효율적 데이터 과학과 데이터 조직을 위한 7가지 요인
 
RUCK 2017 - 강병엽 - Spark와 R을 연동한 빅데이터 분석
RUCK 2017 - 강병엽 - Spark와 R을 연동한 빅데이터 분석RUCK 2017 - 강병엽 - Spark와 R을 연동한 빅데이터 분석
RUCK 2017 - 강병엽 - Spark와 R을 연동한 빅데이터 분석
 
오픈데이터와 오픈소스 소프트웨어를 이용한 의료이용정보의 시각화
오픈데이터와 오픈소스 소프트웨어를 이용한 의료이용정보의 시각화오픈데이터와 오픈소스 소프트웨어를 이용한 의료이용정보의 시각화
오픈데이터와 오픈소스 소프트웨어를 이용한 의료이용정보의 시각화
 
구조화된 데이터: Schema.org와 Microdata, RDFa, JSON-LD
구조화된 데이터: Schema.org와 Microdata, RDFa, JSON-LD구조화된 데이터: Schema.org와 Microdata, RDFa, JSON-LD
구조화된 데이터: Schema.org와 Microdata, RDFa, JSON-LD
 
모듈형 패키지를 활용한 나만의 기계학습 모형 만들기 - 회귀나무모형을 중심으로
모듈형 패키지를 활용한 나만의 기계학습 모형 만들기 - 회귀나무모형을 중심으로 모듈형 패키지를 활용한 나만의 기계학습 모형 만들기 - 회귀나무모형을 중심으로
모듈형 패키지를 활용한 나만의 기계학습 모형 만들기 - 회귀나무모형을 중심으로
 
지능정보시대를 위한 빅데이터, 이대로 좋은가
지능정보시대를 위한 빅데이터, 이대로 좋은가지능정보시대를 위한 빅데이터, 이대로 좋은가
지능정보시대를 위한 빅데이터, 이대로 좋은가
 
과학기술 발전과 오픈소스
과학기술 발전과 오픈소스과학기술 발전과 오픈소스
과학기술 발전과 오픈소스
 
오픈 데이터, 스마트 시티 그리고 인공지능
오픈 데이터, 스마트 시티 그리고 인공지능오픈 데이터, 스마트 시티 그리고 인공지능
오픈 데이터, 스마트 시티 그리고 인공지능
 
유엔 해비타트 신도시의제 실현을 위한 오픈소스 지오스페셜
유엔 해비타트 신도시의제 실현을 위한 오픈소스 지오스페셜유엔 해비타트 신도시의제 실현을 위한 오픈소스 지오스페셜
유엔 해비타트 신도시의제 실현을 위한 오픈소스 지오스페셜
 

한글 언어 자원과 R: KoNLP 개선과 활용

  • 1. KoNLP 개선과 활용 SKT 데이터 분석가/KoNLP 개발자 전희원
  • 2. 이들의 공통점? • 워드 클라우드 예제 • 안철수 교수 대선 출마 선언문 텍스트 요약 • 국정원 의심 계정 트윗 분석 • 단어간의 연관 관계 분석 • 북한 신년사 비교 예제를 통한 텍스트 분석의 이해 • 대하드라마 정도전 분석 사례 • 한국사회의 성별갈등을 데이터로 알아보았다. • 학술 연구(교육, 사회, 정치학 관련 ) • https://scholar.google.co.kr/scholar?q=KoNLP • 책 • 데이터 시각화 (허명회 저) • R로하는 데이터 시각화 (전희원 저) • R까기, R라뷰(서진수 저) • 신입 탐정의 데이터 분석 입문 (이시다 모토히로 저) • 소프트웨어 • KoNLPy • http://konlpy-ko.readthedocs.io/ko/v0.4.3/ • Rtextrankr • https://cran.r-project.org/web/packages/Rtextrankr/index.html
  • 3. KoNLP : Korean NLP Package
  • 4. 한글 처리의 특수성 • 자연어 처리는 대상어에 따라 분석 방식이 상당히 달라진다. • 한국어 • 1개 이상의 형태소가 한 어절을 이루고 있다. • 형태소(morpheme) : 더 이상 분석하면 의미를 잃어버리는 말의 단위 예) 마을(village) -> 마 + 을 (더 이상 의미가 없어진다.) • 형태소 분석의 모호성 • 감기는: (N 감기)+(J 는), (V 감)+(E 기)+(J 는), (V 감기)+(E 는), ... • 형태소 분석의 필요성 • 최소 어절의 정규화 • 감기는, 감기고, 감기어…. -> 감기 로 정규화 • 검색 서비스, 기계번역, 스팸필터 등 텍스트 기반의 모든 서비스에는 반드시 필요한 과정
  • 5.  통계적 품사 태깅  한 문장을 이루는 어절열 w1,n이 주어졌을 때, 가장 확률이 높은 태그열 t1,n을 구 함  일반적인 통계 기반 모델에서 tag의 확률  이전의 history에 대한 조건부 확률로 구함  현실적으로는 전체 history에 대해 조건부확률을 구하는 것이 불가능 ∴ n-gram 모델을 도입하여 국부적인 문맥(local context)을 이용  HMM ),(maxarg )( ),( maxarg )|(maxarg)( ,1,1 ,1 ,1,1 ,1,1,1 ,1,1 ,1 nn tn nn t nn t n wtP wP wtP wtPwT nn n   ),|( 1,1,1 qqq twtP
  • 6. KoNLP KoNLP 구조 한나눔 형태소 분석 라이브러리 for KoNLP 한글 코퍼스 분석 도구 • KoNLP에 최적화 시킨 한나눔 형태소 분석기 • 문장 분리기, 부적합 어절 필터 등 • 대용량 사전 로딩 가능 • Concordance, Mutual Information 등 System 사전 Sejong NIADic Dictionary Interface tools From : 한나눔 형태소 분석기 사용자 매뉴얼
  • 7. KoNLP : Korean NLP Package • R 패키지로는 유일한 한글 텍스트 전처리 도구 • openNLP, RKEA, Snowball 등 영문 전용 텍스트 전처리 도구 위주 • 라이브러리로 제공하는 기존 형태소 분석기와는 다르게 …. • 한글 텍스트 분석에 자주 쓰이는 기능 위주 인터페이스 제공 • 한글 분석에 대해 특별한 배경 지식 없이 간단한 함수로 사용가능 • 형태소 분석 및 POS Tagging 결과를 튜닝할 수 있는 사용자 사전 입력 인터페이스 제공 • 연구 분야별 사전 적용 가능, 연구자들의 활용도 높음 • 현재 시스템사전(28만) , 세종사전(8만), NIADic(93만) 사전을 제공하고 있음.
  • 8. KoNLP v.0.80.0 개선 포인트 기존의 버그 수정/개선 빈번한 사전 데이터 호출로 인한 out of memory 대기큐로 인한 Infinite loop 현상 대용량(100만 이상 형태소) 사전 적용 메모리 사용 효율 고도화 저사양 유저들도 고품질의 사전을 활용할 수 있게 유연한 사전 활용 기반 제공 텍스트 전처리 플러그인 개발 문장 경계 인식 비정상 어절 필터 띄어쓰기 플러그인
  • 9. OutofMemory! • 비효율적인 메모리 관리로 인한 OutofMemory 빈번 • 100만 단어 이상의 사전을 로딩하기 위해서 해결해야 되는 문제 • 개선을 통해 저사양 PC에서도 전체 130만 단어를 모두 로딩 후 분석 가능 Total: 344.3 MB Total: 176.6 MB 갤럭시S5 CPU
  • 10. Slow?!  느림 SimplePos09() -> SimplePos22() -> extractNoun()  빠름 extractNoun() -> extractNoun() -> extractNoun()  동일 함수를 여러 번 구동하는 사용패턴에 최적화
  • 11. More dictionary and Category!  NIADic을 통한 36만 -> 130만 형태소 사전 보강  우리말샘 사전(58만), 인사이터 사전(35만)
  • 13. • 40개 -> 82개 어절 단위 형태소 • 기존 2배 이상의 형태소 후보군 도출
  • 14. Exporting Dictionary • 형태소 사전의 txt 파일 다운로드 인터페이스 제공 • 타 형태소 분석기에 사전 데이터 활용 가능
  • 15. 문장 경계 인식 플러그인
  • 16. 자동 띄어쓰기(개발중) 75만 문장을 기반으로 학습된 띄어쓰기 엔 진 (한국일보 코퍼스, 세종 코퍼스..) 유니그램, 바이그램 HMM
  • 17. Etc  useNIAdic()  Support Scala plugins  SQLite based dictionary management  Solving infinite wait of results with abnormal sentence.  Adding Hangul vignette
  • 18. Schedule ~ 11.20 KoNLP v.0.80.0 CRAN 등록 패키지 용량 이슈, vignette 한글 이슈 등등 ~ 12.05 자동 띄어쓰기 교정 플러그인 구현/적용 사용자 정의 사전 강제 적용 옵션 구현 ~ RNN POS Tagger plugins
  • 19. How to use KoNLP • How to Install • To install from CRAN • Install.package(“KoNLP”) • To install from github • Install.package(“devtools”) • devtools::install_github(“haven-jeon/KoNLP”) • Functions • vignette(“KoNLP-API”)