SlideShare a Scribd company logo
1 of 12
Download to read offline
Python Machine Learning
Chapter 06.Text Analysis & Chatbot
ceo@partprime.com
Ryan Jeong
Today …
6-1 KOREAN MORPHOLOGY
6-2 ABOUT Word2Vec
6-1 KOREAN MORPHOLOGY
with KoNLPy
KoNLPy 설치
jdk
설치
KoNLPy
설치
$pip3 install konlpy or
연습 1단계 : 기본 형태소 분석 연습
소스
결과출력
이 예제 소스는 많은 한글 형태소 분석 라이브러리 중에서,
Twitter 라이브러리를 사용하는 가장 기본적인 예제 입니다.
한글 형태소분석 라이브러리 중에서,
속도 성능은 Mecab이 가장 좋다고 알려져 있지만,
Twitter는 개인적으로 normalization 기능이 좋아서,
나중에 학습시킬 때 여러모로 활용할 수 있어서 좋아합니다.
참고자료 출처 : http://konlpy-ko.readthedocs.io/ko/v0.4.3/morph/
연습 2단계 : 형태소 + 단어빈도 분석 연습소스 결과출력
이 예제를 실행하면,
명사만 추출하여, 명사가 출현한 빈도를 세어서, 그 명사와 함께 저장해 둡니다.
그 후,
for 문을 돌면서, 출현빈도가 많은 순으로 상위 50개까지의 단어데이터를,
‘명사(개수)’ 형태로 출력합니다.
6-2 ABOUT Word2Vec
with KoNLPy
Word2Vec 란?
문장 내부의 단어들끼리의 상관관계를 표현하기 위해,
단어를 숫자 벡터로 변환하는 것.
Word2Vec을 위한 Gensim 설치
$pip3 install gensim
or
연습 1단계 : Word2Vec 모델 만들기 연습소스 결과출력
이 예제를 실행하면, 결과 출력은 위와 같이 나옵니다.
calvin.wakati 파일은,
원본텍스트에서 조사/어미/구두점 등을 제거한 후,
새롭게 저장한 text 파일 입니다.
그러나 실제로 calvin.model 이라는 파일이 생성되는데,
이것이 실질적인 이 프로그램의 결과물이지요.
연습 2단계 : 만든 Word2Vec 모델 써먹기 연습
소스 결과출력
이제 저장했던 모델을 불러와서,
‘칼뱅’과 가까운 단어들을 추출해 보았습니다.
출력된 결과는,
읽어들이 텍스트 데이터를 학습한 결과,
대략 유사도가 98점 이상 나오는 단어들이 추출된 것입니다.
Thank youhttp://www.partprime.com

More Related Content

What's hot

CTF WEB Back_END 개발기
CTF WEB Back_END 개발기CTF WEB Back_END 개발기
CTF WEB Back_END 개발기one_two_12
 
REST가 unrest할 때, GraphQL, gRPC는 어때요?
REST가 unrest할 때, GraphQL, gRPC는 어때요?REST가 unrest할 때, GraphQL, gRPC는 어때요?
REST가 unrest할 때, GraphQL, gRPC는 어때요?HYEONGNAM LEE
 

What's hot (17)

자연어2 | 1차강의
자연어2 | 1차강의자연어2 | 1차강의
자연어2 | 1차강의
 
파이썬과 자연어 1 | Word Cloud
파이썬과 자연어 1 | Word Cloud파이썬과 자연어 1 | Word Cloud
파이썬과 자연어 1 | Word Cloud
 
04 2 함수와매개변수
04 2 함수와매개변수04 2 함수와매개변수
04 2 함수와매개변수
 
17 1 람다함수
17 1 람다함수17 1 람다함수
17 1 람다함수
 
서울 R&D 캠퍼스 자연어 수업자료
서울 R&D 캠퍼스 자연어 수업자료서울 R&D 캠퍼스 자연어 수업자료
서울 R&D 캠퍼스 자연어 수업자료
 
파이썬과 자연어 3 | 문장구조
파이썬과 자연어 3 | 문장구조파이썬과 자연어 3 | 문장구조
파이썬과 자연어 3 | 문장구조
 
CTF WEB Back_END 개발기
CTF WEB Back_END 개발기CTF WEB Back_END 개발기
CTF WEB Back_END 개발기
 
자연어3 | 1차강의
자연어3 | 1차강의자연어3 | 1차강의
자연어3 | 1차강의
 
파이썬을 활용한 자연어 분석
파이썬을 활용한 자연어 분석파이썬을 활용한 자연어 분석
파이썬을 활용한 자연어 분석
 
파이썬을 활용한 자연어 분석 - 추가분
파이썬을 활용한 자연어 분석 - 추가분파이썬을 활용한 자연어 분석 - 추가분
파이썬을 활용한 자연어 분석 - 추가분
 
파이썬과 자연어 2 | Sentence
파이썬과 자연어 2 | Sentence 파이썬과 자연어 2 | Sentence
파이썬과 자연어 2 | Sentence
 
자연어5 | 1차강의
자연어5 | 1차강의자연어5 | 1차강의
자연어5 | 1차강의
 
REST가 unrest할 때, GraphQL, gRPC는 어때요?
REST가 unrest할 때, GraphQL, gRPC는 어때요?REST가 unrest할 때, GraphQL, gRPC는 어때요?
REST가 unrest할 때, GraphQL, gRPC는 어때요?
 
파이썬을 활용한 자연어분석 기초
파이썬을 활용한 자연어분석 기초파이썬을 활용한 자연어분석 기초
파이썬을 활용한 자연어분석 기초
 
02_1_변수와친해지기
02_1_변수와친해지기02_1_변수와친해지기
02_1_변수와친해지기
 
파이썬을 활용한 자연어 분석 - 2차
파이썬을 활용한 자연어 분석 - 2차파이썬을 활용한 자연어 분석 - 2차
파이썬을 활용한 자연어 분석 - 2차
 
10 2 튜플
10 2 튜플10 2 튜플
10 2 튜플
 

Similar to Python machine learning_chap06_1

Python study 1강 (오픈소스컨설팅 내부 강의)
Python study 1강 (오픈소스컨설팅 내부 강의)Python study 1강 (오픈소스컨설팅 내부 강의)
Python study 1강 (오픈소스컨설팅 내부 강의)정명훈 Jerry Jeong
 
EveryBody Tensorflow module1 GIST Jan 2018 Korean
EveryBody Tensorflow module1 GIST Jan 2018 KoreanEveryBody Tensorflow module1 GIST Jan 2018 Korean
EveryBody Tensorflow module1 GIST Jan 2018 KoreanJaewook. Kang
 
파이썬 생존 안내서 (자막)
파이썬 생존 안내서 (자막)파이썬 생존 안내서 (자막)
파이썬 생존 안내서 (자막)Heungsub Lee
 
학교에선 알려주지 않는 오픈소스이야기 - 박치완님
학교에선 알려주지 않는 오픈소스이야기 - 박치완님학교에선 알려주지 않는 오픈소스이야기 - 박치완님
학교에선 알려주지 않는 오픈소스이야기 - 박치완님NAVER D2
 
[H3 2012] 오픈소스로 개발 실력 쌓기
[H3 2012] 오픈소스로 개발 실력 쌓기[H3 2012] 오픈소스로 개발 실력 쌓기
[H3 2012] 오픈소스로 개발 실력 쌓기KTH, 케이티하이텔
 
Flask! - python web framework flask 튜토리얼
Flask! - python web framework flask 튜토리얼Flask! - python web framework flask 튜토리얼
Flask! - python web framework flask 튜토리얼mangonamu
 
[Tf2017] day1 jwkang_pub
[Tf2017] day1 jwkang_pub[Tf2017] day1 jwkang_pub
[Tf2017] day1 jwkang_pubJaewook. Kang
 
Python을 활용한 챗봇 서비스 개발 1일차
Python을 활용한 챗봇 서비스 개발 1일차Python을 활용한 챗봇 서비스 개발 1일차
Python을 활용한 챗봇 서비스 개발 1일차Taekyung Han
 
파이콘 2017 그만퇴근합시다_이지호
파이콘 2017 그만퇴근합시다_이지호파이콘 2017 그만퇴근합시다_이지호
파이콘 2017 그만퇴근합시다_이지호Jiho Lee
 
Python Recipes for django girls seoul
Python Recipes for django girls seoulPython Recipes for django girls seoul
Python Recipes for django girls seoulJoeun Park
 
오픈소스 개발참여한 이야기 (NIPA 오픈프론티어 3기 송태웅)
오픈소스 개발참여한 이야기 (NIPA 오픈프론티어 3기 송태웅)오픈소스 개발참여한 이야기 (NIPA 오픈프론티어 3기 송태웅)
오픈소스 개발참여한 이야기 (NIPA 오픈프론티어 3기 송태웅)Taeung Song
 
한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용r-kor
 
병렬 프로그래밍 패러다임
병렬 프로그래밍 패러다임병렬 프로그래밍 패러다임
병렬 프로그래밍 패러다임codenavy
 
파이썬과 커뮤니티와 한국어 오픈데이터
파이썬과 커뮤니티와 한국어 오픈데이터파이썬과 커뮤니티와 한국어 오픈데이터
파이썬과 커뮤니티와 한국어 오픈데이터Eunjeong (Lucy) Park
 
XECon + PHPFest 2014 XE 프로젝트 이야기
XECon + PHPFest 2014 XE 프로젝트 이야기XECon + PHPFest 2014 XE 프로젝트 이야기
XECon + PHPFest 2014 XE 프로젝트 이야기Sol Kim
 
졸업후 취업까지.ssul
졸업후 취업까지.ssul졸업후 취업까지.ssul
졸업후 취업까지.ssul승표 홍
 
『Modern PHP』 - 미리보기
『Modern PHP』 - 미리보기『Modern PHP』 - 미리보기
『Modern PHP』 - 미리보기복연 이
 
Spark Day 2017 Machine Learning & Deep Learning With Spark
Spark Day 2017 Machine Learning & Deep Learning With SparkSpark Day 2017 Machine Learning & Deep Learning With Spark
Spark Day 2017 Machine Learning & Deep Learning With SparkSangHoon Lee
 

Similar to Python machine learning_chap06_1 (20)

Python study 1강 (오픈소스컨설팅 내부 강의)
Python study 1강 (오픈소스컨설팅 내부 강의)Python study 1강 (오픈소스컨설팅 내부 강의)
Python study 1강 (오픈소스컨설팅 내부 강의)
 
EveryBody Tensorflow module1 GIST Jan 2018 Korean
EveryBody Tensorflow module1 GIST Jan 2018 KoreanEveryBody Tensorflow module1 GIST Jan 2018 Korean
EveryBody Tensorflow module1 GIST Jan 2018 Korean
 
파이썬 생존 안내서 (자막)
파이썬 생존 안내서 (자막)파이썬 생존 안내서 (자막)
파이썬 생존 안내서 (자막)
 
학교에선 알려주지 않는 오픈소스이야기 - 박치완님
학교에선 알려주지 않는 오픈소스이야기 - 박치완님학교에선 알려주지 않는 오픈소스이야기 - 박치완님
학교에선 알려주지 않는 오픈소스이야기 - 박치완님
 
[H3 2012] 오픈소스로 개발 실력 쌓기
[H3 2012] 오픈소스로 개발 실력 쌓기[H3 2012] 오픈소스로 개발 실력 쌓기
[H3 2012] 오픈소스로 개발 실력 쌓기
 
Flask! - python web framework flask 튜토리얼
Flask! - python web framework flask 튜토리얼Flask! - python web framework flask 튜토리얼
Flask! - python web framework flask 튜토리얼
 
[Tf2017] day1 jwkang_pub
[Tf2017] day1 jwkang_pub[Tf2017] day1 jwkang_pub
[Tf2017] day1 jwkang_pub
 
Python을 활용한 챗봇 서비스 개발 1일차
Python을 활용한 챗봇 서비스 개발 1일차Python을 활용한 챗봇 서비스 개발 1일차
Python을 활용한 챗봇 서비스 개발 1일차
 
파이콘 2017 그만퇴근합시다_이지호
파이콘 2017 그만퇴근합시다_이지호파이콘 2017 그만퇴근합시다_이지호
파이콘 2017 그만퇴근합시다_이지호
 
Python Recipes for django girls seoul
Python Recipes for django girls seoulPython Recipes for django girls seoul
Python Recipes for django girls seoul
 
오픈소스 개발참여한 이야기 (NIPA 오픈프론티어 3기 송태웅)
오픈소스 개발참여한 이야기 (NIPA 오픈프론티어 3기 송태웅)오픈소스 개발참여한 이야기 (NIPA 오픈프론티어 3기 송태웅)
오픈소스 개발참여한 이야기 (NIPA 오픈프론티어 3기 송태웅)
 
한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용
 
병렬 프로그래밍 패러다임
병렬 프로그래밍 패러다임병렬 프로그래밍 패러다임
병렬 프로그래밍 패러다임
 
파이썬과 커뮤니티와 한국어 오픈데이터
파이썬과 커뮤니티와 한국어 오픈데이터파이썬과 커뮤니티와 한국어 오픈데이터
파이썬과 커뮤니티와 한국어 오픈데이터
 
XECon + PHPFest 2014 XE 프로젝트 이야기
XECon + PHPFest 2014 XE 프로젝트 이야기XECon + PHPFest 2014 XE 프로젝트 이야기
XECon + PHPFest 2014 XE 프로젝트 이야기
 
Java the good parts
Java the good partsJava the good parts
Java the good parts
 
졸업후 취업까지.ssul
졸업후 취업까지.ssul졸업후 취업까지.ssul
졸업후 취업까지.ssul
 
11 1 while반복문
11 1 while반복문11 1 while반복문
11 1 while반복문
 
『Modern PHP』 - 미리보기
『Modern PHP』 - 미리보기『Modern PHP』 - 미리보기
『Modern PHP』 - 미리보기
 
Spark Day 2017 Machine Learning & Deep Learning With Spark
Spark Day 2017 Machine Learning & Deep Learning With SparkSpark Day 2017 Machine Learning & Deep Learning With Spark
Spark Day 2017 Machine Learning & Deep Learning With Spark
 

More from PartPrime

Deep learningwithkeras ch3_1
Deep learningwithkeras ch3_1Deep learningwithkeras ch3_1
Deep learningwithkeras ch3_1PartPrime
 
Python machine learning_chap07_1
Python machine learning_chap07_1Python machine learning_chap07_1
Python machine learning_chap07_1PartPrime
 
Image and deep learning 07-2
 Image and deep learning 07-2 Image and deep learning 07-2
Image and deep learning 07-2PartPrime
 
what is deep learning?
what is deep learning? what is deep learning?
what is deep learning? PartPrime
 
Deep Learning with Python 2-1
Deep Learning with Python 2-1Deep Learning with Python 2-1
Deep Learning with Python 2-1PartPrime
 
Python machine learning_chap05_8
Python machine learning_chap05_8Python machine learning_chap05_8
Python machine learning_chap05_8PartPrime
 
Python machine learning_chap05_7
Python machine learning_chap05_7Python machine learning_chap05_7
Python machine learning_chap05_7PartPrime
 
Ch.5 Deep Learning
Ch.5 Deep LearningCh.5 Deep Learning
Ch.5 Deep LearningPartPrime
 
Python machine learning_chap04_2
Python machine learning_chap04_2 Python machine learning_chap04_2
Python machine learning_chap04_2 PartPrime
 
Python machine learning_chap02
Python machine learning_chap02Python machine learning_chap02
Python machine learning_chap02PartPrime
 
Ch.3 데이터 소스의 서식과 가공
Ch.3 데이터 소스의 서식과 가공Ch.3 데이터 소스의 서식과 가공
Ch.3 데이터 소스의 서식과 가공PartPrime
 
Python machine learning Ch.4
Python machine learning Ch.4Python machine learning Ch.4
Python machine learning Ch.4PartPrime
 

More from PartPrime (12)

Deep learningwithkeras ch3_1
Deep learningwithkeras ch3_1Deep learningwithkeras ch3_1
Deep learningwithkeras ch3_1
 
Python machine learning_chap07_1
Python machine learning_chap07_1Python machine learning_chap07_1
Python machine learning_chap07_1
 
Image and deep learning 07-2
 Image and deep learning 07-2 Image and deep learning 07-2
Image and deep learning 07-2
 
what is deep learning?
what is deep learning? what is deep learning?
what is deep learning?
 
Deep Learning with Python 2-1
Deep Learning with Python 2-1Deep Learning with Python 2-1
Deep Learning with Python 2-1
 
Python machine learning_chap05_8
Python machine learning_chap05_8Python machine learning_chap05_8
Python machine learning_chap05_8
 
Python machine learning_chap05_7
Python machine learning_chap05_7Python machine learning_chap05_7
Python machine learning_chap05_7
 
Ch.5 Deep Learning
Ch.5 Deep LearningCh.5 Deep Learning
Ch.5 Deep Learning
 
Python machine learning_chap04_2
Python machine learning_chap04_2 Python machine learning_chap04_2
Python machine learning_chap04_2
 
Python machine learning_chap02
Python machine learning_chap02Python machine learning_chap02
Python machine learning_chap02
 
Ch.3 데이터 소스의 서식과 가공
Ch.3 데이터 소스의 서식과 가공Ch.3 데이터 소스의 서식과 가공
Ch.3 데이터 소스의 서식과 가공
 
Python machine learning Ch.4
Python machine learning Ch.4Python machine learning Ch.4
Python machine learning Ch.4
 

Python machine learning_chap06_1

  • 1. Python Machine Learning Chapter 06.Text Analysis & Chatbot ceo@partprime.com Ryan Jeong
  • 2. Today … 6-1 KOREAN MORPHOLOGY 6-2 ABOUT Word2Vec
  • 5. 연습 1단계 : 기본 형태소 분석 연습 소스 결과출력 이 예제 소스는 많은 한글 형태소 분석 라이브러리 중에서, Twitter 라이브러리를 사용하는 가장 기본적인 예제 입니다. 한글 형태소분석 라이브러리 중에서, 속도 성능은 Mecab이 가장 좋다고 알려져 있지만, Twitter는 개인적으로 normalization 기능이 좋아서, 나중에 학습시킬 때 여러모로 활용할 수 있어서 좋아합니다. 참고자료 출처 : http://konlpy-ko.readthedocs.io/ko/v0.4.3/morph/
  • 6. 연습 2단계 : 형태소 + 단어빈도 분석 연습소스 결과출력 이 예제를 실행하면, 명사만 추출하여, 명사가 출현한 빈도를 세어서, 그 명사와 함께 저장해 둡니다. 그 후, for 문을 돌면서, 출현빈도가 많은 순으로 상위 50개까지의 단어데이터를, ‘명사(개수)’ 형태로 출력합니다.
  • 8. Word2Vec 란? 문장 내부의 단어들끼리의 상관관계를 표현하기 위해, 단어를 숫자 벡터로 변환하는 것.
  • 9. Word2Vec을 위한 Gensim 설치 $pip3 install gensim or
  • 10. 연습 1단계 : Word2Vec 모델 만들기 연습소스 결과출력 이 예제를 실행하면, 결과 출력은 위와 같이 나옵니다. calvin.wakati 파일은, 원본텍스트에서 조사/어미/구두점 등을 제거한 후, 새롭게 저장한 text 파일 입니다. 그러나 실제로 calvin.model 이라는 파일이 생성되는데, 이것이 실질적인 이 프로그램의 결과물이지요.
  • 11. 연습 2단계 : 만든 Word2Vec 모델 써먹기 연습 소스 결과출력 이제 저장했던 모델을 불러와서, ‘칼뱅’과 가까운 단어들을 추출해 보았습니다. 출력된 결과는, 읽어들이 텍스트 데이터를 학습한 결과, 대략 유사도가 98점 이상 나오는 단어들이 추출된 것입니다.