SlideShare a Scribd company logo
1 of 186
Download to read offline
파이썬을 활용한 자연어 분석
nltk basic tutorial
김용범
무영인터내쇼날
goo.gl/dpzC5A
goo.gl/KLvvUy
1인 5,500
기본개념
CHAPTER 1
言語學
& Python
자연어 분석
자연어 객체들 (Tokens) 의
수학적 연산 방법들 중
논리적/ 유의미한 결과를 도출하는
공식/ 방법(Code)의 모음
오늘의 수업내용
1. Token 개념
2. Token의 정규화(Stemming), 형태소/ 문법 태그(Tagging)
3. StopWord / Tf-idf
4. 나이브베이즈, Word2Vec머신러닝 이론
응용
5. LSTM, Seq2Seq 딥러닝 이론 응용
Documents
1. 평양 남북정상회담 대국민 보고문 (2018.09.18)
2. 분기별 영문 보고서 [Web Site] (2015~2017)
3. 연도별 경영 보고서 [지속가능경영 보고서] (2015~2018)
4. 네이버 영화 긍정/ 부정 리뷰 15만개
5. 영화 대본 [살인의 추억]
6. 일반 대화문 예시 (Chat Bot)
Python
Python 및 Jupyter Notebook 설치
1. Jupyter lab 설치하기 [Git blog]
2. Konlpy 에 필요한 내용 설치하기
3. pip install -r requirement.txt 로 모듈 추가
Python : https://www.python.org
Python의 특징
1. 다양한 기능의 Open Source 를 제공
2. 모듈에서 정하는 포맷을 맞추는 전처리 필요 (python 기본기!!)
3. 기타 연산 및 출력은 자동
Python : https://www.python.org
import nltk
1. pip3 install -U nltk
2. 자연어 처리 기본모듈
3. 영문을 기본으로 제작
Token
-nltk-
>> 01-1.Token.ipynb
Main Net 을 구현
(화폐운영망을
공개/배포)
출처 : https://www.bitdegree.org/tutorials/token-vs-coin/
땅에서 재배하는 농작물...
Document 에서 자라고 있는
가치있는 Token 들을 수확한다..
토큰 (Token)
1. 토큰(token) : 의미를 갖는 문자열 (단어, 절, 문장 등)
2. 토크나이징(tokenizing) : 토큰을 나누는 작업
3. 영문은 공백 만으로도 충분히 토큰을 나눌 수 있다
4. 한글은 합성어, 조사합성 등의 별도 처리를 요한다
Tokenization (영문)
Tokenization (한글)
너에게 하고 싶은 말이 있어.
Tokenization
Token 의 활용 (빈도분석)
Token
- Regex -
Regex
1. 파이썬 기본제공 모듈, 다양한 언어에서도 활용
2. 특정한 규칙을 활용하여 문자열의 집합을 표현하는 언어
3. 코드가 간단한 대신, 가독성이 떨어져서 난이도가 있다
정규식 문법
http://www.nextree.co.kr/p4327/
NLTK 의 정규식 문법 - 숫자 추출
NLTK 의 정규식 문법 - 영문/ 한글 추출
Quiz 1 (1분)
https://regexr.com/3c53v
ch1 Basic Review
- Token 의 개념
- Regex 정규식 활용
Document -> Word/ Phrase Token
Word
CHAPTER 2
이미지 출처 : https://www.cicis.com/media/1235/saladbar_saladmix.png
2th Word Preview
- Stemming (정규화)
- Tagging (문법/Filter)
- WordCloud (시각화)
- StopWord (Token/Filter)
- tf-idf (임배딩)
>> 01-2.Stem_Tag.ipynb
Stemming /
/ Tagging
- 정규화/속성값 -
수확을 한 뒤 출하과정
추수를 했으니 바로 출하를??……
1. 품종을 선별, 일정한 크기 분류
2. 유통관리용 바코드 부착/표시
Stemming - Token의 어근 / 어간 추출
1. 단어들을 동일한 내용 으로 정규화가 목적
2. 영문의 경우 Penn Treebank / WordPunctTokenizer 등
다양한 구분기법을 NLTK에서 기본 제공
Tagging - Token의 속성값 추가
1. Token 별 높은 확률의 Tag (속성값/문법) 를 추가
2. 문장내 문법 기준이 아닌, Token을 기준으로 생성
Treebank Corpus 를 활용한 Stemming
Stemming / Tagging 의 구조적 한계
1. 독립된 개별 Token의 태그 값을 추출
2. 평문, 일반문의 경우 규격화된 결과를 출력
3. 강조문/ 도치문/ 압축문 등 문장 특성별 차이 구분은 어렵다
4. Token / Stemming / Tagging 기준이 별도로 존재
한글
-Konlpy-
>> 02-1.Konlpy.ipynb
pip3 install konlpy
1. 설치공식문서 : http://konlpy.org/ko/v0.5.1/install/
2. Java 7 이상을 먼저 설치해야 한다
3. sudo apt-get install g++ openjdk-7-jdk python-dev
python3-dev
4. pip3 install JPype1-py3 (파이썬 버젼 whl 다운/설치)
5. pip3 install konlpy
Konlpy - https://pypi.org/project/konlpy/#history
konlpy 의 Tagging
1. Token을 추출 -> Stemming 작업 -> Tag 추가
2. 모든 작업이 1개의 함수로 일괄 처리
Konlpy https://ratsgo.github.io/from%20frequency%20to%20semantics/2017/05/10/postag/
Konlpy
1. KKMA : 서울대 이상구 교수 연구실
2. Hannanum : 카이스트 최기선 교수 연구실
3. Twitter : OpenKoreanText 오픈 소스 한국어 처리기
4. Eunjeon : 은전한닢 프로젝트 (윈도우 미지원) [링크]
5. KOMORAN : Junsoo Shin님의 코모란 v3.3.3
6. 빠른 분석이 중요할 때 : 트위터
7. 정확한 품사 정보가 필요할 때 : 꼬꼬마
8. 정확성, 시간 모두 중요할 때 : 코모란
stem = True - 정규화 Corpus 활용여부 (Twitter 모듈)
cf) false는 Tokenize 작업 결과만 갖고서 Tag 출력
꼬꼬마, 한나눔 Stemming
Word Cloud
-Token, Stemming, Tagging-
>> 02-2.WordCloud.ipynb
평양 남북정상회담 대국민 보고
식재료로 생각을 해본다면..
농수산물 도매시장
워드 클라우드 만들기 / Word Cloud
워드 클라우드 출력
명사만 추출
명사만 추출한 뒤, Text 업데이트
추출한 명사를 활용하여 WordCloud 출력
불용어 처리
>> 02-3.Stopwords.ipynb
식재료로 생각을 해본다면
도매시장에서
유의미한 물건만 찾아서 물건을 선별
(사전적인 지식과 경험의 바탕이 필요)
(도매상인의 Know - How 가 필요)
Stop Words
1. 분석목적과 연관성이 낮은 단어들을 제외
2. 작업의 난이도가 낮다
3. 목적에 맞는 불용어 선별을 위한 다양한 기준을
활용할 필요가 있다.
Stop Words
한글의 경우
삼성전자
지속가능경영보고서 [2018 PDF]
- 지속경영보고서 2015, 2016, 2017, 2018 -
>> Project1-Stopword.ipynb
Stop Words 사용자 정의 방법
1. 분야별(주식,리포트,연설문) 각기 다른 내용을 필요로 한다
2. 모집단 성격 및 분석목적에 따라 수집기준이 달라진다
복합명사를 Twitter 바로 적용하는 경우
복합 명사의 경우
사용자 정의 불용어 활용
오타/ 예상치 못한 결과값 처리
(예외처리를 필요로 하는 이유)
Tf-idf
-sklearn-
>> 02-4.Tf-idf_sklearn.ipynb
박리다매 상품을 찾아라 (소매시장)
회전율이 좋아야 물건도 신선하고 마진율도 높다
어떻게 이를 판단하나???
농산품의 회전율
소비량 대비 재고/ 비축량에 의해서 결정
1. 문서의 내용을 쉽게 벡터로 표현하는 고전적 방식
2. Term Frequency : 해당 문서내 Token 발생빈도
3. (문서 Token 출현빈도) / (문서 전체 Token 갯수)
4. Inverse Document Frequency : 문서 빈도의 역
5. log (전체 문서 수 / Token 포함 문서 수)
상대빈도분석 - Term Frequency
Inverse Document Frequency
Term Frequency-Inverse Document Frequency
1. TF는 해당 문서만 있으면 바로 연산이 가능하지만
2. IDF는 모집단의 Token 별 통계 데이터가 필요
Term Frequency
Inverse Document Frequency
출처 : https://www.bloter.net/archives/264262
TF - IDF (sklearn 에 포함된 Tf-idf 도구의 활용)
분야별 / 내용별 tf-idf 기준값
Tf-idf
-사용자함수(한글)-
2016, 2017 분기별 영문 보고서
>> 02-5.Tf-idf_user.ipynb
TF - IDF (사용자함수)
IDF - Docs Token (모집단 Token 추출하기)
TF - Doc Token (대상문서 Token 추출)
Classification
CHAPTER 3
Document
Token
Token
Tokenizing
(Regex)
Stemming/
Tagging WordCloud
StopWord Tf-idf
Naive Bayes
Classification
>> 03-2.Bayse.ipynb
재료를 보고서 음식 구분하는 모델 만들기
한식에 쓰이는 재료인가?
양식에 쓰이는 재료인가?
중식에 쓰이는 재료인가?
1. 구글 스팸메일 Filtering 에 사용되는 이론
2. Token을 활용하여 문장의 성격(속성)을 구분
3. 단어간의 우선순위가 없이 모델을 구성
4. 구조가 간단/ 성능 우수
나이브 베이즈
1. 데이터 출처: 네이버 영화 140자평
2. ratings_train.txt : 15만개
3. ratings_test.txt : 5만개
4. 각각 긍정/부정 리뷰의 비율을 동일하게 샘플링
Naver sentiment movie corpus v1.0
Naver sentiment movie corpus v1.0
나이브 베이즈
Naver 데이터 불러오기
Token에 Tag 추가하기
(탐색) 분석을 위한 Token 추출
(탐색) NLTK 객체 만들기
(탐색) Token 빈도 시각화 - 상위 50개 빈도분석
모델의 정확도/ 일반화를 높이는 작업
1. Train 데이터에 등장한 10,800 고유 Token
2. 빈도상위 4,000 개의 Token 을 선별
3. 긍정/ 부정 문장 Token을 모두 4,000 개로 일치
4. 학습 후 구분에 방해되는 Token은 제거 후 재학습
베이지안 분류모델 학습
학습 완성된 모델 살펴보기
학습모델의 활용 - 0 : 부정리뷰 , 1 : 긍정리뷰
Naive Bayes
Classification
-(실습) 모델의 저장 및 활용-
>> Project03.Bayse.ipynb
학습모델의 저장 / 불러오기
1. selected_words 불러오기
2. classifiers 모델 불러오기
3. 네이버 댓글 목록 불러오기
Pickle [stackoverflow]
딥러닝
(Gensim)
CHAPTER 4
딥러닝의 기초
딥러닝이란 (Deep Learning)
1. Machine Learning을 바탕으로 일반화 Cell을 정의
(CNN, RNN, LSTM, GRU, DQN 등등…)
2. 일반화 Cell 들을 연결하여 다양한 신경망을 구성한다
일반화 모델 (회귀식)
Naive Bayse
딥러닝으로 구현한 Nural Network
Model
딥러닝 모델링의 한계 (블랙박스)
Word 2 Vec
-기본개념-
https://www.researchgate.net/post/Is_Word2Vec_deep_learning
재료간 궁합
ex) 고추장 쓰이는 음식의
재료간 NetWork 분석
Word 2 Vec
1. 고밀도(100~300차원) 단어벡터공간에 단어간 유사도
(코싸인유사도)를 계산하여 유사한 Token 끼리
같은 공간에 묶는다
2. Continuous Bag of Word
3. Skip Gram
Word 2 Vec (예제)
나는 본다
나는 휴대폰을 본다
나는 삼성전자 휴대폰을 본다
나는 삼성전자 노트9 휴대폰을 본다
경제적인 문장 : 이질적 문장성분으로 구성
(주어1, 목적어1, 형용사/부사 1, 동사1)
Word 2 Vec (예제)
나는 삼성전자
노트9
휴대폰을 본다
Word 2 Vec (예제)
나는 삼성전자
노트9
휴대폰을 본다
휴대폰을 본다
G7
너는 LG전자
Word 2 Vec (예제)
나는 삼성전자
노트9
휴대폰을 본다
휴대폰을 본다
G7
너는 LG전자
Positive 관계
Negative 관계
Word 2 Vec
- 100차원 ~ 300차원 의 데이터 -
[ x좌표, y좌표, z좌표]
[ 인덱스1, 인덱스2,
인덱스3, 인덱스4, …..]
Vector
[ x축 3개, y축 3개, z축 3개]
- 3개 vector의 Network -
[ 1번방 3개 Token,
2번방 3개 Token,
3번방 3개 Token ]
- 9개 Token의 Network -
Token Network 의 벡터 연산
1. 벡터의 방향성에 의한 관계망 분석도 가능
2. 하지만 이는 연산결과일 뿐, 구체적 내용분석은 분야의
전문지식을 갖고서 검증이 필요
Negative
Positive
Word 2 Vec (예제)
출처 : https://worksheets-library.com/sheet/coterminal-and-reference-angles-worksheet-pdf-11.html
Word 2 Vec
Word 2 Vec
-Model-
Word 2 Vec
Word 2 Vec
Input
Ouput
Word 2 Vec
CBOW - Continuous Bag-of-Words
1. 문장의 여러 단어들 가운데,
빈 단어를 채운다
2. 단어사이 적합한 내용을
예측하는 Network
출처 : http://hero4earth.com/blog/learning/2018/01/17/NLP_Basics_01/
Skip Gram
1. 주어진 1개 Token의 주변 단어를 예측
2. 예측 주변단어 수에 따라 연산이 다름
(다양한 기법이 가능)
3. CBOW와 비교하여 더 좋은 결과
Word 2 Vec
-Gensim-
- 지속경영보고서 2015, 2016, 2017, 2018 -
>> 04-1.w2v-gensim.ipynb
pip install --upgrade gensim
1. Why is Gensim Word2Vec so much faster than Keras GPU? [link]
2. 데이터와 모델 을 저장하고, 호출하는 방식을 잘 익히자
3. 주요한 기능을 메소드 함수로 제공
https://radimrehurek.com/gensim/install.html
분석 데이터 저장하기
Word2Vec 학습 후 모델 저장

from gensim.models import Word2Vec
Word2Vec( data, size=200, window = 2, min_count=20, hs=1,
workers=4, iter=100, sg=1)
1. size = 200 : 200차원 벡터를 사용 (크면 차원의 저주)
2. window = 2 : 주변 단어(window)는 앞 뒤 두개
3. min_count = 20 : 출현 빈도가 20번 미만인 단어는 제외
4. hs = 1 : Huffman Tree를 이용한 Hierarchical Softmax
5. sg = 1 : CBOW, Skip-Gram 중 Skip-Gram를 사용
https://shuuki4.wordpress.com/2016/01/27/word2vec-관련-이론-정리/
모델의 활용 - 모델 생성후에는 이것만 실행하면 된다
모델의 활용 - 모델 생성후에는 이것만 실행하면 된다
Word 2 Vec - 단어간의 벡터관계 활용
Word 2 Vec
-시각화 sklearn-
TSNE - t-distributed Stochastic Neighbor Embedding
유클리디안 측정방법을 활용하여
데이터 포인트의 유사성을
조건부 확률 변환기법 으로
차원을 축소한다.
단점으로는 생성시 마다
모양이 다름
시각화 - 2차원 데이터로 차원축소
matplotlib - 차원축소 데이터 시각화
Word 2 Vec
-살인의 추억-
>> 04-1.Project3.w2v.ipynb
Word 2 Vec의 활용
1. Word2Vec도 연산의 결과일 뿐이다 (논리적 근거X)
2. 수치적 연산결과에서 논리적 연관성을 찾는과정
3. Word2Vec 모델의 구조를 이해하며 결과물 분석하기
딥러닝
(Tensorflow)
CHAPTER 5
CNN
CNN 기본개념
CNN을 활용한 자연어 분석
1. 전방향 합성곱 신경망
2. 방대한 데이터 중 특징적인 부분을 추출하는 기법
3. Text 분류를 CNN을 사용하여 훈련모델을 생성 [Blog]
자연어 모델
Sequence Data
임베딩 - 원시 데이터(raw data)를 학습 후 축소된 숫자 목록으로 변환
1. Tf-idf : 벡터화에 바탕을 둔 용어빈도/ 역 문서 빈도 를 활용
2. Word2Vec : Mikolov가 고안한 방법으로 "주변 단어를 보면
그 단어를 알 수 있다" (John Firth) 에서 착안
3. One-hot Encoding : 단어를 고유한 숫자 인덱스로 치환
One Hot Encoding
https://minjejeon.github.io/learningstock/2017/06/05/easy-one-hot-encoding.html
RNN
RNN
1. 전방향 신경망 : 회귀모델, 베이지안, CNN
2. 순환 신경망 : Recurrent Neual Network
3. 입력뉴런, 출력뉴런, 연결뉴런이 연결되어 있다
4. 다른 위상 값들은 평균 또는 합으로써 연결한다
RNN CELL
Recurrent Neual Network
Input
Output
Hidden
출처 : https://jasdeep06.github.io/posts/Understanding-LSTM-in-Tensorflow-MNIST/
RNN CELL
Recurrent Neual Network
인풋과 아웃풋 이외에 Hidden 을 활용하는
네트워크로 유연한 구조를 만들 수 있다.
Input
Output
Hidden
RNN Model
LSTM
LSTM Cell
LSTM Cell
http://mysnu.org/m/community/newtechnology.php?search_order=&search_part=&c_cate1=&mode=v&idx=10575&thisPageNum=
활성화 / 게이트 함수들
LSTM RNN CELL
Recurrent Neual Network
https://medium.com/@apiltamang/unmasking-a-vanilla-rnn-what-lies-beneath-912120f7e56c
recurrent connection allows
the network to remember
what it learned
in the previous step.
LSTM 유닛구조
1. 유지게이트 : 앞의 Cell에서 넘어온 정보 중, 오래된 삭제할
정보와 유지할 정보를 Sigmoid 뉴런으로 구분한다
2. 쓰기게이트 : 위에서 구분한 정보중 필요한 정보(tan h)를
판단 후 상태변환/유지 여부를 파악 후 처리를 한다
3. 출력게이트 : 쓰기게이트와 유사한 구조를 갖고서 최종
결과물을 판단, 처리를 한다
LSTM 의 장점
1. Hidden값을 Gate로 통과하면서 Noise를 발생
2. 저장된 Noise로 위상차이(반복횟수)를 구분
3. Gate 통과 전 / 이후의 값의 차이로 다양한 시간차를 인식
4. Sequence(연속적) 데이터 학습에 용이하다
>> 05-1.RNN-LSTM.ipynb
[실습Code] - 어휘 단어예측
1. 전체 4개 알파벳을 학습하면서, 3개의 알파벳을 입력하면,
나머지 알파벳 1개를 예측하는 모델을 정의
2. 알파벳을 기본 요소로 LSTM graph를 활용한다
3. One hot - Encoding 데이터를 활용하는 만큼, 별도의
batch 사용자 함수를 정의해야 한다
LSTM Tensorflow
알파벳 one hot encoding을 정의 후, 학습에 사용할 batch 함수를 정의한다
LSTM Tensorflow
LSTM 파라미터, 모델 매개변수를 정의
LSTM Tensorflow
LSTM Cell 과 모델 및 비용함수, 활성화 함수를 정의
LSTM Tensorflow - graph 를 학습한다
LSTM Tensorflow - 학습한 모델을 평가한다
Seq2Seq
seq 2 seq
S
seq 2 seq
1. 2013년 구글에서 공개한 기계번역 신경망 모델이다
2. LSTM 인코더(A, B, C) 와 LSTM 디코더(W, X, Y,)를 연결
3. RNN의 재귀적 학습의 특성으로 인해, 특수함 심벌 ((1)
입력의 시작을 알림 (2) 디코더 출력이 끝남을 알림)을
필요로 한다
4. 대화형 챗봇, 번역 등 폭넓게 활용
>> 05-2.Seq2Seq.ipynb
[실습Code] - 번역봇
1. 영문과 이에 대응하는 한글을 학습
2. 객체들은 One-Hot Encoding을 활용
3. 한글 과 영문의 갯수는 정교한 학습을 위해 동일하게 한다
4. 글자수가 다른 내용을 학습 할 경우는 Padding 기호를
활용
seq2seq Tensorflow - 학습에 사용할 영문과 한글을 정의한다
seq2seq Tensorflow - encoder 와 decoder 를 정의한다
seq2seq Tensorflow - 모델을 학습한다
seq2seq Tensorflow - 학습 모델로 단어를 예측해본다
ChatBot
FINAL
챗봇의 실행 (질문예시)
넌 누구야? // 이름이 뭐야? // 뭐하니?
독일의 수도는? // 달러 환율이 어떻게 되나요?
좋아하는 가수가 누구예요?
배가 너무 고플땐 어떻게 하나요?
출처 : https://blog.markgrowth.com/how-chat-bots-can-help-you-increase-conversion-6561ba0b8ab0
챗봇의 한계
1. End to End 방식으로 블랙박스모델 학습
2. 연산(생각) 은 숫자만 가능!!
3. 문자를 전처리 및 분석 (오타수정, 구분기호)
4. 성격에 맞는 방식으로 숫자 치환(임배딩) 한다
마치며
출처 https://slideplayer.com/slide/5371792/
Review
1. Token 개념
2. Token의 정규화(Stemming), 형태소/ 문법 태그(Tagging)
3. StopWord / Tf-idf
4. N-gram 을 활용한 PMI 연어(collocation) 분석
5. 나이브베이즈, Word2Vec 머신러닝 이론 응용
6. LSTM, Seq2Seq 딥러닝 이론 응용
자연어 작업과정
1. 음운론(Phonology) : 말소리 연구 ex) 음성인식
2. 형태론(Morphology) : 단어 정규화/ 형태소
3. 통사론(Syntax) : 문법구조(Passing)
4. 의미론(Senmantics) : 의미차이 ex) 뉘앙스, 톤, 의도(긍/부정)
5. 추리론(Reasoning) : 도메인 특성 ex) 전문용어, 세대별 용어
구글 번역기 자막의 수준
구글 어시스턴트
잘 정제된 Sentence 문법
통계로 입력/출력 필터링
http://www.ultravioletanalytics.com/blog/tf-idf-basics-
with-pandas-scikit-learn
1. 모델링은 누구나 가능, 전처리와 결과의 해석이 중요
2. 이미지, 음성 등 다른데이터와 자연어의 차이점
3. 머신러닝은 모델링을 돕는 보조재로써 활용
(알아 듣는말/ 못 알아 듣는 말 구분이 중요!)
Deep Learning 과 자연어
딥러닝과 챗봇
파이썬으로 챗봇 만들기 (SlideShare)
김선동 (Naver Clova AI) GitHub
챗봇 삽질기 (You Tube)
참고사이트
NLTK BOOK
Gensim Tutorial
Konlpy Document
https://github.com/YongBeomKim/nltk_tutorial
https://ratsgo.github.io
https://www.lucypark.kr/courses/2015-dm/text-mining.html#2-tokenize
https://iacryl.com/uploads/Acryl_Company.pdf
Q/A
수고하셨습니다

More Related Content

What's hot

데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)Minwoo Kim
 
Data Engineering 101
Data Engineering 101Data Engineering 101
Data Engineering 101DaeMyung Kang
 
데이터 분석 프로젝트 관리 방법론
데이터 분석 프로젝트 관리 방법론데이터 분석 프로젝트 관리 방법론
데이터 분석 프로젝트 관리 방법론Dennis Lee
 
데이터는 차트가 아니라 돈이 되어야 한다.
데이터는 차트가 아니라 돈이 되어야 한다.데이터는 차트가 아니라 돈이 되어야 한다.
데이터는 차트가 아니라 돈이 되어야 한다.Yongho Ha
 
실무에서 활용하는 A/B테스트
실무에서 활용하는 A/B테스트실무에서 활용하는 A/B테스트
실무에서 활용하는 A/B테스트JeongMin Kwon
 
활성 사용자(Active user) 개념잡기
활성 사용자(Active user) 개념잡기활성 사용자(Active user) 개념잡기
활성 사용자(Active user) 개념잡기와이즈트래커
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링BOAZ Bigdata
 
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?Yongho Ha
 
GA로 게임 로그 분석하기
GA로 게임 로그 분석하기GA로 게임 로그 분석하기
GA로 게임 로그 분석하기Alan Kang
 
데이터 분석가는 어떤 SKILLSET을 가져야 하는가? - 데이터 분석가 되기
데이터 분석가는 어떤 SKILLSET을 가져야 하는가?  - 데이터 분석가 되기데이터 분석가는 어떤 SKILLSET을 가져야 하는가?  - 데이터 분석가 되기
데이터 분석가는 어떤 SKILLSET을 가져야 하는가? - 데이터 분석가 되기Hui Seo
 
'Growth Hacking (그로스 해킹)’ 적용 사례
'Growth Hacking (그로스 해킹)’ 적용 사례'Growth Hacking (그로스 해킹)’ 적용 사례
'Growth Hacking (그로스 해킹)’ 적용 사례RocketPunch Inc.
 
서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석YOO SE KYUN
 
코딩 테스트 및 알고리즘 문제해결 공부 방법 (고려대학교 KUCC, 2022년 4월)
코딩 테스트 및 알고리즘 문제해결 공부 방법 (고려대학교 KUCC, 2022년 4월)코딩 테스트 및 알고리즘 문제해결 공부 방법 (고려대학교 KUCC, 2022년 4월)
코딩 테스트 및 알고리즘 문제해결 공부 방법 (고려대학교 KUCC, 2022년 4월)Suhyun Park
 
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )정혁 권
 
UX 아카데미 오픈프로젝트 [카카오톡 선물하기- UX/UI 개선]
UX 아카데미 오픈프로젝트 [카카오톡 선물하기- UX/UI 개선]UX 아카데미 오픈프로젝트 [카카오톡 선물하기- UX/UI 개선]
UX 아카데미 오픈프로젝트 [카카오톡 선물하기- UX/UI 개선]RightBrain inc.
 
스타트업 데이터분석 - 퍼널분석과 코호트분석
스타트업 데이터분석 - 퍼널분석과 코호트분석스타트업 데이터분석 - 퍼널분석과 코호트분석
스타트업 데이터분석 - 퍼널분석과 코호트분석Seonggwan Lee
 
구매 기록 데이터 기반 솔루션 제공
구매 기록 데이터 기반 솔루션 제공구매 기록 데이터 기반 솔루션 제공
구매 기록 데이터 기반 솔루션 제공정재 전
 
[Causal Inference KR] 스타트업에서의 인과추론
[Causal Inference KR] 스타트업에서의 인과추론[Causal Inference KR] 스타트업에서의 인과추론
[Causal Inference KR] 스타트업에서의 인과추론Bokyung Choi
 
인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝Jinwon Lee
 
Ai 그까이거
Ai 그까이거Ai 그까이거
Ai 그까이거도형 임
 

What's hot (20)

데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)
 
Data Engineering 101
Data Engineering 101Data Engineering 101
Data Engineering 101
 
데이터 분석 프로젝트 관리 방법론
데이터 분석 프로젝트 관리 방법론데이터 분석 프로젝트 관리 방법론
데이터 분석 프로젝트 관리 방법론
 
데이터는 차트가 아니라 돈이 되어야 한다.
데이터는 차트가 아니라 돈이 되어야 한다.데이터는 차트가 아니라 돈이 되어야 한다.
데이터는 차트가 아니라 돈이 되어야 한다.
 
실무에서 활용하는 A/B테스트
실무에서 활용하는 A/B테스트실무에서 활용하는 A/B테스트
실무에서 활용하는 A/B테스트
 
활성 사용자(Active user) 개념잡기
활성 사용자(Active user) 개념잡기활성 사용자(Active user) 개념잡기
활성 사용자(Active user) 개념잡기
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
 
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
 
GA로 게임 로그 분석하기
GA로 게임 로그 분석하기GA로 게임 로그 분석하기
GA로 게임 로그 분석하기
 
데이터 분석가는 어떤 SKILLSET을 가져야 하는가? - 데이터 분석가 되기
데이터 분석가는 어떤 SKILLSET을 가져야 하는가?  - 데이터 분석가 되기데이터 분석가는 어떤 SKILLSET을 가져야 하는가?  - 데이터 분석가 되기
데이터 분석가는 어떤 SKILLSET을 가져야 하는가? - 데이터 분석가 되기
 
'Growth Hacking (그로스 해킹)’ 적용 사례
'Growth Hacking (그로스 해킹)’ 적용 사례'Growth Hacking (그로스 해킹)’ 적용 사례
'Growth Hacking (그로스 해킹)’ 적용 사례
 
서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석서비스 기획자의 데이터 분석
서비스 기획자의 데이터 분석
 
코딩 테스트 및 알고리즘 문제해결 공부 방법 (고려대학교 KUCC, 2022년 4월)
코딩 테스트 및 알고리즘 문제해결 공부 방법 (고려대학교 KUCC, 2022년 4월)코딩 테스트 및 알고리즘 문제해결 공부 방법 (고려대학교 KUCC, 2022년 4월)
코딩 테스트 및 알고리즘 문제해결 공부 방법 (고려대학교 KUCC, 2022년 4월)
 
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
 
UX 아카데미 오픈프로젝트 [카카오톡 선물하기- UX/UI 개선]
UX 아카데미 오픈프로젝트 [카카오톡 선물하기- UX/UI 개선]UX 아카데미 오픈프로젝트 [카카오톡 선물하기- UX/UI 개선]
UX 아카데미 오픈프로젝트 [카카오톡 선물하기- UX/UI 개선]
 
스타트업 데이터분석 - 퍼널분석과 코호트분석
스타트업 데이터분석 - 퍼널분석과 코호트분석스타트업 데이터분석 - 퍼널분석과 코호트분석
스타트업 데이터분석 - 퍼널분석과 코호트분석
 
구매 기록 데이터 기반 솔루션 제공
구매 기록 데이터 기반 솔루션 제공구매 기록 데이터 기반 솔루션 제공
구매 기록 데이터 기반 솔루션 제공
 
[Causal Inference KR] 스타트업에서의 인과추론
[Causal Inference KR] 스타트업에서의 인과추론[Causal Inference KR] 스타트업에서의 인과추론
[Causal Inference KR] 스타트업에서의 인과추론
 
인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝
 
Ai 그까이거
Ai 그까이거Ai 그까이거
Ai 그까이거
 

Similar to 파이썬을 활용한 자연어 분석

Python을 활용한 챗봇 서비스 개발 2일차
Python을 활용한 챗봇 서비스 개발 2일차Python을 활용한 챗봇 서비스 개발 2일차
Python을 활용한 챗봇 서비스 개발 2일차Taekyung Han
 
NLU Tech Talk with KorBERT
NLU Tech Talk with KorBERTNLU Tech Talk with KorBERT
NLU Tech Talk with KorBERTLGCNSairesearch
 
Python을 활용한 챗봇 서비스 개발 1일차
Python을 활용한 챗봇 서비스 개발 1일차Python을 활용한 챗봇 서비스 개발 1일차
Python을 활용한 챗봇 서비스 개발 1일차Taekyung Han
 
[226]대용량 텍스트마이닝 기술 하정우
[226]대용량 텍스트마이닝 기술 하정우[226]대용량 텍스트마이닝 기술 하정우
[226]대용량 텍스트마이닝 기술 하정우NAVER D2
 
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.Adonis Han
 
Word2Vec 개요 및 활용
Word2Vec 개요 및 활용Word2Vec 개요 및 활용
Word2Vec 개요 및 활용찬희 이
 
스프링 스터디 1장
스프링 스터디 1장스프링 스터디 1장
스프링 스터디 1장Seongchan Kang
 
Clova Tech Summit 2: 대화모델 엔진 구조와 Chatbot 개발 최적화 방안
Clova Tech Summit 2: 대화모델 엔진 구조와 Chatbot 개발 최적화 방안Clova Tech Summit 2: 대화모델 엔진 구조와 Chatbot 개발 최적화 방안
Clova Tech Summit 2: 대화모델 엔진 구조와 Chatbot 개발 최적화 방안Clova Platform
 

Similar to 파이썬을 활용한 자연어 분석 (20)

서울 R&D 캠퍼스 자연어 수업자료
서울 R&D 캠퍼스 자연어 수업자료서울 R&D 캠퍼스 자연어 수업자료
서울 R&D 캠퍼스 자연어 수업자료
 
메이크챗봇 자연어기초
메이크챗봇 자연어기초메이크챗봇 자연어기초
메이크챗봇 자연어기초
 
파이썬을 활용한 자연어분석 기초
파이썬을 활용한 자연어분석 기초파이썬을 활용한 자연어분석 기초
파이썬을 활용한 자연어분석 기초
 
Python을 활용한 챗봇 서비스 개발 2일차
Python을 활용한 챗봇 서비스 개발 2일차Python을 활용한 챗봇 서비스 개발 2일차
Python을 활용한 챗봇 서비스 개발 2일차
 
파이썬과 자연어 1 | Word Cloud
파이썬과 자연어 1 | Word Cloud파이썬과 자연어 1 | Word Cloud
파이썬과 자연어 1 | Word Cloud
 
파이썬을 활용한 자연어 분석 - 2차
파이썬을 활용한 자연어 분석 - 2차파이썬을 활용한 자연어 분석 - 2차
파이썬을 활용한 자연어 분석 - 2차
 
파이썬과 자연어 4 | word/doc2vec
파이썬과 자연어 4 | word/doc2vec파이썬과 자연어 4 | word/doc2vec
파이썬과 자연어 4 | word/doc2vec
 
NLU Tech Talk with KorBERT
NLU Tech Talk with KorBERTNLU Tech Talk with KorBERT
NLU Tech Talk with KorBERT
 
Nlp study1
Nlp study1Nlp study1
Nlp study1
 
Python을 활용한 챗봇 서비스 개발 1일차
Python을 활용한 챗봇 서비스 개발 1일차Python을 활용한 챗봇 서비스 개발 1일차
Python을 활용한 챗봇 서비스 개발 1일차
 
[226]대용량 텍스트마이닝 기술 하정우
[226]대용량 텍스트마이닝 기술 하정우[226]대용량 텍스트마이닝 기술 하정우
[226]대용량 텍스트마이닝 기술 하정우
 
파이썬을 활용한 자연어 분석 - 추가분
파이썬을 활용한 자연어 분석 - 추가분파이썬을 활용한 자연어 분석 - 추가분
파이썬을 활용한 자연어 분석 - 추가분
 
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
 
Mt
MtMt
Mt
 
자연어1 | 1차강의
자연어1 | 1차강의자연어1 | 1차강의
자연어1 | 1차강의
 
Word2Vec 개요 및 활용
Word2Vec 개요 및 활용Word2Vec 개요 및 활용
Word2Vec 개요 및 활용
 
자연어4 | 1차강의
자연어4 | 1차강의자연어4 | 1차강의
자연어4 | 1차강의
 
스프링 스터디 1장
스프링 스터디 1장스프링 스터디 1장
스프링 스터디 1장
 
자연어5 | 1차강의
자연어5 | 1차강의자연어5 | 1차강의
자연어5 | 1차강의
 
Clova Tech Summit 2: 대화모델 엔진 구조와 Chatbot 개발 최적화 방안
Clova Tech Summit 2: 대화모델 엔진 구조와 Chatbot 개발 최적화 방안Clova Tech Summit 2: 대화모델 엔진 구조와 Chatbot 개발 최적화 방안
Clova Tech Summit 2: 대화모델 엔진 구조와 Chatbot 개발 최적화 방안
 

More from 김용범 | 무영인터내쇼날 (6)

파이썬과 자연어 5 | 딥러닝
파이썬과 자연어 5 | 딥러닝파이썬과 자연어 5 | 딥러닝
파이썬과 자연어 5 | 딥러닝
 
파이썬과 자연어 3 | 문장구조
파이썬과 자연어 3 | 문장구조파이썬과 자연어 3 | 문장구조
파이썬과 자연어 3 | 문장구조
 
파이썬과 자연어 2 | Sentence
파이썬과 자연어 2 | Sentence 파이썬과 자연어 2 | Sentence
파이썬과 자연어 2 | Sentence
 
자연어3 | 1차강의
자연어3 | 1차강의자연어3 | 1차강의
자연어3 | 1차강의
 
자연어2 | 1차강의
자연어2 | 1차강의자연어2 | 1차강의
자연어2 | 1차강의
 
Django로 구현하는 카카오 챗봇
Django로 구현하는 카카오 챗봇Django로 구현하는 카카오 챗봇
Django로 구현하는 카카오 챗봇
 

파이썬을 활용한 자연어 분석