Appendix
nltk basic tutorial
무영인터내쇼날 | 김용범
Token
Token
Tokenizing
(Regex)
Stemming/
Tagging WordCloud
Document StopWord Tf-idf
불용어 처리
(Stop Word)
Stop Words
1. 분석목적과 연관성이 낮은 단어들을 제외
2. 작업의 난이도가 낮다
3. 목적에 맞는 불용어 선별을 위한 다양한 기준이
활용가능하다
Jupyter Notebook 실습
>> 02-3.Stopwords.ipynb
1. 불용어 처리 실습
2. nltk 모듈의 활용
한글의 경우
Stop Words 사용자 정의 방법
1. 분야별(주식,리포트,연설문) 각기 다른 내용을 필요로 한다
2. 모집단 성격 및 분석목적에 따라 수집기준이 달라진다
3. 가장 쉬운 방법으로는 모집단의 범위를 특정한다
Tf-idf
-실수값 임베딩-
추가로 뒤로넘기기
문제 제기해보기
파이썬 책을 분석한 결과
for, if, import, return
토큰 갯수가 많이 등장한 경우,
이들 단어의 실제 중요도는?
문제의 답
case1) 그 Token 은 원래 많이 등장해서
변별력이 없어..
case 2) 그 Token 은 거의 등장하지 않는
단어인데, 여기선 많아 특이하네?
1. Token 의 중요도를 실수로 계산 (값이 클수록 중요)
2. TF는 해당 문서만 있으면 바로 연산이 가능하지만
3. IDF는 모집단의 Token 별 통계 데이터가 필요
상대빈도분석 - Term Frequency
Inverse Document Frequency
출처 : https://www.bloter.net/archives/264262
1. 문서의 내용을 쉽게 벡터로 표현하는 고전적 방식
2. Term Frequency : 해당 문서내 Token 발생빈도
>> (특정 Token 출현 수) / (문서 전체 Token 갯수)
3. Inverse Document Frequency : 전체문서 빈도 역
>> log (전체 문서 Token 수 / 특정 Token 수)
상대빈도분석 - Term Frequency
Inverse Document Frequency
tf-idf 벡터
출처 : https://www.youtube.com/watch?v=bPYJi1E9xeM
Jupyter Notebook 실습
>> 02-4.Tf-idf_sklearn.ipynb
1. scikit-learn 모듈을 활용
2. konlpy, nltk 와 같이
scikit-learn의 자료를 활용
분야별 / 내용별 tf-idf 기준값
Jupyter Notebook 실습
>> Project2-Tfidf_user.ipynb
1. scikit-learn 에 자료가 없는경우
2. 한글의 Token들을 비교시
3. 문서의 모집단의 범위를 특정

파이썬을 활용한 자연어 분석 - 추가분