@PyCon Korea 2014
NLTK 덕에 파이썬으로 자연어처리를 하는 것이 편리해졌다. 단, 한국어만 분석하려하지 않는다면. 파이썬으로 한국어를 분석할 수는 없을까? 국문, 영문, 중문 등 다양한 문자가 섞여 있는 문서는 어떻게 분석을 할 수 있을까?
이 발표에서는 자연어처리의 기초적인 개념을 다룬 후, NLTK 등의 자연어처리 라이브러리와 한국어 분석을 위해 개발중인 KoNLPy를 소개한다. 또, 파이썬으로 한국어를 분석할 때 유용한 몇 가지 트릭을 공유한다.
http://konlpy.readthedocs.org
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용Susang Kim
도입
AI Chatbot 소개
Chatbot Ecosystem
Closed vs Open Domain
Rule Based vs AI
Chat IF Flow and Story Slot
AI기반의 학습을 위한 Data 구성 방법
Data를 구하는 법 / Train을 위한 Word Representation
Data의 구성 / Data Augmentation(Intent, NER)
자연어처리 위한 AI 적용 방안
Intent (Char-CNN) / QnA (Seq2Seq)
Named Entity Recognition (Bi-LSTM CRF) / Ontology (Graph DB)
Chatbot Service를 위한 Architecture 구성
Chatbot Architecture
NLP Architecture
Web Service Architecture
Bot builder / Chatbot API
Test Codes for Chatbot
실무에서 발생하는 문제와 해결 Tips
Ensemble and voting / Trigger / Synonym(N-Gram)
Tone Generator / Parallel processing / Response Speed
마무리
[설명 코드]
Text Augmentation / Slot Bot / QA Bot / Graph DB / Response Generator
본 강의에서는 파이썬의 변수와 식별자, 식별자 이름규칙에 대해 알아보겠습니다.
또한 예제 프로그램을 통해 파이썬 변수를 사용하는 방법을 익혀봅니다.
- 강의 키노트 자료는 다음 링크를 통해 다운 받으세요
https://drive.google.com/drive/folders/1UrrO4_ch4xcIErbExstwpUVY6vFvPdkW
- 강의 소스코드는 다음 링크를 통해 다운 받으세요
https://github.com/dongupak/Basic-Python-Programming
본 강의에서는 함수와 매개변수에 대해 다루어 보겠습니다.
- 강의 키노트 자료는 다음 링크를 통해 다운 받으세요
https://drive.google.com/drive/folders/1UrrO4_ch4xcIErbExstwpUVY6vFvPdkW
- 강의 소스코드는 다음 링크를 통해 다운 받으세요
https://github.com/dongupak/Basic-Python-Programming
Zeppelin 노트북, 화재 뉴스 기사 데이터셋:
https://github.com/uosdmlab/playdata-zeppelin-notebook
2016년 10월 14일(금)에 "마루180"서 열린 "데이터야놀자"에서 진행한 세션 "Spark & Zeppelin을 활용한 머신러닝 실전 적용기" 슬라이드입니다. 많은 분들이 빠르고 쉽게 Spark ML을 시작했으면 하는 마음에서 발표를 준비했습니다! 실제로 Spark와 Zeppelin으로 머신러닝을 하며 발생한 문제점과 해결법, 간단한 텍스트 분류 예제와 성능 향상 사례 등의 내용을 담았습니다. 세션에서는 제플린 노트북과 슬라이드를 번갈아가며 진행하였는데, 노트북이 궁금하신 분들은 GitHub에 올려두었으니 직접 실행해보세요^^ (정말 열심히 정리했습니다 ㅠㅠ)
서울시립대학교 데이터마이닝연구실 김태준
*(SlideShare에서도 배달의민족 도현체 쓰고 싶어요)
@PyCon Korea 2014
NLTK 덕에 파이썬으로 자연어처리를 하는 것이 편리해졌다. 단, 한국어만 분석하려하지 않는다면. 파이썬으로 한국어를 분석할 수는 없을까? 국문, 영문, 중문 등 다양한 문자가 섞여 있는 문서는 어떻게 분석을 할 수 있을까?
이 발표에서는 자연어처리의 기초적인 개념을 다룬 후, NLTK 등의 자연어처리 라이브러리와 한국어 분석을 위해 개발중인 KoNLPy를 소개한다. 또, 파이썬으로 한국어를 분석할 때 유용한 몇 가지 트릭을 공유한다.
http://konlpy.readthedocs.org
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용Susang Kim
도입
AI Chatbot 소개
Chatbot Ecosystem
Closed vs Open Domain
Rule Based vs AI
Chat IF Flow and Story Slot
AI기반의 학습을 위한 Data 구성 방법
Data를 구하는 법 / Train을 위한 Word Representation
Data의 구성 / Data Augmentation(Intent, NER)
자연어처리 위한 AI 적용 방안
Intent (Char-CNN) / QnA (Seq2Seq)
Named Entity Recognition (Bi-LSTM CRF) / Ontology (Graph DB)
Chatbot Service를 위한 Architecture 구성
Chatbot Architecture
NLP Architecture
Web Service Architecture
Bot builder / Chatbot API
Test Codes for Chatbot
실무에서 발생하는 문제와 해결 Tips
Ensemble and voting / Trigger / Synonym(N-Gram)
Tone Generator / Parallel processing / Response Speed
마무리
[설명 코드]
Text Augmentation / Slot Bot / QA Bot / Graph DB / Response Generator
본 강의에서는 파이썬의 변수와 식별자, 식별자 이름규칙에 대해 알아보겠습니다.
또한 예제 프로그램을 통해 파이썬 변수를 사용하는 방법을 익혀봅니다.
- 강의 키노트 자료는 다음 링크를 통해 다운 받으세요
https://drive.google.com/drive/folders/1UrrO4_ch4xcIErbExstwpUVY6vFvPdkW
- 강의 소스코드는 다음 링크를 통해 다운 받으세요
https://github.com/dongupak/Basic-Python-Programming
본 강의에서는 함수와 매개변수에 대해 다루어 보겠습니다.
- 강의 키노트 자료는 다음 링크를 통해 다운 받으세요
https://drive.google.com/drive/folders/1UrrO4_ch4xcIErbExstwpUVY6vFvPdkW
- 강의 소스코드는 다음 링크를 통해 다운 받으세요
https://github.com/dongupak/Basic-Python-Programming
Zeppelin 노트북, 화재 뉴스 기사 데이터셋:
https://github.com/uosdmlab/playdata-zeppelin-notebook
2016년 10월 14일(금)에 "마루180"서 열린 "데이터야놀자"에서 진행한 세션 "Spark & Zeppelin을 활용한 머신러닝 실전 적용기" 슬라이드입니다. 많은 분들이 빠르고 쉽게 Spark ML을 시작했으면 하는 마음에서 발표를 준비했습니다! 실제로 Spark와 Zeppelin으로 머신러닝을 하며 발생한 문제점과 해결법, 간단한 텍스트 분류 예제와 성능 향상 사례 등의 내용을 담았습니다. 세션에서는 제플린 노트북과 슬라이드를 번갈아가며 진행하였는데, 노트북이 궁금하신 분들은 GitHub에 올려두었으니 직접 실행해보세요^^ (정말 열심히 정리했습니다 ㅠㅠ)
서울시립대학교 데이터마이닝연구실 김태준
*(SlideShare에서도 배달의민족 도현체 쓰고 싶어요)
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.Adonis Han
*Introduction - Unsupervised Learning (Text-mining or Machine learning?
*Method - Learning Process, Packages
*Explanation Formula
*Case Study of LDA
*Coding with Best LDA Model from Grid search
*Conclusion - insight & Furthur more
*Not edit here
-What is Text-Rank?
-What is Jieba Packages?
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?ssuseraf7587
그룹사의 자기소개서 데이터를 기반으로 진행했던 연구들을 진솔하게 담았습니다. 먼저 자기소개서만으로 서류 전형 합격/불합격을 딥러닝이 구분할 수 있는지에 대해 연구했던 과정을 소개합니다. 더불어 “AI가 자기소개서를 적어줄 수 있을까?” 라는 아이디어를 가지고 Transformer 딥러닝 모델로 자기소개서 문장이 생성되는 Prototype모델을 시연합니다. 끝으로 [Ctrl+C, Ctrl+V] 자기소개서를 딥러닝 모델로 어떻게 찾는지와 오타 데이터를 검정하는 방법을 소개합니다.
[FEConf 2018] Front-End 프로젝트의 Test code 작성경험기Ahreum Kim
2018. 11. 03 'FEConf 2018' 발표자료입니다.
---
처음으로 프론트엔드 프로젝트에 (유닛)테스트코드를 작성해보며 느낀 경험을 공유합니다. 어떤 관점으로 접근 했는지부터, 테스트코드 작성을 하며 만난 고민과 해결책은 어떤 방식으로 풀어 냈는지 코드와 함께 다뤄보려 합니다. 저는 테스트 숙련자가 아니지만, 저와 비슷한 위치에서 테스트에 입문하시려는 분들께 어떻게 테스트에 입문하고 코드를 작성했는지에 대해서 구체적인 경험을 공유하는 것도 의미있을 거라 생각했습니다. 제가 드릴 얘기들이 정답이 아닐 수 있지만, 더 좋은 방향을 고민하면서 같이 생각해볼 수 있다면 좋겠습니다.
텍스트 마이닝 기본 정리(말뭉치, 텍스트 전처리 절차, TF, IDF 기타)limdongjo 임동조
텍스트 마이닝 기본에 대해 알아보기
1-1 텍스트 마이닝은 무엇인지?
1-2 데이터 마이닝 vs 텍스트 마이닝
1-3 텍스트 분석 절차
1-4 텍스트 수집
2-1 형태소 분석
2-2 텍스트 전처리
2-3 품사 태깅
2-4 키워드 추출
2-5 키워드 선정
2-6 불용어, 가용어, 키워드
2-6 키워드 추출 절차
2-7 말뭉치(Corpus)
2-8 단어와 문서 관계 표현(Term-Document)
2-9 TF-IDF에 대해 알아보기
10. 문제 제기해보기
파이썬 책을 분석한 결과
for, if, import, return
토큰 갯수가 많이 등장한 경우,
이들 단어의 실제 중요도는?
11. 문제의 답
case1) 그 Token 은 원래 많이 등장해서
변별력이 없어..
case 2) 그 Token 은 거의 등장하지 않는
단어인데, 여기선 많아 특이하네?
12.
13.
14.
15. 1. Token 의 중요도를 실수로 계산 (값이 클수록 중요)
2. TF는 해당 문서만 있으면 바로 연산이 가능하지만
3. IDF는 모집단의 Token 별 통계 데이터가 필요
상대빈도분석 - Term Frequency
Inverse Document Frequency
출처 : https://www.bloter.net/archives/264262
16.
17. 1. 문서의 내용을 쉽게 벡터로 표현하는 고전적 방식
2. Term Frequency : 해당 문서내 Token 발생빈도
>> (특정 Token 출현 수) / (문서 전체 Token 갯수)
3. Inverse Document Frequency : 전체문서 빈도 역
>> log (전체 문서 Token 수 / 특정 Token 수)
상대빈도분석 - Term Frequency
Inverse Document Frequency
18. tf-idf 벡터
출처 : https://www.youtube.com/watch?v=bPYJi1E9xeM
19. Jupyter Notebook 실습
>> 02-4.Tf-idf_sklearn.ipynb
1. scikit-learn 모듈을 활용
2. konlpy, nltk 와 같이
scikit-learn의 자료를 활용