Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
ConvolutionalNeural
NetworksforSentence
Classification
Yoon Kim
New York University
EMNLP 2014
발표: 곽근봉
Wordvector와CNN을활용한문장분류
Abstract
이미 트레이닝된 word vector를 활용
Word2vec를 활용하여 단어를 vector화 함
Simple한 CNN 구조 사용
3가지 filter를 가진 단순한...
문장 분류(Sentence Classification)
감정 분류(Sentiment Analysis)
예시)
이번 아이폰의 카메라 성능은 정말 좋은 것 같아 – 긍정
이 레스토랑의 음식은 정말 실망스러웠어 – 부정
주제...
WordRepresentations(Embedding)
어떻게단어를계산할까?
사전을 만들어서 ID를 부여하자
간단하고 적용하기 쉬움
단어들과의 관계를 나타내지 못함 ( 예, 개=ID143, 고양이=ID537)
모든 단어...
Word2Vec
어떻게단어에Vector값을줄까?
문장에서 나오는 단어들의 위치로 학습시키자!
the quick brown fox jumped over the lazy dog
([the, brown], quick), ([...
Word2Vec
어떻게단어에Vector값을줄까?
그랬더니 특정 방향들이 의미를 담고 있었어!
https://tensorflowkorea.gitbooks.io/tensorflow-kr/content/g3doc/tutori...
CNN과WordVector를이용한문장분
류
k
n
h
n : 문장에 나오는 단어의 갯수 k : Word Vector의 차원 h : 필터 윈도우 사
이즈
ModelArchitecture
Page2 Figure1 (Yoon...
Static,Non-static,Multichannel
k
n
h
Back Propagation
static
non-static multichannel
Staticvs.Non-static
Page5 Table3 (Yoon Kim, Convolutional Neural Networks for Sentence Classification, EMNLP 2014)
Non-sta...
CNN과WordVector를이용한문장분
류Results
Page4 Table2 (Yoon Kim, Convolutional Neural Networks for Sentence Classification, EMNLP 20...
한국어문장분류에도
높은성능을보일까?
제28회한글및한국어정보처리학술대회논문집(2016년)
한국어에적합한단어임베딩모델
및파라미터튜닝에관한연구 최상혁, 설진석, 이상구
Word2Vec 를 사용하기 위해 전처리가 필요하다
영어와는 달리 한국어는 조사와 어미가 다...
2015년동계학술발표회논문집
컨볼루션신경망기반
대용량텍스트데이터분류기술
CNN은 훌륭한 정확도를 가지나 Word2Vec는 성능 향상에 도움을 주지
못함
조휘열, 김진화, 윤상웅, 김경민, 장병탁
조휘열, 김진화, 윤상웅...
Q&A
kkb2849@gmail.com
https://github.com/kkb2849
Upcoming SlideShare
Loading in …5
×

Convolutional neural networks for sentence classification

791 views

Published on

Convolutional neural networks for sentence classification 논문을 소개한 슬라이드 입니다.
문장분류, word2vec의 기본 개념과 한국어 적용을 위한 부분들이 포함되어 있습니다.

Published in: Software
  • Be the first to comment

Convolutional neural networks for sentence classification

  1. 1. ConvolutionalNeural NetworksforSentence Classification Yoon Kim New York University EMNLP 2014 발표: 곽근봉
  2. 2. Wordvector와CNN을활용한문장분류 Abstract 이미 트레이닝된 word vector를 활용 Word2vec를 활용하여 단어를 vector화 함 Simple한 CNN 구조 사용 3가지 filter를 가진 단순한 Convolutional Layer 높은 정확도 7개의 벤치마크 중 4곳에서 가장 높은 정확도
  3. 3. 문장 분류(Sentence Classification) 감정 분류(Sentiment Analysis) 예시) 이번 아이폰의 카메라 성능은 정말 좋은 것 같아 – 긍정 이 레스토랑의 음식은 정말 실망스러웠어 – 부정 주제 분류 예시) 유승민의 자신감, 19대 대선 예비후보 등록 – 정치 손흥민 없는 슈틸리케호, 중국전 공격 조합은? – 스포츠
  4. 4. WordRepresentations(Embedding) 어떻게단어를계산할까? 사전을 만들어서 ID를 부여하자 간단하고 적용하기 쉬움 단어들과의 관계를 나타내지 못함 ( 예, 개=ID143, 고양이=ID537) 모든 단어가 다르기 때문에, 학습시키기 위해서는 굉장히 많은 데이터들이 필요 각 단어마다 Vector 값을 부여하자 단어들의 특징을 표현할 수 있도록 수치로 된 값 부여 (예, 개=[2,6,3,1,4])
  5. 5. Word2Vec 어떻게단어에Vector값을줄까? 문장에서 나오는 단어들의 위치로 학습시키자! the quick brown fox jumped over the lazy dog ([the, brown], quick), ([quick, fox], brown), ([brown, jumped], fox)
  6. 6. Word2Vec 어떻게단어에Vector값을줄까? 그랬더니 특정 방향들이 의미를 담고 있었어! https://tensorflowkorea.gitbooks.io/tensorflow-kr/content/g3doc/tutorials/word2vec/
  7. 7. CNN과WordVector를이용한문장분 류 k n h n : 문장에 나오는 단어의 갯수 k : Word Vector의 차원 h : 필터 윈도우 사 이즈 ModelArchitecture Page2 Figure1 (Yoon Kim, Convolutional Neural Networks for Sentence Classification, EMNLP 2014)
  8. 8. Static,Non-static,Multichannel k n h Back Propagation static non-static multichannel
  9. 9. Staticvs.Non-static Page5 Table3 (Yoon Kim, Convolutional Neural Networks for Sentence Classification, EMNLP 2014) Non-static으로 학습시키니 word vector가 의미를 더 잘 이해하게 되었 군!
  10. 10. CNN과WordVector를이용한문장분 류Results Page4 Table2 (Yoon Kim, Convolutional Neural Networks for Sentence Classification, EMNLP 2014)
  11. 11. 한국어문장분류에도 높은성능을보일까?
  12. 12. 제28회한글및한국어정보처리학술대회논문집(2016년) 한국어에적합한단어임베딩모델 및파라미터튜닝에관한연구 최상혁, 설진석, 이상구 Word2Vec 를 사용하기 위해 전처리가 필요하다 영어와는 달리 한국어는 조사와 어미가 다양해서 어근을 추출할 필요가 있다 전처리를 위해 오픈 소스인 꼬꼬마 형태소 분석기, 트위터 형태소 분석기를 사용함 나무 위키, 위키피디아 등을 활용하자 기존의 말뭉치보다 크기가 크고 현대적인 단어 용법을 사용한다 최상혁, 설진석, 이상구, 한국어에 적합한 단어 임베딩 모델 및 파라미터 튜닝에 관한 연구, 제28회 한글 및 한국어 정보처리 학술대회 논문집(2016년)
  13. 13. 2015년동계학술발표회논문집 컨볼루션신경망기반 대용량텍스트데이터분류기술 CNN은 훌륭한 정확도를 가지나 Word2Vec는 성능 향상에 도움을 주지 못함 조휘열, 김진화, 윤상웅, 김경민, 장병탁 조휘열, 김진화, 윤상웅, 김경민, 장병탁 , 컨볼루션 신경망 기반 대용량 텍스트 데이터 분류 기술, 2015년 동계학술발표회 논문집
  14. 14. Q&A kkb2849@gmail.com https://github.com/kkb2849

×