AI/Machine Learning의 한 분야인 Natural Language Processing (NLP)에 대해서 발표를 할 예정입니다. NLP는 한국어로 “자연어 처리”로서 Computer Vision 및 Image Processing에서 “언어적 문맥” 이해와 “그 처리”는 상당히 중요한 역할을 차지합니다. Image/Video를 Language화하여 처리하는 다양한 알고리즘이 존재하며 CVPR/ICCV의 학회에서도 핫한 분야 중 하나입니다. 대표적인 분야는 Image/Video Captioning, Description 및 Visual Q&A 등이 있습니다.
그 중에서도 핵심 Background가 되는 Word2Vec에 대해서 소개하고자 합니다. Word2Vec은 언어처리 뿐만 아니라 Generative Model과도 연관성이 높다는 것이 특징이며. NLP의 모든 분야에서의 핵심 이론으로 보시면 되겠습니다.
AI/Machine Learning의 한 분야인 Natural Language Processing (NLP)에 대해서 발표를 할 예정입니다. NLP는 한국어로 “자연어 처리”로서 Computer Vision 및 Image Processing에서 “언어적 문맥” 이해와 “그 처리”는 상당히 중요한 역할을 차지합니다. Image/Video를 Language화하여 처리하는 다양한 알고리즘이 존재하며 CVPR/ICCV의 학회에서도 핫한 분야 중 하나입니다. 대표적인 분야는 Image/Video Captioning, Description 및 Visual Q&A 등이 있습니다.
그 중에서도 핵심 Background가 되는 Word2Vec에 대해서 소개하고자 합니다. Word2Vec은 언어처리 뿐만 아니라 Generative Model과도 연관성이 높다는 것이 특징이며. NLP의 모든 분야에서의 핵심 이론으로 보시면 되겠습니다.
(Papers Review)CNN for sentence classificationMYEONGGYU LEE
review date: 2017/10/10 (by Meyong-Gyu.LEE @Soongsil Univ.)
Korean review of 'Convolutional Neural Networks for Sentence Classification'(EMNLP2014) and 'A Syllable-based Technique for Word Embeddings of Korean Words'(HCLT 2017)
(Paper Seminar detailed version) BART: Denoising Sequence-to-Sequence Pre-tra...hyunyoung Lee
(Detailed version) Paper seminar in NLP lab on "BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension"(2021.03.04)
(Paper Seminar short version) BART: Denoising Sequence-to-Sequence Pre-traini...hyunyoung Lee
(Short version) Paper seminar in NLP lab on "BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension"(2021.03.04)
Paper seminar of Neural Machine Translation Inspired Binary Code Similarity Comparison beyond Function Pairs in 2019 fall semester in Advanced Information Security class(2019.10.24).
Word embedding method of sms messages for spam message filteringhyunyoung Lee
This is presentation of 2019 the 6th IEEE International Conference on Big data and Smart Computing(ASC(the 3rd International Workshop on Affective and Sentimental Computing) of IEEE BigComp 2019), Feb. 2019. (2019. 02. 27)
Natural language processing open seminar For Tensorflow usagehyunyoung Lee
This is presentation for Natural Language Processing open seminar in Kookmin University.
The open seminar reference : https://cafe.naver.com/nlpk
My presentation about how to use tensorflow for NLP open seminar for newbies for tensorflow.
large-scale and language-oblivious code authorship identificationhyunyoung Lee
Paper seminar of Large-Scale and Language-Oblivious Code Authorship Identification in 2018 2 semester in Advanced Topics in Computer Science class(2018.11.06).
More Related Content
Similar to Spam text message filtering by using sen2 vec and feedforward neural network
(Papers Review)CNN for sentence classificationMYEONGGYU LEE
review date: 2017/10/10 (by Meyong-Gyu.LEE @Soongsil Univ.)
Korean review of 'Convolutional Neural Networks for Sentence Classification'(EMNLP2014) and 'A Syllable-based Technique for Word Embeddings of Korean Words'(HCLT 2017)
(Paper Seminar detailed version) BART: Denoising Sequence-to-Sequence Pre-tra...hyunyoung Lee
(Detailed version) Paper seminar in NLP lab on "BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension"(2021.03.04)
(Paper Seminar short version) BART: Denoising Sequence-to-Sequence Pre-traini...hyunyoung Lee
(Short version) Paper seminar in NLP lab on "BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension"(2021.03.04)
Paper seminar of Neural Machine Translation Inspired Binary Code Similarity Comparison beyond Function Pairs in 2019 fall semester in Advanced Information Security class(2019.10.24).
Word embedding method of sms messages for spam message filteringhyunyoung Lee
This is presentation of 2019 the 6th IEEE International Conference on Big data and Smart Computing(ASC(the 3rd International Workshop on Affective and Sentimental Computing) of IEEE BigComp 2019), Feb. 2019. (2019. 02. 27)
Natural language processing open seminar For Tensorflow usagehyunyoung Lee
This is presentation for Natural Language Processing open seminar in Kookmin University.
The open seminar reference : https://cafe.naver.com/nlpk
My presentation about how to use tensorflow for NLP open seminar for newbies for tensorflow.
large-scale and language-oblivious code authorship identificationhyunyoung Lee
Paper seminar of Large-Scale and Language-Oblivious Code Authorship Identification in 2018 2 semester in Advanced Topics in Computer Science class(2018.11.06).
This is presentation to inform how to use NLTK(Natural Language Processing Toolkit) with NLTK book's simple examples in Information Retrieval and Data mining class as TA(2017.11.28).
This is presentation about what skip-gram and CBOW is in seminar of Natural Language Processing Labs.
- how to make vector of words using skip-gram & CBOW.
This presentation shows you how to use SVM light and SVM multiclass to classify some feature vector, and how you make input file to classify with those tools in Information Retrieval and Data mining class as TA(2017.11.16).
4. 1-1
01 스팸 문자 메시지
1) 스팸 문자 메시지의 지능화
① 한국어는 새로운 단어 및 줄임말 생성, 단어 변화에 있어서 자유롭다.
② 이를 이용한 단어의 패턴은 점차 지능해지고 있고, 사용자가 직접 차단 문구등을 등록해 스팸 문자를 차단 방식은
효율성이 낮다.
- 예를 들어, O1야ㄱl, 사♥랑, 경★ㅁr, ㅇk동, 0ㅑ동
스팸 문자 메시지
4 / 12
5. 1-2
01 단어 임베딩
1) 단어 벡터
① 단어 벡터를 통한 자연어 처리의 저주인 차원 수 및 메모리에 효율성 증가
② Word2Vec을 통한 단어에 의미론적 접근이 가능하여, 동의어 처리 및 단어 유사도 평가에서 우수한 효과
를 보여준다.
- 단어의 의미는 같이 쓰이는 Context에 따라 추론 (distribution hypothesis)
단어 임베딩
5 / 12
7. 2-1
01 스팸 문자 메시지 필터링 과정
스팸 문자 메시지 필터링 과정
7 / 12
자동 띄어
쓰기
Word2Vec Sen2Vec
FFNN
(전방향
신경망)
문장
HAM
SPAM
8. 2-2
01 자동 띄어쓰기
1) 문자메시지 자동 띄어쓰기
① 사용자들이 띄어쓰지 않고 보내는 문자 메시지를 기반으로 Word2Vec를 생성시 무수히 많은 Word를 생성한다. 그
리고 그 Word들은 빈도수가 낮은 경향이 나타난다.
② 띄어 쓰기를 적용하지 않고 Word2Vec을 적용하면 아래와 같다.
- 예를 들어, “#/교/수/항/시/대/기#New”, 그리고 “좋은밤되세요내용없음”를 하나의 토큰으로 처리하게 된다. 이
를 예방하기 위해 띄어쓰기를 적용,
“#/교/수/항/시/대/기#New” -> “#/교/수/항/시/대/기#” ”New”, “좋은밤되세요내용없음” -> “좋은 밤 되세요 내용 없음”
자동 띄어쓰기
8 / 12
9. 2-3 단어 벡터 및 문장 벡터
01 단어 벡터 및 문장 벡터
1) 단어벡터(Word2Vec)
• 본중심 단어의 주변 Context를 기반을 중심 단어 임베딩하여 중심단어 벡터를 구한다. (CBOW)
• 이 외에도 단어 임베딩으로는 GloVe, Skim-gram
2) 문장 벡터(Sen2Vec (Bag-of-word))
• 본문장을 구성하는 단어의 벡터화
• v(“natural language processing”) = v(“natural”) + v(“language”) + v(“processing”)
9 / 12
10. 2-4
01 신경망 구조
전방향 신경망(Feedforward Neural Network)
10 / 12
1) 신경망 구조는 선형적 구조 + 비선형적 구조
• 선형적 구조 : F(x) = Wx + b
• 비선형 구조 : G(x) = Activation(x)
• Activation 후 새로운 벡터로 표현, 즉 그 전의 벡터를 선형적으로 분류가 가능하도록 약간 비튼다. (Topology)
• 예를 들어, sigmoid, Tanh 그리고 ReLU 등이 존재한다.
Activation 후
11. 2-5 전방향 신경망(Feedforward Neural Network)
2) 전방향 신경망 구조(Feedforward Neural Network)
• 전반향 신경망 구조는 선형적 + 비선형적 함수의 조합을 통해서 비선형적 분류를 가능하게한다.
• 최종 Output 과 cost function(Cross-entropy with Softmax)를 가지고 Classification을 수행한다.
• Update method : Gradient Descent and so on
11 / 12
Softmax
13. 3-1 실험 및 결과
02 내용 제목
1) 실험 (SVM light vs 전방향 신경망(FFNN))
• Word2Vec을 통해 생성된 워드벡터 이를 이용한 문장벡터 생성
• 문장 벡터를 기반으로 스팸 문자 메시지 필터링
• SVM light vs 전방향 신경망(FFNN)
• 전방향 신경망 : Hidden Layer 수, Activation function(sigmoid), cost function(cross entropy),
Update method(Gradient Descent)
2) 결과
• 전뱡향 신경망은 Hidden Layer 수를 증가 시킴으로써 스팸 문자 메시지 필터링은 증가 하였다.
• 하지만, Hidden Layer 수의 증가할 수록 정확도 증가 폭은 감소한다.
13 / 12