230112_word2vec1_논문리뷰.pdf

word2vec 1
🔤
word2vec
태그 NLP
URL https://arxiv.org/abs/1301.3781
날짜
사람 정민화
파일과미디어
논문목록
첫번째논문
Efficient Estimation of Word Representations in Vector Space
We propose two novel model architectures for computing continuous vector
representations of words from very large data sets. The quality of these
representations is measured in a word similarity task, and the results are
https://arxiv.org/abs/1301.3781
두번째논문- 다음기회에…8ㅅ8
@2023년1월12일
논문목록
gensim을활용한간단한word2vec구현(반의어)
gensim을활용한간단한word2vec구현2(활용)
첫번째논문
1. Introduction
1.1 goals of paper
❓분포가설이란❓
3. New Log-linear Models
3.1 Continuous Bag-of-Words Model(CBOW)
3.2. Continous Skip-gram Model
4. Results
4.1 task description
4.2. Maximization of Accuracy
4.3 Comparision of Model Architectures
5. Example of the Learned Relationships
6. Conclusion

word2vec 2
Distributed Representations of Words and Phrases and their Compositionality
The recently introduced continuous Skip-gram model is an efficient method for learning
high-quality distributed vector representations that capture a large number of precise
syntactic and semantic word relationships. In this paper we present several extensions
https://arxiv.org/abs/1310.4546
gensim을활용한간단한word2vec구현(반의어)
Google Colaboratory
https://colab.research.google.com/drive/1vUbL74gVVXGIm4A8PTwTWMg
XqsUrYv0x?usp=sharing
gensim을활용한간단한word2vec구현2(활용)
Google Colaboratory
https://colab.research.google.com/drive/10YZU2APAravfqLpz-HFxESJ9Aa
BmcTbv?usp=sharing
첫번째논문
*** CBOW, Skip-gram 설명 ***
1. Introduction
1.1 goals of paper
방대한양의단어로구성된언어데이터셋을고품질의단어벡터로변환하는기술을소개함
유사한단어가가지는여러차원의유사성(multiple degress of similarity)을반영
여러차원의유사성이란, 통사적표현(여기서는품사적인활용을뜻함)이상으로의미적인유사성을포
함하는것을의미함
예)
단어간선형정규성을보존하는새로운모델의개발
w2v은원-핫벡터로표현되던단어(희소표현)을보다저차원의분산표현으로구성되게함
vector( King ) −
′ ′
vector( Man ) +
′ ′
vector( Woman )
′ ′

word2vec 3
❓분포가설이란❓
비슷한문맥에서등장하는단어들은비슷한의미를가진다
주어 부사어 서술어
동호가마시는몬스터는 건강에 나쁘다
요가는 건강에 좋다
영양제는 건강에 이롭다
수면부족은 건강에 해롭다
충분한수면은 건강에 이롭다
편한자세는 건강에 나쁘다
불편한자세는 건강에 좋다
개강은 건강에 해롭다
종강은 건강에 이롭다
‘부사어’는‘건강에’로동일
‘서술어’는긍정을나타내는좋다, 이롭다와부정인나쁘다, 해롭다가공존
네단어사이에는품사적인유사성(형용사)과기능적인유사성(서술어역할)
+의미적인유사성(반의어)이있음(예: King과Queen은‘성별’의차이만있음)
이처럼, 단어의분포를확인하면단어의다차원의유사성(품사, 기능, 의미)을확인할수있음
‘주어’에는다양한단어들이존재함.
수면부족↔ 충분한수면과같이반의어관계가되어의미적유사성이높은단어들도존재하지만, 누
가봐도같지않은단어(몬스터, 편한자세)가유사도가높아지는한계역시존재 → w2v, fasttext,
Glove의한계
따라서, 보다많은맥락을학습하기위해사전학습벡터를활용함
—> 임베딩에서주변의단어들을반영함으로써보다다차원의의미를반영할수있게됨.
3. New Log-linear Models
주변의단어들을입력값으로사용해중간에있는단어를예측하는방법(CBOW)와
중간에있는단어들을입력하여주변단어들을예측하는방법(Skip-Gram)을제안

word2vec 4
예문: [’the’, ‘fat’, ‘cat’, ‘sat’, ‘on’, ‘the’, ‘table’]🐱
3.1 Continuous Bag-of-Words Model(CBOW)
주변단어들을통해중심단어를예측
단순한BOW모델과달리연속적인맥락의분산표현을사용하기때문에Continuous를붙임
1) 데이터셋준비
window(앞뒤로몇개의단어를볼지)의값이2일때주변단어와중심단어의관계(원-핫벡터로표현)
예문: [’the’, ‘fat’, ‘cat’, ‘sat’, ‘on’, ‘the’, ‘table’]🐱

word2vec 5
sliding window: 윈도우값이정해지면원도우를옆으로움직여서주변단어와중심단어의선택을변경해
가며학습을위한데이터셋을구성하는방법
즉, 아래의그림과같이cat, on을통해단어sat예측
2) 입력층-투사층
입력층과projection layer(투사층, 은닉층) 사이에서는가중치행렬 를곱해줌.
가중치행렬 의차원은 이며이는임베딩벡터의차원이됨.
아래그림에서는연산을통해7차원의벡터( )를5차원( )으로축소
사실상원-핫벡터와의연산이기때문에 행렬에서해당단어의인덱스를읽어오는것과같음
W
W V × M
xcat Vcat
W

word2vec 6
이때원-핫벡터( )와가중치행렬 의곱으로생긴결과벡터(
)들은윈도우의개수에따라평균을구함. 아래의그림에선window크기가2이므로4로나누어줌
*** skip gram은하나의원-핫벡터를입력값으로갖기때문에위과정이생략***
3) 투사층-출력층
x ,x ,x ,x
fat cat on the W V ,V ,V ,V
fat cat on the

word2vec 7
각결과벡터를평균한결과값 는이후새로운가중치행렬 와곱해짐
의차원이 이기때문에연산의결과로는초기원-핫벡터와같은차원의벡터( )가출력(여기
서는7차원)
이후, 는softmax함수를지나면서각원소의값이0~1의실수로표현되는스코어벡터( )가되어각단어
일확률을나타냄.
스코어벡터 의오차값을줄이기위해손실함수로cross entropy를사용함.
역전파를통해가중치행렬 값업데이트
주로 행렬의행을각단어의임베딩벡터로사용하거나, 둘다를이용하기도함
3.2. Continous Skip-gram Model
중심단어에서주변단어를예측하는모델
하나의단어가1번업데이트되는CBOW와달리단어가여러번업데이트될수있기때문에일반적으로
결과가더좋다고알려짐(다만연산량이훨씬많음)
1) 데이터셋준비
window(중심단어주변으로몇개의단어를볼지)가2일때데이터셋구성예시
v W′
W′
M × V z
z y
^
y
^
W,W′
W W,W′

word2vec 8
2) 입력층-투사층
CBOW와같이 차원의가중치행렬 와연산함
다만, CBOW와달리입력벡터가하나이기때문에평균하는과정이생략됨
V × N W

word2vec 9
3) 투사층-출력층
가중치행렬 와의연산한결과벡터와새로운가중치행렬 를곱해단어의원-핫벡터와같은차원의
벡터( )를얻음
이때, 중심단어와맥락단어를각각독립으로계산함.
즉, 중심단어‘sat’을넣고주변단어‘fat’을정답으로두어서한번학습하고,
또다시중심단어‘sat’을넣고주변단어‘cat’을정답단어로두어서한번더학습을진행함.
각각의주변단어에대한 에softmax함수를취하여스코어벡터값을얻음
cross entropy loss를통해스코어벡터의오차를줄임.
W W′
z ,z ,z ,z
1 2 3 4
z

word2vec 10
이후역전파를통해 값업데이트
오차값이여러개이기때문에합해주어역전파과정진행
4. Results
이전의모델들은단어벡터의품질을비교하기위해예시단어와이와가장가까운단어들을보여주어직관
적으로이해할수있도록함
이와같이, w2v에서는워드벡터에대한수학적인연산이가능하며유사한벡터값은코사인유사도를계산
하여구할수있음
대용량데이터에대한고차원의워드벡터는미묘한단어간의의미적인관계를말할수있어다양한NLP
task에사용할수있음
4.1 task description
W,W′
vector("biggest") − vector("big") + vector("small") = vector("smallest")

word2vec 11
워드벡터의품질을측정하기위해5개종류의의미론적(semantic) 질문유형과9개종류의통사적
(syntactic) 질문유형을담은테스트셋을구축
(8869개의의미론적질문유형데이터, 10675개의통사론적질문유형데이터)
1) 사람이손으로직접구축
2) 지정할수있는단어가많은경우랜덤하게선택(수도등)
3) 한어절로구성된단어만선택
각질문유형에대한정확도를측정(가장유사도가높은단어추출→ 100%정답률이나오기어려움)
4.2. Maximization of Accuracy
약60억개의토큰으로구성된Google News Corpus를사용하여학습진행
시간적인제약에의해빈도수가높은10만개의단어로훈련데이터제한
테스트셋의경우자주쓰이는3만개의단어로subset을구성하여평가
CBOW를활용하여훈련을진행할때워드벡터의차원과훈련데이터의수가함께증가할수록정확도가
높아짐

word2vec 12
4.3 Comparision of Model Architectures
같은데이터에대해서이전의임베딩방법론에대해비교한결과는아래와같음.
w2v 에서CBOW와Skip-Gram이높은성능을보여줌
아래는벡터의차원과학습하는단어의수, 그리고다양한하이퍼파라미터의조정(epoch)등에대한실험
결과임

word2vec 14
5. Example of the Learned Relationships
단어관계예시
성능을높이는방법
더많은데이터로학습시키기
학습하고자하는관계에대한더많은예시입력하기

word2vec 15
6. Conclusion
간단한구조의모델로고품질의단어벡터를훈련할수있음.
이전의방법론(NNLM, RNNLM)에비해낮은computational cost가들기때문에더많은양의단어를학
습할수있음
w2v으로학습한단어벡터를다양한NLP 태스크에활용할수있음
*** 참고페이지***
설명 링크
자연어처리입문 https://wikidocs.net/69141
skip gram 설명 https://heytech.tistory.com/353
w2v의학습방식 https://ratsgo.github.io/from frequency to semantics/2017/03/30/word2vec/
한국어의어순 https://ratsgo.github.io/korean linguistics/2017/07/14/sov/
w2v 상세 https://velog.io/@xuio/NLP-TIL-Word2VecCBOW-Skip-gram
구조보기좋음! https://www.youtube.com/watch?v=3jfHP0Rq1Gg
수식화 https://analysisbugs.tistory.com/182

230112_word2vec1_논문리뷰.pdf

Recommended

Recommended

More Related Content

Similar to 230112_word2vec1_논문리뷰.pdf

Similar to 230112_word2vec1_논문리뷰.pdf (20)

230112_word2vec1_논문리뷰.pdf