5. Language modeling
• Corpus 안에서 특정 word
sequence가 얼마나 나오는지
• 문서상에서 word의 latent
representation을
학습함(word co-occurrence):
– word2vec:
• 단어의 semantic한 의미를
나타낼 수 있다
5
6. From language modeling to graphs
• 자연어 corpus에서 단어의
빈도가 power law를 따른다
• scale-free graph의 Random
walk에서 vertex frequency
역시 power law를 따른다
6
7. From language modeling to graphs
• 각각의 random walk는 한
문장을 나타낸다
• Short random walks =
sentences
7
21. Conclusions
• Network로 표현되는 데이터를 continuous
vector space 상에서 표현하여 학습이
가능하다.
• Word sequence들을 graph로 표현하여
language model에 사용 가능하다.
• label이 부족한 경우에도 잘 작동하다.
• 큰 graph에도 Scalable하기 때문에 online
learning에 사용 가능하다
21