【論文紹介】Distributed Representations of Sentences and Documents
1. Distributed Representations of
Sentences and Documents
Proceedings of The 31st International Conference on
Machine Learning (ICML 2014), pp. 1188 – 1196, 2014
スライド作成:吉田 朋史
工学院大学大学院 工学研究科 情報学専攻
インタラクティブメディア研究室
Quoc Le, Tomas Mikolov
Google Inc.
1/46
論文紹介
7. n-gram
7/46
𝑛 単語を最小単位 → 1単語ずつずらして文章を分割
例)「This is a good pen」
◦ 𝑛 = 2 :This is / is a / a good / good pen
◦ 𝑛 = 3 :This is a / is a good / a good pen
日本語文章: 𝑛 文字を最小単位として文を分割
例)「今日は大雨です。」
◦ 𝑛 = 2 :今日/日は/は大/大雨/雨で/です/す。/。
◦ 𝑛 = 3 :今日は/日は大/は大雨/大雨で/雨です/です。/す。/ 。
◦ 形態素解析:今日/は/大雨/です/。
◦ 𝑛 = 2 → bigram と呼んだりする