FastText 触ってみた
2017/07/06 珍田
FastText とは
より早いWord2Vec
facebook 製
Word2Vec ???
Word2Vec とは
単語のベクトル表現
類似の概念
Word2Vec の画期的なところ
言語のvector 表現は以前からあった.
Word2Vec の画期的なところ
足し算引き算(ベクトルの演算)ができる!!!
Word2Vec の演算
king − man + woman = queen
paris − france + japan = tokyo
で,FastText
Word2vec の作者謹製の,次世代Word2Vec
高速!!!
事前準備
https://github.com/facebookresearch/fastText
python3, numpy, scipy, cython が使えること
=>  brie/docker‐numpy‐scipy とか使うのが楽
利用するテキスト(日本語だったら分かち書きしてあること)
※ 分かち書きされた文書の準備
mecab ‐Owakati hoge.txt > hoge.wakati.txt
使い方
$ (pip install cython)
$ (pip install fasttext)
$ pip install gensim
import gensim
from gensim.models import word2vec
sentences = word2vec.Text8Corpus('hogefuga.wakati.txt')
model = word2vec.Word2Vec(sentences, size=200, window=5, workers=
model.most_similar(positive=['ほげー', 'ふがー'], negative=['ばず'
デモ