Pythonで形態素解析器の比較
できるパッケージつくった話する
2016/3/8 @ NLP若手の会
不満買取センター 三澤賢祐
@kensuke3238
お話の内容
• Mecab, Juman, KyteaをPythonで比較できる
パッケージつくったお
• みんなJumanとKyteaを愛でてね
• 不満買取センターの話もするお
パッケージの売りポイント
• 比較できる
• 簡単な形態素分割インターフェース
• 簡単なフィルタリングインターフェース
• pipで一発インストール!
Mecab+neologd辞書で形態素分割
>>> import JapaneseTokenizer
>>> input=u'みんな、言語処理学会を楽しんでるかー!?'
>>> path_mecab_config='/usr/local/bin'
>>> dictType = "neologd"
>>> res = JapaneseTokenizer.MecabWrapper(dictType=dictType,
path_mecab_config=path_mecab_config).tokenize(input)
>>> for token in res: print token
...
みんな
、
言語処理学会
を
楽しむ
でる
カー
わずか5行!
Jumanで形態素分割
>>> import JapaneseTokenizer
>>> input=u'みんな、言語処理学会を楽しんでるかー!?’
>>> res = JapaneseTokenizer.JumanWrapper().tokenize(input)
>>> for token in res: print token
...
みんな
、
言語
処理
学会
を
楽しむ
る
か
!
?
たった4行!
Kyteaで形態素分割
>>> import JapaneseTokenizer
>>> input=u'みんな、言語処理学会を楽しんでるかー!?’
>>> res = JapaneseTokenizer.KyteaWrapper().tokenize(input)
>>> for token in res: print token
...
みんな
、
言語
処理
学会
を
楽し
ん
で
る
かー
!
?
たった4行!
結果をフィルタリングする
>>> pos_condition = [(u'名詞', u'固有名詞'), (u'動詞', u'自立')]
>>> mecab_wrapper = JapaneseTokenizer.MecabWrapper(dictType=dictType,
path_mecab_config=path_mecab_config)
>>> res_obj = mecab_wrapper.tokenize(input, return_list=False)
>>> filtered_obj = mecab_wrapper.filter(
... parsed_sentence=res_obj,
... pos_condition=pos_condition
... )
>>> for token_obj in filtered_obj.tokenized_objects:
... print(u'word_stem:{}, word_surafce:{}, pos:{}'.format(
... token_obj.word_stem,
... token_obj.word_surface,
... ', '.join(token_obj.tuple_pos)))
...
word_stem:言語処理学会, word_surafce:言語処理学会, pos:名詞, 固有名詞, 一般
word_stem:楽しむ, word_surafce:楽しん, pos:動詞, 自立, *
つくった理由
みんな!もっとJumanとKyteaを知ろうぜ!
つくった理由
みんな!もっとJumanとKyteaを知ろうぜ!
Juman人手チューニングって
オワコンだよね
(試したことないけど)
つくった理由
みんな!もっとJumanとKyteaを知ろうぜ!
Juman人手チューニングって
オワコンだよね
(試したことないけど)
点推定が試せるのは
小学生までだよね
(試したことないけど)
つくった理由
みんな!もっとJumanとKyteaを知ろうぜ!
Juman人手チューニングって
オワコンだよね
(試したことないけど)
点推定が試せるのは
小学生までだよね
(試したことないけど)
やっぱMecabだよね
(他は知らんが)
つくった理由
みんな!もっとJumanとKyteaを知ろうぜ!
Jumanの手作業チューニングって
オワコンだよね
(試したことないけど)
点推定が試せるのは
小学生までだよね
(試したことないけど)
やっぱMecabだよね
(他は知らんが)
まず試そう!
Qiitaに記事書きました
_人人人人人人人人人人人人人人人_
> あっという間に20ストック <
 ̄Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y^Y ̄
@mhangyoさんありがとう
不満買取センターのお話
不満買取センターのお話
不満買取センターは
• 意見抽出
• 知識構築
• クラスタリング
とかやってる系企業だよ
不満買取センターのお話
インターン募集中だよ!

形態素解析器の比較できるPythonパッケージつくった話