More Related Content
PDF
PDF
タイル型ウィンドウマネージャawesomeのススメ PDF
マウスを使わないでキーボードで快適に生活する方法(GNU Screen/tmux/byobu/awesome) PDF
PDF
USBからLinuxを起動してみよう! - 第4回つくらぐ勉強会 PDF
PDF
PDF
Mtddc kyusyu-lightningtalks More from fusion2011
PDF
PDF
PDF
PDF
PDF
PDF
PDF
PDF
PDF
7417ff8622ed3f5b9f959a6b8108b77d PDF
PDF
PDF
PDF
PDF
Chaki setup-nlp-seminar090930 PDF
PDF
How2mecab
- 1.
MeCab
on
Gentoo Linux
by fusion
- 2.
インストール
● パッケージ管理システムを使う。
# emerge app-text/mecab
● MeCab 本体と MeCab 用辞書 ipadic が
インストールされる。
- 3.
辞書のカスタマイズ
● 日本語コーパス提供の UniDic
現代語版、近代文語、中古和文の3種類
● 現代語版パッケージをインストール
/usr/local/unidic/dic/ に置かれるので、
近代文語、中古和文の辞書もここに保存する。
- 4.
MeCab 辞書の設定
● 標準的に使う辞書を /etc/mecabrc に設定
近代文語版を標準とする場合
dicdir = /usr/local/unidic/dic/unidic-mlj-mecab
● その他の辞書は、 MeCab 実行時にパラ
メータとして指定
- 5.
出力フォーマットのカスタマイズ
● 各辞書ディレクトリ内の dicrc を変更
output-format-type = unidic の行を追加
eos-format-unidic = 以下を削除
node-format-unidic = 以下を修正
例(全情報をカンマ区切りで出力)
%m,%f[0],%f[1],%f[2],%f[3],%f[4],%f[5],%f[6],%f[7],
%f[8],%f[9],%f[10],%f[11],%f[12],%f[13]n
- 6.
MeCab の使い方
● テキストファイルを解析し、結果を CSV
ファイルとして出力
$ mecab < [input file] > [output file]
● 辞書を切り替える場合
$ mecab -d /path/to/dictionary …
● 分かち書きテキストを作る場合
$ mecab -O wakati ...