MeCab
    on
Gentoo Linux

   by fusion
インストール

●   パッケージ管理システムを使う。
     # emerge app-text/mecab

●   MeCab 本体と MeCab 用辞書 ipadic が
    インストールされる。
辞書のカスタマイズ

●   日本語コーパス提供の UniDic
     現代語版、近代文語、中古和文の3種類

●   現代語版パッケージをインストール
      /usr/local/unidic/dic/ に置かれるので、
      近代文語、中古和文の辞書もここに保存する。
MeCab 辞書の設定

●   標準的に使う辞書を /etc/mecabrc に設定
    近代文語版を標準とする場合
      dicdir = /usr/local/unidic/dic/unidic-mlj-mecab

●   その他の辞書は、 MeCab 実行時にパラ
    メータとして指定
出力フォーマットのカスタマイズ

●   各辞書ディレクトリ内の dicrc を変更
    output-format-type = unidic の行を追加
    eos-format-unidic = 以下を削除
    node-format-unidic = 以下を修正
    例(全情報をカンマ区切りで出力)
      %m,%f[0],%f[1],%f[2],%f[3],%f[4],%f[5],%f[6],%f[7],
      %f[8],%f[9],%f[10],%f[11],%f[12],%f[13]n
MeCab の使い方

●   テキストファイルを解析し、結果を CSV
    ファイルとして出力
      $ mecab < [input file] > [output file]
●   辞書を切り替える場合
      $ mecab -d /path/to/dictionary …
●   分かち書きテキストを作る場合
      $ mecab -O wakati ...

How2mecab

  • 1.
    MeCab on Gentoo Linux by fusion
  • 2.
    インストール ● パッケージ管理システムを使う。 # emerge app-text/mecab ● MeCab 本体と MeCab 用辞書 ipadic が インストールされる。
  • 3.
    辞書のカスタマイズ ● 日本語コーパス提供の UniDic  現代語版、近代文語、中古和文の3種類 ● 現代語版パッケージをインストール   /usr/local/unidic/dic/ に置かれるので、 近代文語、中古和文の辞書もここに保存する。
  • 4.
    MeCab 辞書の設定 ● 標準的に使う辞書を /etc/mecabrc に設定 近代文語版を標準とする場合   dicdir = /usr/local/unidic/dic/unidic-mlj-mecab ● その他の辞書は、 MeCab 実行時にパラ メータとして指定
  • 5.
    出力フォーマットのカスタマイズ ● 各辞書ディレクトリ内の dicrc を変更 output-format-type = unidic の行を追加 eos-format-unidic = 以下を削除 node-format-unidic = 以下を修正 例(全情報をカンマ区切りで出力)   %m,%f[0],%f[1],%f[2],%f[3],%f[4],%f[5],%f[6],%f[7],   %f[8],%f[9],%f[10],%f[11],%f[12],%f[13]n
  • 6.
    MeCab の使い方 ● テキストファイルを解析し、結果を CSV ファイルとして出力   $ mecab < [input file] > [output file] ● 辞書を切り替える場合   $ mecab -d /path/to/dictionary … ● 分かち書きテキストを作る場合   $ mecab -O wakati ...