SlideShare a Scribd company logo
MeCabでオリジナル辞書を
構築してみる
辞書の作り方 〜名詞〜
STEP1
Excelなどで,以下のように作成します.
登録した
い名詞
ID ID 重み 品詞 品詞の
説明
* * * * 登録した
い単語
カタカナ
表示
カタカナ
表記
IDは適当なものでOK
重みは低い値のものから
優先されるので,重要単語は
低く設定する
辞書の作り方 〜動詞〜
STEP1
Excelなどで,以下のように作成します.
• 動詞の辞書は,「原型」と「活用形」を表記する必要あり.
• IDは,MeCabに登録されている「する」「きる」「つく」などの
IDを動詞に合わせて設定する.
• 重みは,名詞と同様で低いものが優先される.
CSVファイルの文字コードをUTF-8に変換する
STEP2
MeCab辞書は,UTF-8の文字コードになっている.
なので,CSVファイルの文字コードをUTF-8に変換する.
COMMAND
$ nkf –w 変換元のCSVファイル名.csv > 変換後のCSVファイル名.csv
Icing on the cake
「-bash: nkf: command not found」が出る場合
HOME BREWなどでnkfコマンドのパッケージをインストールします.
→HOME BREWのインストール:http://brew.sh/index_ja.html
HOME BREWでnkfをインストール
→$ brew install nkf
CSVファイルをMeCab辞書にコンパイルする
STEP3
文字コードがUTF-8のオリジナル辞書用CSVファイルを,
MeCab辞書に変換する.
COMMAND
$ /usr/local/libexec/mecab/mecab-dict-index -d
/usr/local/lib/mecab/dic/ipadic -u original.dic -f utf-8 -t utf-8 オリジ
ナル辞書CSVファイル名.csv
※文字コードは「UTF-8」,改行コードは「¥r(LINUX)」でないと
エラーが出る
「original.dec」ファイルが作成される
オリジナル辞書をMeCabに登録する
STEP4
出来上がったMeCab用オリジナル辞書(original.dic)を,
MeCabに登録する.
作成された,「original.dec」ファイルを,以下のディレクトリに移動
/usr/local/lib/mecab/dic/ipadic/
COMMAND
$ sudo vi /usr/local/lib/mecab/dic/ipadic/dicrc
/usr/local/lib/mecab/dic/ipadic/dicrc
に,以下の一行を追加
userdic = /usr/local/lib/mecab/dic/ipadic/original.dic

More Related Content

What's hot

トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
 
【BERT】自然言語処理を用いたレビュー分析
【BERT】自然言語処理を用いたレビュー分析【BERT】自然言語処理を用いたレビュー分析
【BERT】自然言語処理を用いたレビュー分析
KazuyaYagihashi
 
研究発表のためのプレゼンテーション技術
研究発表のためのプレゼンテーション技術研究発表のためのプレゼンテーション技術
研究発表のためのプレゼンテーション技術
Shinnosuke Takamichi
 
教師なし画像特徴表現学習の動向 {Un, Self} supervised representation learning (CVPR 2018 完全読破...
教師なし画像特徴表現学習の動向 {Un, Self} supervised representation learning (CVPR 2018 完全読破...教師なし画像特徴表現学習の動向 {Un, Self} supervised representation learning (CVPR 2018 完全読破...
教師なし画像特徴表現学習の動向 {Un, Self} supervised representation learning (CVPR 2018 完全読破...
cvpaper. challenge
 
混合整数ブラックボックス最適化に向けたCMA-ESの改良 / Optuna Meetup #2
混合整数ブラックボックス最適化に向けたCMA-ESの改良 / Optuna Meetup #2混合整数ブラックボックス最適化に向けたCMA-ESの改良 / Optuna Meetup #2
混合整数ブラックボックス最適化に向けたCMA-ESの改良 / Optuna Meetup #2
RHamano
 
大学院進学が切り拓く情報系学生のキャリア
大学院進学が切り拓く情報系学生のキャリア大学院進学が切り拓く情報系学生のキャリア
大学院進学が切り拓く情報系学生のキャリア
Takayuki Itoh
 
トピックモデルの基礎と応用
トピックモデルの基礎と応用トピックモデルの基礎と応用
トピックモデルの基礎と応用
Tomonari Masada
 
博士課程の誤解と真実 ー進学に向けて、両親を説得した資料をもとにー
博士課程の誤解と真実 ー進学に向けて、両親を説得した資料をもとにー博士課程の誤解と真実 ー進学に向けて、両親を説得した資料をもとにー
博士課程の誤解と真実 ー進学に向けて、両親を説得した資料をもとにー
Atsuto ONODA
 
教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)
教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)
教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)
STAIR Lab, Chiba Institute of Technology
 
機械学習と機械発見:自然科学研究におけるデータ利活用の再考
機械学習と機械発見:自然科学研究におけるデータ利活用の再考機械学習と機械発見:自然科学研究におけるデータ利活用の再考
機械学習と機械発見:自然科学研究におけるデータ利活用の再考
Ichigaku Takigawa
 
思考停止しないアーキテクチャ設計 ➖ JJUG CCC 2018 Fall
思考停止しないアーキテクチャ設計 ➖ JJUG CCC 2018 Fall思考停止しないアーキテクチャ設計 ➖ JJUG CCC 2018 Fall
思考停止しないアーキテクチャ設計 ➖ JJUG CCC 2018 Fall
Yoshitaka Kawashima
 
暗号文のままで計算しよう - 準同型暗号入門 -
暗号文のままで計算しよう - 準同型暗号入門 -暗号文のままで計算しよう - 準同型暗号入門 -
暗号文のままで計算しよう - 準同型暗号入門 -
MITSUNARI Shigeo
 
ドメイン駆動設計 の 実践 Part3 DDD
ドメイン駆動設計 の 実践 Part3 DDDドメイン駆動設計 の 実践 Part3 DDD
ドメイン駆動設計 の 実践 Part3 DDD
増田 亨
 
Rで項目反応理論、テキストマイニング、Rの研修やってますという三題噺(33rd #TokyoR)
Rで項目反応理論、テキストマイニング、Rの研修やってますという三題噺(33rd #TokyoR)Rで項目反応理論、テキストマイニング、Rの研修やってますという三題噺(33rd #TokyoR)
Rで項目反応理論、テキストマイニング、Rの研修やってますという三題噺(33rd #TokyoR)
Kenta Tanaka
 
静的型付け言語Python
静的型付け言語Python静的型付け言語Python
静的型付け言語Python
kiki utagawa
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
Yoshitaka Ushiku
 
Rファイルの保存と活用1―KH Coderによる対応分析の結果のエクスポートと活用―
Rファイルの保存と活用1―KH Coderによる対応分析の結果のエクスポートと活用―Rファイルの保存と活用1―KH Coderによる対応分析の結果のエクスポートと活用―
Rファイルの保存と活用1―KH Coderによる対応分析の結果のエクスポートと活用―khcoder
 
Rayyan補足資料 検索結果をrayyanへ
Rayyan補足資料 検索結果をrayyanへRayyan補足資料 検索結果をrayyanへ
Rayyan補足資料 検索結果をrayyanへ
SR WS
 
工学系大学4年生のための論文の読み方
工学系大学4年生のための論文の読み方工学系大学4年生のための論文の読み方
工学系大学4年生のための論文の読み方
ychtanaka
 
オブジェクト指向できていますか?
オブジェクト指向できていますか?オブジェクト指向できていますか?
オブジェクト指向できていますか?Moriharu Ohzu
 

What's hot (20)

トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
 
【BERT】自然言語処理を用いたレビュー分析
【BERT】自然言語処理を用いたレビュー分析【BERT】自然言語処理を用いたレビュー分析
【BERT】自然言語処理を用いたレビュー分析
 
研究発表のためのプレゼンテーション技術
研究発表のためのプレゼンテーション技術研究発表のためのプレゼンテーション技術
研究発表のためのプレゼンテーション技術
 
教師なし画像特徴表現学習の動向 {Un, Self} supervised representation learning (CVPR 2018 完全読破...
教師なし画像特徴表現学習の動向 {Un, Self} supervised representation learning (CVPR 2018 完全読破...教師なし画像特徴表現学習の動向 {Un, Self} supervised representation learning (CVPR 2018 完全読破...
教師なし画像特徴表現学習の動向 {Un, Self} supervised representation learning (CVPR 2018 完全読破...
 
混合整数ブラックボックス最適化に向けたCMA-ESの改良 / Optuna Meetup #2
混合整数ブラックボックス最適化に向けたCMA-ESの改良 / Optuna Meetup #2混合整数ブラックボックス最適化に向けたCMA-ESの改良 / Optuna Meetup #2
混合整数ブラックボックス最適化に向けたCMA-ESの改良 / Optuna Meetup #2
 
大学院進学が切り拓く情報系学生のキャリア
大学院進学が切り拓く情報系学生のキャリア大学院進学が切り拓く情報系学生のキャリア
大学院進学が切り拓く情報系学生のキャリア
 
トピックモデルの基礎と応用
トピックモデルの基礎と応用トピックモデルの基礎と応用
トピックモデルの基礎と応用
 
博士課程の誤解と真実 ー進学に向けて、両親を説得した資料をもとにー
博士課程の誤解と真実 ー進学に向けて、両親を説得した資料をもとにー博士課程の誤解と真実 ー進学に向けて、両親を説得した資料をもとにー
博士課程の誤解と真実 ー進学に向けて、両親を説得した資料をもとにー
 
教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)
教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)
教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)
 
機械学習と機械発見:自然科学研究におけるデータ利活用の再考
機械学習と機械発見:自然科学研究におけるデータ利活用の再考機械学習と機械発見:自然科学研究におけるデータ利活用の再考
機械学習と機械発見:自然科学研究におけるデータ利活用の再考
 
思考停止しないアーキテクチャ設計 ➖ JJUG CCC 2018 Fall
思考停止しないアーキテクチャ設計 ➖ JJUG CCC 2018 Fall思考停止しないアーキテクチャ設計 ➖ JJUG CCC 2018 Fall
思考停止しないアーキテクチャ設計 ➖ JJUG CCC 2018 Fall
 
暗号文のままで計算しよう - 準同型暗号入門 -
暗号文のままで計算しよう - 準同型暗号入門 -暗号文のままで計算しよう - 準同型暗号入門 -
暗号文のままで計算しよう - 準同型暗号入門 -
 
ドメイン駆動設計 の 実践 Part3 DDD
ドメイン駆動設計 の 実践 Part3 DDDドメイン駆動設計 の 実践 Part3 DDD
ドメイン駆動設計 の 実践 Part3 DDD
 
Rで項目反応理論、テキストマイニング、Rの研修やってますという三題噺(33rd #TokyoR)
Rで項目反応理論、テキストマイニング、Rの研修やってますという三題噺(33rd #TokyoR)Rで項目反応理論、テキストマイニング、Rの研修やってますという三題噺(33rd #TokyoR)
Rで項目反応理論、テキストマイニング、Rの研修やってますという三題噺(33rd #TokyoR)
 
静的型付け言語Python
静的型付け言語Python静的型付け言語Python
静的型付け言語Python
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 
Rファイルの保存と活用1―KH Coderによる対応分析の結果のエクスポートと活用―
Rファイルの保存と活用1―KH Coderによる対応分析の結果のエクスポートと活用―Rファイルの保存と活用1―KH Coderによる対応分析の結果のエクスポートと活用―
Rファイルの保存と活用1―KH Coderによる対応分析の結果のエクスポートと活用―
 
Rayyan補足資料 検索結果をrayyanへ
Rayyan補足資料 検索結果をrayyanへRayyan補足資料 検索結果をrayyanへ
Rayyan補足資料 検索結果をrayyanへ
 
工学系大学4年生のための論文の読み方
工学系大学4年生のための論文の読み方工学系大学4年生のための論文の読み方
工学系大学4年生のための論文の読み方
 
オブジェクト指向できていますか?
オブジェクト指向できていますか?オブジェクト指向できていますか?
オブジェクト指向できていますか?
 

MeCabでオリジナル辞書を構築してみる