Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

of

Tokyo.R女子部#2「RMeCabを使おう」 Slide 1 Tokyo.R女子部#2「RMeCabを使おう」 Slide 2 Tokyo.R女子部#2「RMeCabを使おう」 Slide 3 Tokyo.R女子部#2「RMeCabを使おう」 Slide 4 Tokyo.R女子部#2「RMeCabを使おう」 Slide 5 Tokyo.R女子部#2「RMeCabを使おう」 Slide 6 Tokyo.R女子部#2「RMeCabを使おう」 Slide 7 Tokyo.R女子部#2「RMeCabを使おう」 Slide 8 Tokyo.R女子部#2「RMeCabを使おう」 Slide 9 Tokyo.R女子部#2「RMeCabを使おう」 Slide 10 Tokyo.R女子部#2「RMeCabを使おう」 Slide 11 Tokyo.R女子部#2「RMeCabを使おう」 Slide 12 Tokyo.R女子部#2「RMeCabを使おう」 Slide 13 Tokyo.R女子部#2「RMeCabを使おう」 Slide 14 Tokyo.R女子部#2「RMeCabを使おう」 Slide 15 Tokyo.R女子部#2「RMeCabを使おう」 Slide 16 Tokyo.R女子部#2「RMeCabを使おう」 Slide 17 Tokyo.R女子部#2「RMeCabを使おう」 Slide 18
Upcoming SlideShare
Intoroduction of Bad Data Handbook
Next
Download to read offline and view in fullscreen.

2 Likes

Share

Download to read offline

Tokyo.R女子部#2「RMeCabを使おう」

Download to read offline

Tokyo.R女子部#2で使用した資料です。

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all

Tokyo.R女子部#2「RMeCabを使おう」

  1. 1. Tokyo.R 女子部#2 RMecabを使おう @nanaya_sac 2013/10/12
  2. 2. Rのインストール • Windows http://cran.md.tsukuba.ac.jp/bin/windows/base/ • Mac http://cran.md.tsukuba.ac.jp/bin/macosx/ (最新ver.は3.0.2) • インスト後の設定などは http://ofmind.net/doc/r-tips#USER-CONFIG
  3. 3. 個人的やりたいこと • テキストマイニング – そこまで難しいものではなくて、単に出てく る単語のカウントがしたい、程度 • できるようになりたいこと – 文章データの読み込み – 形態素解析(どっちでもいい) – 辞書のカスタマイズ – ターゲット単語のカウント・集計
  4. 4. テキストマイニングとは • 大量のテキストの中から有益な情報を探 し出す手法 • 分析のしにくい自由記述データを客観的 に分析可能 方法:文章を分かち書き(形態素解析)をして、 単語の頻度や単語間の関係(共起性・係り受け) などを分析する 例:すもももももももものうち →すもも も もも も もも の うち
  5. 5. 形態素解析:MeCab • 読み方:めかぶ • 形態素解析をしてくれるソフト 配布先: https://code.google.com/p/mecab/downloads/list Windows: mecab-0.996.exe MacOS: mecab-0.996.tar.gz
  6. 6. RMeCabのインストール • RMeCab:MeCabをRで扱うためのソフト http://sites.google.com/site/rmecab/home/rmecab_0-9991 • Windows:ファイルを「ダウンロード」に保存し、 install.packages (“RMeCab”, repos = "http://rmecab.jp/R") • MacOS: Xcodeを入手してインストール • $ cd Downloads $ tar zxf mecab-0.996.tar.gz • $ cd mecab-0.996 • $ ./configure --with-charset="utf8" • $ make • $ sudo make install
  7. 7. RMeCabの利用 • R上でパッケージを読み込む > library(RMeCab) • この作業はRを起動するたびに行う • MeCabに関するさまざまな関数が使用可能 になる
  8. 8. RMeCabによる分析 • RMeCabC()関数:日本語テキストを与える と、形態素解析した結果を返す > res <- RMeCabC(“すもももももももものう ち”) > res (縦にリストが出力される) > unlist(res) (横にリストが出力される)
  9. 9. RMeCabによる分析 • 形態素原型を出力 > res <- RMeCabC(“ご飯を食べた”, 1) > res 名詞 助詞 動詞 助動詞 ご飯 を 食べる た (活用形を原型で出力)
  10. 10. RMeCabによる分析 • RMeCabText()関数:作業フォルダにある ファイルを解析する ※Rの作業フォルダの設定 「ファイル」→「ディレクトリの変更」→わかり やすいディレクトリを指定 指定した作業フォルダにテキストファイル (ono.txt)を入れる
  11. 11. RMeCabによる分析:やってみよ う • 配布データ:NHKきょうの料理 書き起こ し – ono.txt http://db.tt/lBDzYmNS – 作業フォルダに入れる • データの内容 – 「きょうの料理」の会話内容 目的:調理行動の説明時にどの程度オノマトペ が出現するのかを分析する ※オノマトペ:擬音語・擬態語・擬情語などの 総称
  12. 12. RMeCabText()関数 • RMeCabText()関数 > res <- RMeCabText(“ono.txt”) > res (縦にリストがずらずら出てくる)
  13. 13. これは・・ • とても見にくい、結果がわかりにくい • RMeCabFreq()関数:テキストを形態素解析 した後、その頻度を数えデータフレーム を形成 > res <- RMeCabFreq(“ono.txt”) > res (データフレームが出力される) • ちょっとそれっぽくなった
  14. 14. Mecab辞書の作成(Windows) • オノマトペの特徴 – さまざまな品詞(名詞・形容動詞・副詞)と して出現するので、全体のカウントが難しい – オノマトペ辞書を作成し、別個にカウントす ればよい
  15. 15. オノマトペ辞書の作成 • 「ふっくら」を登録する ふっくら -1,-1,1000,オノマトペ,*,*,*,*,ふっく ら,フックラ, フックラ (表層形・左文脈ID・右文脈ID・コスト・品詞・ 品詞細分類1・品詞細分類2・品詞細分類3・活用 形・原形・読み・発音) 以上の内容をCSVファイルでわかりやすいと ころ(C:data)に保存する hukkura.csv
  16. 16. 辞書の生成 • コマンドプロンプトを使用 – 「スタート」-「プログラム」-「アクセサ リ」-「コマンドプロンプト」 C:Document and Settings(name)>cd “C:Program Files (x86)MeCabbin” C:Program FilesMeCabbin>mecab-dict-index.exe -d “c:Program FilesMeCabdicipadic” -u hukkura.dic –f shift-jis –t shid-jis c:datahukkura.csv
  17. 17. これでうまく行くはずなんです が・・ • 辞書生成時にエラー – 左文脈IDが見つからないとのこと – 原因究明を急ぎます – Time up! Sorry!
  18. 18. 参考図書 テキストマイニング入門 著:石田基広 近刊 「Rで学ぶ日本語テキスト マイニング」 著:石田基広・小林雄一 郎 http://www.hituzi.co.jp/hitu zibooks/ISBN978-4-89476- 654-9.htm 2013年10月刊行予定
  • hugokawamura

    Jan. 27, 2015
  • yukiinoue9210

    Aug. 30, 2014

Tokyo.R女子部#2で使用した資料です。

Views

Total views

3,164

On Slideshare

0

From embeds

0

Number of embeds

1,149

Actions

Downloads

11

Shares

0

Comments

0

Likes

2

×