Introduction of RMeCab

2,446 views
2,367 views

Published on

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,446
On SlideShare
0
From Embeds
0
Number of Embeds
536
Actions
Shares
0
Downloads
13
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Introduction of RMeCab

  1. 1. 第2回Japan.RRMeCabで、テキスト解析を 行う @gepuro
  2. 2. 自己紹介 早川 敦士 電気通信大学システム工学科三年
  3. 3. ● 学祭でジャンク 市をやったり、● 合宿で花火を打 ち上げたりして ます。
  4. 4. ● 富士山に登ったり、● 部誌を書いたり、● 2011年度 S-PLUS学 生研究奨励賞で特別 賞を頂いたり、● DBCLSでバイトしたり、 してます。
  5. 5. テキストマイニングデータマイニング 興味 統計学 品質管理
  6. 6. ブログhttp://d.hatena.ne.jp/gepuro/ 自己紹介 Twitter @gepuro
  7. 7. RMeCabって?テキストマイニングの為の ツールで RからMeCabを 呼び出して使用する インターフェースです。
  8. 8. インストールhttp://rmecab.jp/wiki/index.php?RMeCabからRMeCab_0.98_R_x86_64-unknown-linux-gnu.tar.gzをダウンロードして、>install.packages(“RMeCab_0.98_R_x86_64-unknown-linux-gnu.tar.gz”,destdir=”,”,repos=NULL)でインストールできる。 詳しくは、上記のサイトで。
  9. 9. 形態素解析> rlt <- RMeCabC("お腹が空いた",0)> unlist(rlt) 名詞 助詞 動詞 助動詞"お腹" "が" "空い" "た"> rlt <- RMeCabC("お腹が空いた",1)> unlist(rlt) 名詞 助詞 動詞 助動詞"お腹" "が" "空く" "た"
  10. 10. ターム・文書行列をつくる> novel <- docMatrix("novel",c("名詞","形容詞"))> novel[4:15,] docsterms bocchan_NATUME hana_AKUTAGAWA kokoro_NATUME [[LESS-THAN-1]] 0 0 0 [[TOTAL-TOKENS]] 12492 1646 34937 am 1 0 0 glad 1 0 0 see 1 0 0 to 1 0 0 you 1 0 0 ?—— 1 0 0 あいつ 5 0 0 あした 1 0 0 あすこ 3 0 2 あそこ 1 0 0
  11. 11. ターム・文書行列をつくる docMatrixの引数minFreq=n:n回以上出現するタームを出力kigo=1:記号を総語数にカウントするweight:重み付け “tf*idf,”tf*idf*norm”dic:ユーザー辞書の指定co:共起語の行列を作るなどなど・・・
  12. 12. 参考Rによるテキストマイニング入門 著:石田 基広 出版社:森北出版株式会社 RとLinuxと・・・http://rmecab.jp/wiki/index.php?RMeCab
  13. 13. ご清聴ありがとうございました。
  14. 14. Webからコーパスを収集するのに良いツール or データクリーニングに関する教科書・サイト をご存知でしたら、ご教授願います。

×