Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Introduction of RMeCab

2,802 views

Published on

Published in: Technology
  • Be the first to comment

Introduction of RMeCab

  1. 1. 第2回Japan.RRMeCabで、テキスト解析を 行う @gepuro
  2. 2. 自己紹介 早川 敦士 電気通信大学システム工学科三年
  3. 3. ● 学祭でジャンク 市をやったり、● 合宿で花火を打 ち上げたりして ます。
  4. 4. ● 富士山に登ったり、● 部誌を書いたり、● 2011年度 S-PLUS学 生研究奨励賞で特別 賞を頂いたり、● DBCLSでバイトしたり、 してます。
  5. 5. テキストマイニングデータマイニング 興味 統計学 品質管理
  6. 6. ブログhttp://d.hatena.ne.jp/gepuro/ 自己紹介 Twitter @gepuro
  7. 7. RMeCabって?テキストマイニングの為の ツールで RからMeCabを 呼び出して使用する インターフェースです。
  8. 8. インストールhttp://rmecab.jp/wiki/index.php?RMeCabからRMeCab_0.98_R_x86_64-unknown-linux-gnu.tar.gzをダウンロードして、>install.packages(“RMeCab_0.98_R_x86_64-unknown-linux-gnu.tar.gz”,destdir=”,”,repos=NULL)でインストールできる。 詳しくは、上記のサイトで。
  9. 9. 形態素解析> rlt <- RMeCabC("お腹が空いた",0)> unlist(rlt) 名詞 助詞 動詞 助動詞"お腹" "が" "空い" "た"> rlt <- RMeCabC("お腹が空いた",1)> unlist(rlt) 名詞 助詞 動詞 助動詞"お腹" "が" "空く" "た"
  10. 10. ターム・文書行列をつくる> novel <- docMatrix("novel",c("名詞","形容詞"))> novel[4:15,] docsterms bocchan_NATUME hana_AKUTAGAWA kokoro_NATUME [[LESS-THAN-1]] 0 0 0 [[TOTAL-TOKENS]] 12492 1646 34937 am 1 0 0 glad 1 0 0 see 1 0 0 to 1 0 0 you 1 0 0 ?—— 1 0 0 あいつ 5 0 0 あした 1 0 0 あすこ 3 0 2 あそこ 1 0 0
  11. 11. ターム・文書行列をつくる docMatrixの引数minFreq=n:n回以上出現するタームを出力kigo=1:記号を総語数にカウントするweight:重み付け “tf*idf,”tf*idf*norm”dic:ユーザー辞書の指定co:共起語の行列を作るなどなど・・・
  12. 12. 参考Rによるテキストマイニング入門 著:石田 基広 出版社:森北出版株式会社 RとLinuxと・・・http://rmecab.jp/wiki/index.php?RMeCab
  13. 13. ご清聴ありがとうございました。
  14. 14. Webからコーパスを収集するのに良いツール or データクリーニングに関する教科書・サイト をご存知でしたら、ご教授願います。

×