Introduction of RMeCab
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

Introduction of RMeCab

on

  • 2,208 views

 

Statistics

Views

Total Views
2,208
Views on SlideShare
1,722
Embed Views
486

Actions

Likes
1
Downloads
8
Comments
0

2 Embeds 486

http://d.hatena.ne.jp 435
https://twitter.com 51

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Introduction of RMeCab Presentation Transcript

  • 1. 第2回Japan.RRMeCabで、テキスト解析を 行う @gepuro
  • 2. 自己紹介 早川 敦士 電気通信大学システム工学科三年
  • 3. ● 学祭でジャンク 市をやったり、● 合宿で花火を打 ち上げたりして ます。
  • 4. ● 富士山に登ったり、● 部誌を書いたり、● 2011年度 S-PLUS学 生研究奨励賞で特別 賞を頂いたり、● DBCLSでバイトしたり、 してます。
  • 5. テキストマイニングデータマイニング 興味 統計学 品質管理
  • 6. ブログhttp://d.hatena.ne.jp/gepuro/ 自己紹介 Twitter @gepuro
  • 7. RMeCabって?テキストマイニングの為の ツールで RからMeCabを 呼び出して使用する インターフェースです。
  • 8. インストールhttp://rmecab.jp/wiki/index.php?RMeCabからRMeCab_0.98_R_x86_64-unknown-linux-gnu.tar.gzをダウンロードして、>install.packages(“RMeCab_0.98_R_x86_64-unknown-linux-gnu.tar.gz”,destdir=”,”,repos=NULL)でインストールできる。 詳しくは、上記のサイトで。
  • 9. 形態素解析> rlt <- RMeCabC("お腹が空いた",0)> unlist(rlt) 名詞 助詞 動詞 助動詞"お腹" "が" "空い" "た"> rlt <- RMeCabC("お腹が空いた",1)> unlist(rlt) 名詞 助詞 動詞 助動詞"お腹" "が" "空く" "た"
  • 10. ターム・文書行列をつくる> novel <- docMatrix("novel",c("名詞","形容詞"))> novel[4:15,] docsterms bocchan_NATUME hana_AKUTAGAWA kokoro_NATUME [[LESS-THAN-1]] 0 0 0 [[TOTAL-TOKENS]] 12492 1646 34937 am 1 0 0 glad 1 0 0 see 1 0 0 to 1 0 0 you 1 0 0 ?—— 1 0 0 あいつ 5 0 0 あした 1 0 0 あすこ 3 0 2 あそこ 1 0 0
  • 11. ターム・文書行列をつくる docMatrixの引数minFreq=n:n回以上出現するタームを出力kigo=1:記号を総語数にカウントするweight:重み付け “tf*idf,”tf*idf*norm”dic:ユーザー辞書の指定co:共起語の行列を作るなどなど・・・
  • 12. 参考Rによるテキストマイニング入門 著:石田 基広 出版社:森北出版株式会社 RとLinuxと・・・http://rmecab.jp/wiki/index.php?RMeCab
  • 13. ご清聴ありがとうございました。
  • 14. Webからコーパスを収集するのに良いツール or データクリーニングに関する教科書・サイト をご存知でしたら、ご教授願います。