Your SlideShare is downloading. ×
  • Like
Introduction of RMeCab
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Now you can save presentations on your phone or tablet

Available for both IPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Introduction of RMeCab

  • 1,905 views
Published

 

Published in Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
1,905
On SlideShare
0
From Embeds
0
Number of Embeds
3

Actions

Shares
Downloads
9
Comments
0
Likes
1

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. 第2回Japan.RRMeCabで、テキスト解析を 行う @gepuro
  • 2. 自己紹介 早川 敦士 電気通信大学システム工学科三年
  • 3. ● 学祭でジャンク 市をやったり、● 合宿で花火を打 ち上げたりして ます。
  • 4. ● 富士山に登ったり、● 部誌を書いたり、● 2011年度 S-PLUS学 生研究奨励賞で特別 賞を頂いたり、● DBCLSでバイトしたり、 してます。
  • 5. テキストマイニングデータマイニング 興味 統計学 品質管理
  • 6. ブログhttp://d.hatena.ne.jp/gepuro/ 自己紹介 Twitter @gepuro
  • 7. RMeCabって?テキストマイニングの為の ツールで RからMeCabを 呼び出して使用する インターフェースです。
  • 8. インストールhttp://rmecab.jp/wiki/index.php?RMeCabからRMeCab_0.98_R_x86_64-unknown-linux-gnu.tar.gzをダウンロードして、>install.packages(“RMeCab_0.98_R_x86_64-unknown-linux-gnu.tar.gz”,destdir=”,”,repos=NULL)でインストールできる。 詳しくは、上記のサイトで。
  • 9. 形態素解析> rlt <- RMeCabC("お腹が空いた",0)> unlist(rlt) 名詞 助詞 動詞 助動詞"お腹" "が" "空い" "た"> rlt <- RMeCabC("お腹が空いた",1)> unlist(rlt) 名詞 助詞 動詞 助動詞"お腹" "が" "空く" "た"
  • 10. ターム・文書行列をつくる> novel <- docMatrix("novel",c("名詞","形容詞"))> novel[4:15,] docsterms bocchan_NATUME hana_AKUTAGAWA kokoro_NATUME [[LESS-THAN-1]] 0 0 0 [[TOTAL-TOKENS]] 12492 1646 34937 am 1 0 0 glad 1 0 0 see 1 0 0 to 1 0 0 you 1 0 0 ?—— 1 0 0 あいつ 5 0 0 あした 1 0 0 あすこ 3 0 2 あそこ 1 0 0
  • 11. ターム・文書行列をつくる docMatrixの引数minFreq=n:n回以上出現するタームを出力kigo=1:記号を総語数にカウントするweight:重み付け “tf*idf,”tf*idf*norm”dic:ユーザー辞書の指定co:共起語の行列を作るなどなど・・・
  • 12. 参考Rによるテキストマイニング入門 著:石田 基広 出版社:森北出版株式会社 RとLinuxと・・・http://rmecab.jp/wiki/index.php?RMeCab
  • 13. ご清聴ありがとうございました。
  • 14. Webからコーパスを収集するのに良いツール or データクリーニングに関する教科書・サイト をご存知でしたら、ご教授願います。