Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Hiroshimar3_rmecab

804 views

Published on

HiRoshima.R #3 の LT「RMeCab を使ったテキストマイニングの基礎の基礎」のスライドです。

Published in: Education
  • Be the first to comment

Hiroshimar3_rmecab

  1. 1.   MeCabを使った テキストマイニングの基礎の基礎 2015-02-14 HiRoshima.R #3 @ Hijiyama Univ. 阪上 辰也
  2. 2. Text miningとは? 構造化されていないテキストから 目的に応じて情報や知識を 掘り出す方法と技術の総称 ! (石田・金, 2014) ! 石田基広・金明哲(2014)『コーパスとテキストマイニング』共立出版
  3. 3. Text miningとは? • 自由記述アンケートを客観的に分析 • Web 上の流行の品を探し当てる • 書き手の特徴分析・識別・分類
  4. 4. Text mining の主な手順 1. データの収集: アンケート,Web サイト 2. データの整形: 不要な文字列の削除 3. データの加工: 形態素解析,重み付け 4. 結果の集 計: 頻度集計・検定実施 5. 結果の可視化: さまざまなグラフ化
  5. 5. i) tm: Text Mining Package • http://tm.r-forge.r-project.org/ • http://cran.r-project.org/web/packages/tm/tm.pdf ii) corpora • http://www.stefan-evert.de/SIGIL/sigil_R/ • http://cran.r-project.org/web/packages/corpora/corpora.pdf iii)LanguageR • http://www.sfs.uni-tuebingen.de/~hbaayen/software.html • http://cran.r-project.org/web/packages/languageR/languageR.pdf 言語処理に特化した packages
  6. 6. 日本語データの分析を 助けてくれる RMeCab を紹介
  7. 7. RMeCabとは • 石田 基広氏が開発したパッケージ • R から MeCab を呼び出して日本語 のテキストを解析させる • 解析結果をも R で出力してくれる 素晴らしいプログラム
  8. 8. Text mining の主な手順 1. データの収集: アンケート,Web サイト 2. データの整形: 不要な文字列の削除 3. データの加工: 形態素解析,重み付け 4. 結果の集 計: 頻度集計・検定実施 5. 結果の可視化: さまざまなグラフ化
  9. 9. Demo 一覧 •RMeCabText() : ファイル解析 •RMeCabFreq() : 頻度集計 •Ngram() : N-gram 解析 •collocate() : 共起関係の分析
  10. 10. RMeCabText() : ファイル解析
  11. 11. RMeCabFreq() : 頻度集計
  12. 12. RMeCabFreq() : 頻度集計
  13. 13. Ngram() : N-gram 解析
  14. 14. Ngram() : N-gram 解析
  15. 15. collocate() : 共起関係の分析
  16. 16. ということで RMeCab を使えば R 上でテキストマイニングが (集計も含め)手軽にできます
  17. 17. 参考文献(続)
  18. 18. Enjoy ! twitter: @sakaue ! e-mail: tsakaue<AT>hiroshima-u.ac.jp

×