Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Sakuteki02 yokkuns

7,147 views

Published on

Published in: Business, Technology
  • Be the first to comment

Sakuteki02 yokkuns

  1. 1. R 言語によるはじめてのテキストマイニング @yokkuns : 里 洋平 第2回さくさくテキストマイニング 1
  2. 2. AGENDA● 自己紹介● テキストマイニングと R 言語● YjdnJlp パッケージの紹介 – 形態素解析 – 係り受け解析 – 特徴語抽出● コレスポンデンス分析をしてみる● まとめ● 最後に 2
  3. 3. AGENDA● 自己紹介● テキストマイニングと R 言語● YjdnJlp パッケージの紹介 – 形態素解析 – 係り受け解析 – 特徴語抽出● コレスポンデンス分析をしてみる● まとめ● 最後に 3
  4. 4. @yokkuns : 里 洋平 ● ID : yokkuns ● 名前 : 里 洋平 ● 職業 : Web エンジニア ● 統計解析や機械学習、 データマイニングなどに 興味がある 4
  5. 5. Tokyo.R の主催者 5
  6. 6. slideshare に資料を公開 6
  7. 7. ボーカルやってますバンドメンバーを募集しています! 7
  8. 8. Amazon で " 里洋平 " を検索 8
  9. 9. 9
  10. 10. 執筆しました! 10
  11. 11. AGENDA● 自己紹介● テキストマイニングと R 言語● YjdnJlp パッケージの紹介 – 形態素解析 – 係り受け解析 – 特徴語抽出● コレスポンデンス分析をしてみる● まとめ● 最後に 11
  12. 12. テキストマイニングとはテキストマイニング( text mining )は、テキストを対象としたデータマイニングのことである。 by Wikipedia 12
  13. 13. データマイニングとはデータマイニングとは、統計学、パターン認識、人工知能等のデータ解析の技法を大量のデータに網羅的に適用することで知識を取り出す技術。 by Wikipedia 13
  14. 14. データ解析と言えば 14
  15. 15. データ解析と言えば 15
  16. 16. R 言語● 統計解析向けプログラミング言語及● 統計•機械学習などの手法が揃っている 16
  17. 17. AGENDA● 自己紹介● テキストマイニングと R 言語● YjdnJlp パッケージの紹介 – 形態素解析 – 係り受け解析 – 特徴語抽出● コレスポンデンス分析をしてみる● まとめ● 最後に 17
  18. 18. RMeCab と RCaBoCha● RMeCab – MeCab を R から使うパッケージ – 形態素解析● RCaBoCha – CaBoCha を R から使うパッケージ – 係り受け解析 18
  19. 19. RMeCab と RCaBoCha● RMeCab – MeCab のインストールが必要● RCaBoCha – CaBoCha のインストールが必要 19
  20. 20. RMeCab と RCaBoCha初心者には敷居が高い! 20
  21. 21. そこで 21
  22. 22. YjdnJlp パッケージ 22
  23. 23. YjdnJlp パッケージ● Yahoo! Japan Developer Network の テキスト解析 API を使うパッケージ● R だけで、テキスト解析が出来る – MeCab や CaBoCha などの外部ライブラリの インストールが不要! 23
  24. 24. 皆大好き Yahoo! Japan 24
  25. 25. 皆持ってるアプリケーション ID 25
  26. 26. 万が一持ってなければ登録 26
  27. 27. テキスト解析 API 27
  28. 28. YjdnJlp パッケージ● 形態素解析 – MAService 関数● 係り受け解析 – DAService 関数● 特徴語抽出 – Keyphrase 関数 28
  29. 29. 準備 29
  30. 30. インストールと読み込み> install.packages("YjdnJlp")> library(YjdnJlp) 30
  31. 31. 初期化> con <- initYjdnJlp("********") アプリケーション ID 31
  32. 32. 解析する文書テキストマイニング( text mining )は、テキストを対象としたデータマイニングのことである。通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法である。テキストデータの多くは形式が定まっておらず、また日本語は英語などと比べて単語の境界判別の必要性(→わかち書き)や文法ゆらぎが大きい点において形態素解析が困難であったが、自然言語処理の発展により実用的な水準の分析が可能となった。テキストマイニングの対象としては、顧客からのアンケートの回答やコールセンターに寄せられる質問や意見、電子掲示板やメーリングリストに蓄積されたテキストデータなどがある。 32
  33. 33. 形態素解析> res <- MAService(con, str)> res.df <- toDataFrame(res)> head(res.df[res.df$pos == " 名詞 " |+ res.df$pos == " 動詞 ", c("surface", "pos", "count")]) surface pos count5 テキスト 名詞 66 データ 名詞 516 マイニング 名詞 317 出現 名詞 320 こと 名詞 221 し 動詞 2 33
  34. 34. 係り受け解析> res <- DAService(con, str)> res.df <- toDataFrame(res)> res.df[, -7] chunk.id dependency surface reading baseform pos1 1 63 テキスト てきすと テキスト 名詞2 1 63 マイニング まいにんぐ マイニング 名詞3 1 63 ( ( ( 特殊4 1 63 text text text 名詞5 1 63 特殊6 1 63 mining mining mining 名詞7 1 63 ) ) ) 特殊8 1 63 は は は 助詞9 1 63 、 、 、 特殊10 2 4 テキスト てきすと テキスト 名詞... 34
  35. 35. 特徴語抽出> res <- Keyphrase(con, str)> res.df <- toDataFrame(res)> res.df keyphrase score1 テキストマイニング 1002 テキストデータ 833 形態素解析 554 text mining 535 データマイニング 536 メーリングリスト 527 単語 458 文節 449 分析 4310 境界判別 43 35
  36. 36. AGENDA● 自己紹介● テキストマイニングと R 言語● YjdnJlp パッケージの紹介 – 形態素解析 – 係り受け解析 – 特徴語抽出● コレスポンデンス分析をしてみる● まとめ● 最後に 36
  37. 37. コレスポンデンス分析● 東京都知事選挙の選挙公報の文書をもとに コレスポンデンス分析をやってみる – 時間がないので形態素解析でのみ 37
  38. 38. コレスポンデンス分析 38
  39. 39. コレスポンデンス分析 39
  40. 40. コレスポンデンス分析> library(ca)> ma.ca <- ca(ma.df)> plot(ma.ca, arrows=c(F,T)) 40
  41. 41. 41
  42. 42. AGENDA● 自己紹介● テキストマイニングと R 言語● YjdnJlp パッケージの紹介 – 形態素解析 – 係り受け解析 – 特徴語抽出● コレスポンデンス分析をしてみる● まとめ● 最後に 42
  43. 43. まとめ● R には統計•機械学習の手法が揃っている● YjdnJlp は、手軽にテキスト解析が出来る – 形態素解析 – 係り受け解析 – 特徴語抽出● 解析結果を使って、各手法を実行● R を使いたくなった方は Tokyo.R へ! 43
  44. 44. AGENDA● 自己紹介● テキストマイニングと R 言語● YjdnJlp パッケージの紹介 – 形態素解析 – 係り受け解析 – 特徴語抽出● コレスポンデンス分析をしてみる● まとめ● 最後に 44
  45. 45. 最後に Tokyo.R では発表者を募集しています 45

×