Sakuteki02 yokkuns

6,806 views

Published on

Published in: Business, Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
6,806
On SlideShare
0
From Embeds
0
Number of Embeds
3,416
Actions
Shares
0
Downloads
39
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Sakuteki02 yokkuns

  1. 1. R 言語によるはじめてのテキストマイニング @yokkuns : 里 洋平 第2回さくさくテキストマイニング 1
  2. 2. AGENDA● 自己紹介● テキストマイニングと R 言語● YjdnJlp パッケージの紹介 – 形態素解析 – 係り受け解析 – 特徴語抽出● コレスポンデンス分析をしてみる● まとめ● 最後に 2
  3. 3. AGENDA● 自己紹介● テキストマイニングと R 言語● YjdnJlp パッケージの紹介 – 形態素解析 – 係り受け解析 – 特徴語抽出● コレスポンデンス分析をしてみる● まとめ● 最後に 3
  4. 4. @yokkuns : 里 洋平 ● ID : yokkuns ● 名前 : 里 洋平 ● 職業 : Web エンジニア ● 統計解析や機械学習、 データマイニングなどに 興味がある 4
  5. 5. Tokyo.R の主催者 5
  6. 6. slideshare に資料を公開 6
  7. 7. ボーカルやってますバンドメンバーを募集しています! 7
  8. 8. Amazon で " 里洋平 " を検索 8
  9. 9. 9
  10. 10. 執筆しました! 10
  11. 11. AGENDA● 自己紹介● テキストマイニングと R 言語● YjdnJlp パッケージの紹介 – 形態素解析 – 係り受け解析 – 特徴語抽出● コレスポンデンス分析をしてみる● まとめ● 最後に 11
  12. 12. テキストマイニングとはテキストマイニング( text mining )は、テキストを対象としたデータマイニングのことである。 by Wikipedia 12
  13. 13. データマイニングとはデータマイニングとは、統計学、パターン認識、人工知能等のデータ解析の技法を大量のデータに網羅的に適用することで知識を取り出す技術。 by Wikipedia 13
  14. 14. データ解析と言えば 14
  15. 15. データ解析と言えば 15
  16. 16. R 言語● 統計解析向けプログラミング言語及● 統計•機械学習などの手法が揃っている 16
  17. 17. AGENDA● 自己紹介● テキストマイニングと R 言語● YjdnJlp パッケージの紹介 – 形態素解析 – 係り受け解析 – 特徴語抽出● コレスポンデンス分析をしてみる● まとめ● 最後に 17
  18. 18. RMeCab と RCaBoCha● RMeCab – MeCab を R から使うパッケージ – 形態素解析● RCaBoCha – CaBoCha を R から使うパッケージ – 係り受け解析 18
  19. 19. RMeCab と RCaBoCha● RMeCab – MeCab のインストールが必要● RCaBoCha – CaBoCha のインストールが必要 19
  20. 20. RMeCab と RCaBoCha初心者には敷居が高い! 20
  21. 21. そこで 21
  22. 22. YjdnJlp パッケージ 22
  23. 23. YjdnJlp パッケージ● Yahoo! Japan Developer Network の テキスト解析 API を使うパッケージ● R だけで、テキスト解析が出来る – MeCab や CaBoCha などの外部ライブラリの インストールが不要! 23
  24. 24. 皆大好き Yahoo! Japan 24
  25. 25. 皆持ってるアプリケーション ID 25
  26. 26. 万が一持ってなければ登録 26
  27. 27. テキスト解析 API 27
  28. 28. YjdnJlp パッケージ● 形態素解析 – MAService 関数● 係り受け解析 – DAService 関数● 特徴語抽出 – Keyphrase 関数 28
  29. 29. 準備 29
  30. 30. インストールと読み込み> install.packages("YjdnJlp")> library(YjdnJlp) 30
  31. 31. 初期化> con <- initYjdnJlp("********") アプリケーション ID 31
  32. 32. 解析する文書テキストマイニング( text mining )は、テキストを対象としたデータマイニングのことである。通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法である。テキストデータの多くは形式が定まっておらず、また日本語は英語などと比べて単語の境界判別の必要性(→わかち書き)や文法ゆらぎが大きい点において形態素解析が困難であったが、自然言語処理の発展により実用的な水準の分析が可能となった。テキストマイニングの対象としては、顧客からのアンケートの回答やコールセンターに寄せられる質問や意見、電子掲示板やメーリングリストに蓄積されたテキストデータなどがある。 32
  33. 33. 形態素解析> res <- MAService(con, str)> res.df <- toDataFrame(res)> head(res.df[res.df$pos == " 名詞 " |+ res.df$pos == " 動詞 ", c("surface", "pos", "count")]) surface pos count5 テキスト 名詞 66 データ 名詞 516 マイニング 名詞 317 出現 名詞 320 こと 名詞 221 し 動詞 2 33
  34. 34. 係り受け解析> res <- DAService(con, str)> res.df <- toDataFrame(res)> res.df[, -7] chunk.id dependency surface reading baseform pos1 1 63 テキスト てきすと テキスト 名詞2 1 63 マイニング まいにんぐ マイニング 名詞3 1 63 ( ( ( 特殊4 1 63 text text text 名詞5 1 63 特殊6 1 63 mining mining mining 名詞7 1 63 ) ) ) 特殊8 1 63 は は は 助詞9 1 63 、 、 、 特殊10 2 4 テキスト てきすと テキスト 名詞... 34
  35. 35. 特徴語抽出> res <- Keyphrase(con, str)> res.df <- toDataFrame(res)> res.df keyphrase score1 テキストマイニング 1002 テキストデータ 833 形態素解析 554 text mining 535 データマイニング 536 メーリングリスト 527 単語 458 文節 449 分析 4310 境界判別 43 35
  36. 36. AGENDA● 自己紹介● テキストマイニングと R 言語● YjdnJlp パッケージの紹介 – 形態素解析 – 係り受け解析 – 特徴語抽出● コレスポンデンス分析をしてみる● まとめ● 最後に 36
  37. 37. コレスポンデンス分析● 東京都知事選挙の選挙公報の文書をもとに コレスポンデンス分析をやってみる – 時間がないので形態素解析でのみ 37
  38. 38. コレスポンデンス分析 38
  39. 39. コレスポンデンス分析 39
  40. 40. コレスポンデンス分析> library(ca)> ma.ca <- ca(ma.df)> plot(ma.ca, arrows=c(F,T)) 40
  41. 41. 41
  42. 42. AGENDA● 自己紹介● テキストマイニングと R 言語● YjdnJlp パッケージの紹介 – 形態素解析 – 係り受け解析 – 特徴語抽出● コレスポンデンス分析をしてみる● まとめ● 最後に 42
  43. 43. まとめ● R には統計•機械学習の手法が揃っている● YjdnJlp は、手軽にテキスト解析が出来る – 形態素解析 – 係り受け解析 – 特徴語抽出● 解析結果を使って、各手法を実行● R を使いたくなった方は Tokyo.R へ! 43
  44. 44. AGENDA● 自己紹介● テキストマイニングと R 言語● YjdnJlp パッケージの紹介 – 形態素解析 – 係り受け解析 – 特徴語抽出● コレスポンデンス分析をしてみる● まとめ● 最後に 44
  45. 45. 最後に Tokyo.R では発表者を募集しています 45

×