More Related Content
Similar to Sakuteki02 yokkuns
Similar to Sakuteki02 yokkuns (20)
More from Yohei Sato (16)
Sakuteki02 yokkuns
- 2. AGENDA
●
自己紹介
●
テキストマイニングと R 言語
●
YjdnJlp パッケージの紹介
– 形態素解析
– 係り受け解析
– 特徴語抽出
●
コレスポンデンス分析をしてみる
●
まとめ
●
最後に
2
- 3. AGENDA
●
自己紹介
●
テキストマイニングと R 言語
●
YjdnJlp パッケージの紹介
– 形態素解析
– 係り受け解析
– 特徴語抽出
●
コレスポンデンス分析をしてみる
●
まとめ
●
最後に
3
- 4. @yokkuns : 里 洋平
● ID : yokkuns
●
名前 : 里 洋平
●
職業 : Web エンジニア
●
統計解析や機械学習、
データマイニングなどに
興味がある
4
- 11. AGENDA
●
自己紹介
●
テキストマイニングと R 言語
●
YjdnJlp パッケージの紹介
– 形態素解析
– 係り受け解析
– 特徴語抽出
●
コレスポンデンス分析をしてみる
●
まとめ
●
最後に
11
- 16. R 言語
●
統計解析向けプログラミング言語及
●
統計•機械学習などの手法が揃っている
– 主成分分析
– クラスター分析
– コレスポンデンス分析
– SVM
– Random Forest
– ...
16
- 17. 統計•機械学習の手法を使う
●
統計や機械学習の手法の対象は数値データ
●
テキストデータをそのまま用いることは出来ない
●
テキストを数値化する必要がある
●
テキスト解析
– 形態素解析
– 係り受け解析
– ...
17
- 18. AGENDA
●
自己紹介
●
テキストマイニングと R 言語
●
YjdnJlp パッケージの紹介
– 形態素解析
– 係り受け解析
– 特徴語抽出
●
コレスポンデンス分析をしてみる
●
まとめ
●
最後に
18
- 19. RMeCab と RCaBoCha
● RMeCab
– MeCab を R から使うパッケージ
– 形態素解析
● RCaBoCha
– CaBoCha を R から使うパッケージ
– 係り受け解析
19
- 24. YjdnJlp パッケージ
●
Yahoo! Japan Developer Network の
テキスト解析 API を使うパッケージ
●
R だけで、テキスト解析が出来る
– MeCab や CaBoCha などの外部ライブラリの
インストールが不要!
24
- 29. YjdnJlp パッケージ
●
形態素解析
– MAService 関数
●
係り受け解析
– DAService 関数
●
特徴語抽出
– Keyphrase 関数
29
- 33. 解析する文書
テキストマイニング( text mining )は、テキストを対象とした
データマイニングのことである。通常の文章からなるデータを単語や
文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、
時系列などを解析することで有用な情報を取り出す、テキストデータの
分析方法である。
テキストデータの多くは形式が定まっておらず、また日本語は英語などと
比べて単語の境界判別の必要性(→わかち書き)や文法ゆらぎが
大きい点において形態素解析が困難であったが、自然言語処理の
発展により実用的な水準の分析が可能となった。
テキストマイニングの対象としては、顧客からのアンケートの回答や
コールセンターに寄せられる質問や意見、電子掲示板やメーリングリストに
蓄積されたテキストデータなどがある。
33
- 34. 形態素解析
> res <- MAService(con, str)
> res.df <- toDataFrame(res)
> head(res.df[res.df$pos == " 名詞 " |
+ res.df$pos == " 動詞 ", c("surface", "pos", "count")])
surface pos count
5 テキスト 名詞 6
6 データ 名詞 5
16 マイニング 名詞 3
17 出現 名詞 3
20 こと 名詞 2
21 し 動詞 2
34
- 35. 係り受け解析
> res <- DAService(con, str)
> res.df <- toDataFrame(res)
> res.df[, -7]
chunk.id dependency surface reading baseform pos
1 1 63 テキスト てきすと テキスト 名詞
2 1 63 マイニング まいにんぐ マイニング 名詞
3 1 63 ( ( ( 特殊
4 1 63 text text text 名詞
5 1 63 特殊
6 1 63 mining mining mining 名詞
7 1 63 ) ) ) 特殊
8 1 63 は は は 助詞
9 1 63 、 、 、 特殊
10 2 4 テキスト てきすと テキスト 名詞
...
35
- 36. 特徴語抽出
> res <- Keyphrase(con, str)
> res.df <- toDataFrame(res)
> res.df
keyphrase score
1 テキストマイニング 100
2 テキストデータ 83
3 形態素解析 55
4 text mining 53
5 データマイニング 53
6 メーリングリスト 52
7 単語 45
8 文節 44
9 分析 43
10 境界判別 43
36
- 37. AGENDA
●
自己紹介
●
テキストマイニングと R 言語
●
YjdnJlp パッケージの紹介
– 形態素解析
– 係り受け解析
– 特徴語抽出
●
コレスポンデンス分析をしてみる
●
まとめ
●
最後に
37
- 38. コレスポンデンス分析
●
東京都知事選挙の選挙公報の文書をもとに
コレスポンデンス分析をやってみる
– 時間がないので形態素解析でのみ
38
- 43. AGENDA
●
自己紹介
●
テキストマイニングと R 言語
●
YjdnJlp パッケージの紹介
– 形態素解析
– 係り受け解析
– 特徴語抽出
●
コレスポンデンス分析をしてみる
●
まとめ
●
最後に
43
- 44. まとめ
●
R には統計•機械学習の手法が揃っている
●
YjdnJlp は、手軽にテキスト解析が出来る
– 形態素解析
– 係り受け解析
– 特徴語抽出
●
解析結果を使って、各手法を実行
●
R を使いたくなった方は Tokyo.R へ!
44
- 45. AGENDA
●
自己紹介
●
テキストマイニングと R 言語
●
YjdnJlp パッケージの紹介
– 形態素解析
– 係り受け解析
– 特徴語抽出
●
コレスポンデンス分析をしてみる
●
まとめ
●
最後に
45