Sakuteki02 yokkuns

R 言語による
はじめてのテキストマイニング

@yokkuns : 里　洋平
第２回さくさくテキストマイニング

1

AGENDA
●
自己紹介
●
テキストマイニングと R 言語
●
YjdnJlp パッケージの紹介
– 形態素解析
– 係り受け解析
– 特徴語抽出
●
コレスポンデンス分析をしてみる
●
まとめ
●
最後に

2

AGENDA
●
自己紹介
●
●
– 形態素解析
– 特徴語抽出
●
●
まとめ
●
最後に

3

@yokkuns : 里　洋平
● ID : yokkuns
●
名前 : 里　洋平
●
職業 : Web エンジニア

●
統計解析や機械学習、
データマイニングなどに
興味がある

4

Tokyo.R の主催者

5

slideshare に資料を公開

6

ボーカルやってます

バンドメンバーを募集しています！
7

Amazon で " 里洋平 " を検索

8

執筆しました！

10

AGENDA
●
自己紹介
●
●
– 形態素解析
– 特徴語抽出
●
●
まとめ
●
最後に

11

テキストマイニングとは

テキストマイニング（ text mining ）は、
テキストを対象としたデータマイニングのことである。
by Wikipedia

12

データマイニングとは

データマイニングとは、統計学、パターン認識、
人工知能等のデータ解析の技法を大量のデータに
網羅的に適用することで知識を取り出す技術。
by Wikipedia

13

データ解析と言えば

14

データ解析と言えば

15

R 言語
●
統計解析向けプログラミング言語及
●
統計•機械学習などの手法が揃っている
– 主成分分析
– クラスター分析
– コレスポンデンス分析
– SVM
– Random Forest
– ...

16

統計•機械学習の手法を使う
●
統計や機械学習の手法の対象は数値データ
●
テキストデータをそのまま用いることは出来ない
●
テキストを数値化する必要がある
●
テキスト解析
– 形態素解析
– ...

17

AGENDA
●
自己紹介
●
●
– 形態素解析
– 特徴語抽出
●
●
まとめ
●
最後に

18

RMeCab と RCaBoCha
● RMeCab
– MeCab を R から使うパッケージ
– 形態素解析
● RCaBoCha
– CaBoCha を R から使うパッケージ

19

RMeCab と RCaBoCha
● RMeCab
– MeCab のインストールが必要

● RCaBoCha
– CaBoCha のインストールが必要

20

RMeCab と RCaBoCha

初心者には敷居が高い！

21

YjdnJlp パッケージ

23

●
Yahoo! Japan Developer Network の
テキスト解析 API を使うパッケージ
●
R だけで、テキスト解析が出来る
– MeCab や CaBoCha などの外部ライブラリの
インストールが不要！

24

皆大好き Yahoo! Japan

25

皆持ってるアプリケーション ID

26

万が一持ってなければ登録

27

テキスト解析 API

28

●
形態素解析
– MAService 関数
●
係り受け解析
– DAService 関数
●
特徴語抽出
– Keyphrase 関数

29

インストールと読み込み

> install.packages("YjdnJlp")
> library(YjdnJlp)

31

初期化

> con <- initYjdnJlp("********")

アプリケーション ID

32

解析する文書
テキストマイニング（ text mining ）は、テキストを対象とした
データマイニングのことである。通常の文章からなるデータを単語や
文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、
時系列などを解析することで有用な情報を取り出す、テキストデータの
分析方法である。
テキストデータの多くは形式が定まっておらず、また日本語は英語などと
比べて単語の境界判別の必要性（→わかち書き）や文法ゆらぎが
大きい点において形態素解析が困難であったが、自然言語処理の
発展により実用的な水準の分析が可能となった。
テキストマイニングの対象としては、顧客からのアンケートの回答や
コールセンターに寄せられる質問や意見、電子掲示板やメーリングリストに
蓄積されたテキストデータなどがある。

33

形態素解析
> res <- MAService(con, str)
> res.df <- toDataFrame(res)
> head(res.df[res.df$pos == " 名詞 " |
+ res.df$pos == " 動詞 ", c("surface", "pos", "count")])

surface pos count
5 テキスト名詞 6
6 データ名詞 5
16 マイニング名詞 3
17 出現名詞 3
20 こと名詞 2
21 し動詞 2

34

係り受け解析
> res <- DAService(con, str)
> res.df[, -7]
chunk.id dependency surface reading baseform pos
1 1 63 テキストてきすとテキスト名詞
2 1 63 マイニングまいにんぐマイニング名詞
3 1 63 （（（特殊
4 1 63 text text text 名詞
5 1 63 特殊
6 1 63 mining mining mining 名詞
7 1 63 ）））特殊
8 1 63 ははは助詞
9 1 63 、、、特殊
10 2 4 テキストてきすとテキスト名詞
...
35

特徴語抽出
> res <- Keyphrase(con, str)
> res.df
keyphrase score
1 テキストマイニング 100
2 テキストデータ 83
3 形態素解析 55
4 text mining 53
5 データマイニング 53
6 メーリングリスト 52
7 単語 45
8 文節 44
9 分析 43
10 境界判別 43
36

AGENDA
●
自己紹介
●
●
– 形態素解析
– 特徴語抽出
●
●
まとめ
●
最後に

37

コレスポンデンス分析
●
東京都知事選挙の選挙公報の文書をもとに
コレスポンデンス分析をやってみる
– 時間がないので形態素解析でのみ

38


39


40


> library(ca)
> ma.ca <- ca(ma.df)
> plot(ma.ca, arrows=c(F,T))

41

AGENDA
●
自己紹介
●
●
– 形態素解析
– 特徴語抽出
●
●
まとめ
●
最後に

43

まとめ
●
R には統計•機械学習の手法が揃っている
●
YjdnJlp は、手軽にテキスト解析が出来る
– 形態素解析
– 特徴語抽出
●
解析結果を使って、各手法を実行
●
R を使いたくなった方は Tokyo.R へ！

44

AGENDA
●
自己紹介
●
●
– 形態素解析
– 特徴語抽出
●
●
まとめ
●
最後に

45

最後に

Tokyo.R では
発表者を募集しています

46

Sakuteki02 yokkuns

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to Sakuteki02 yokkuns

Similar to Sakuteki02 yokkuns (20)

More from Yohei Sato

More from Yohei Sato (16)

Recently uploaded

Recently uploaded (9)

Sakuteki02 yokkuns