さくっとはじめるテキストマイニング（R言語）　　スタートアップ編

さくっとはじめる
テキストマイニング（R言語）
Version 1.0.1
スタートアップ編
2016年3月6日
Copyright © Skywill inc. All Rights Reserved.

本スライドについて
R言語の初級者
（ちょっとだけなら、R言語を書ける人）
対象者
用途
「さくっとテキストマイニングを始める」ための、お助け資料
テキストマイニング未経験者
（興味があるのでやってみたい人）
2

１）テキストマイニングの技術紹介
内容
３）プログラムを紹介
２）テキストマイニングの流れ
3

作成者
嶋田裕
R言語経験： 4ヶ月
職業：エンジニア
興味：ビッグデータ、統計解析、Webクローリング
趣味：家庭菜園、フットサル
かいわれ大根
R言語経験： 4ヶ月
職業：エンジニア
興味：ビックデータ、統計解析
趣味：読書
4

内容
5

6
テキストマイニング
形態素解析
ワードクラウド
Nグラム解析
ネットワーク図
データクレンジング
■紹介する技術の一覧
テキストデータをマイニングする技術
文章を形態素に分解する技術
ゴミ情報を取り除く処理
文章中で連続する形態素を抽出する技術
関連性のある２つの形態素を表す統計手法
形態素の出現頻度を直感的に表す統計手法

データの中から知識（意味のある情報）を得る事をデータマイニングという。
テキストマイニングは、対象データを文字列としたデータマイニングのこと。
テキストマイニング
ホームページ
小説
アンケート
ツイッター
テキスト
マイニング
登場人物の交友関係
つぶやきランキング
分類分け情報
ホームページ
の頻出ワード
7
入力情報出力情報

形態素解析
文章を言葉の意味の最小構成要素（形態素）に分割し、
それぞれの品詞、活用形などを判別する技術。
この竹藪に竹立て掛けたのは竹立て掛けたかったから竹立て掛けた。
文章の先頭から辞書の見出しを当てていき、
該当する単語を選択
この竹に藪竹立て掛けたのは
名詞名詞動詞助詞名詞名詞助詞連体詞
・・・
8

データクレンジング
データから不要な情報（ゴミ情報、ノイズ）を取り除くことを、
「データクレンジング（ノイズ除去）」という。
。
たい
は
から
た
立て掛ける
に
竹
藪
の
この
立て掛ける竹
藪
9
例えば、
「名詞」「動詞」以外は、単語として意味をなさないので、ゴミ情報として取り除くなど。

ワードクラウド
文章の中で出現頻度が高い単語を複数選び出し、その頻度に応じた大き
さで図示する手法。
「ビックデータ」「クラウド」「教育」の
出現頻度が高いという
文章の特徴がパッと見でわかる。
10

この竹に藪竹立て掛ける
11
Nグラム解析
連続するN個の単語（形態素）の出現頻度を求める手法。
例えば、N=2の場合、以下のようなデータ（バイグラムデータという）が得られる
番号形態素１形態素２出現頻度
１この竹１
２竹藪１
３藪に１
４に竹１
５竹立て掛ける１
連続連続連続連続連続

この竹に藪竹立て掛ける
12
この場合、こんなバイグラムデータが得られる
１竹藪１
２藪竹１
竹藪竹
名詞名詞動詞助詞名詞連体詞
名詞だけに注目して、バイグラムデータを取得することもできる。
名詞の連続性だけに注目
連続連続

13
１竹藪１
２藪竹１
形態素１である「竹」と形態素２である「藪」は、共起関係にあるという。
１竹藪 7
２藪竹１
もし、仮に、この共起関係の出現頻度が高い場合、
「竹」と「藪」は、関係性の高い単語であるとみなせる。

ネットワーク図
関係性のある単語と単語を矢印で結び、それらの関係性を図示する
手法。
ＡＢ
ＡＢ
「Ａ」は、「Ｂ」に対して関係あり
「Ａ」「Ｂ」は、お互いに関係あり
14

１）テキストマイニングの紹介
内容
15

「テキストマイニング」の流れ
１）文章を分解してデータを得る
３）データを整える
２）データからゴミを取り除く
４）データをマイニングする
16

この竹に
形態素に分解
藪竹立て掛けるのは・・・
この竹藪に竹立て掛けたのは竹立て掛けたかったから竹立て掛けた。
17
形態素解析を使用して、文章を形態素に分解する。

番号形態素品詞区分出現頻度
1 。記号句点 1
2 に助詞格助詞 1
3 は助詞係助詞 1
4 から助詞接続助詞 1
5 た助動詞 * 3
6 たい助動詞 * 1
7 立て掛ける動詞自立 3
8 竹名詞一般 4
9 藪名詞固有名詞 1
10 の名詞非自立 1
11 この連体詞 * 1
形態素解析で得られるデータは、こんな感じ
18

この竹に藪竹立て掛けるのは
・・・
竹藪
名詞名詞
竹立て掛ける
動詞名詞
名詞（非自立を除く）、動詞以外を、
ゴミ情報として取り除く。
非自立
19
取得したデータから不要な情報を取り除く。

1 。記号句点 1
5 た助動詞 * 3
8 竹名詞一般 4
ゴミを取り除いた後のデータは、こんな感じ
20
２）データからゴミを取り除く。

竹
藪
３回立て掛ける
出現頻度で並べ替え
４回
１回
竹
藪
立て掛ける
４回
３回
１回
次の工程で実施するデータマイニングをしやすくするための処理です。
データを並べ替えたり、データを分類分けしたり、特定データ抽出をします。
21

8 竹名詞一般 4
1 。記号句点 1
5 た助動詞 * 3
有効データを出現頻度で並べ変えた後は、こんな感じ
22

マイニング
竹
藪
立て掛ける
４回
３回
１回
0
1
2
3
4
23
データを統計グラフ化する。
竹
立て掛ける
藪
竹
立て掛
ける
藪

Ｒ言語には、データを統計グラフ化するためのライブラリが豊富にある。
プログラマは、このライブラリを使うだけ（楽ちん）。
今回使用するライブラリは、後ほど紹介。
24

１）テキストマイニングの紹介
内容
25

まず、準備として、紹介するプログラムの中で使用する
ライブラリパッケージをインストールします。
【注意】本スライドの対象者は、Ｒ言語の初級者なので、すでにプログラミング環境がある事を
前提として話を進めます。
RMecab
wordcloud
igraph
形態素解析の機能を提供
ワードクラウドの機能を提供
共起ネットワークの機能を提供
26
> install.packages("RMeCab", repos = "http://rmecab.jp/R")
> install.packages("wordcloud")
> install.packages(“igraph")
インストールコマンド
あーるめかぶ
あいぐらふ

① ワードクラウド
紹介するプログラムは、以下の２つ。
② 共起ネットワーク
登場ワードの出現頻度を解析してワードクラウド表示する。
登場ワードの関係性をネットワーク表示する。
27

３）プログラムを紹介【①ワードクラウド】
テキスト化した自社のホームページ情報をマイニングして、
登場頻度の高いワードをワードクラウドで直感的に表現する。
SKYWILLってこんな会社
28
① ワードクラウド

「ワードクラウド」の流れ
３）データを整える（頻度の高いワードを抽出、並び変え）
２）データからゴミを取り除く（名詞以外の情報を取り除く）
４）データをマイニングする（ワードクラウドで表示する）
29

# ライブラリパッケージ読み込み
library(RMeCab)
library(wordcloud)
# １）文章を分解してデータを得る
word <- RMeCabFreq("./SkyWill.txt")
# ２）データからゴミを取り除く
word <- subset(word, Info1 == "名詞")
type <- c("数","非自立","接尾")
word <- subset(word, !Info2 %in% type)
# ３）データを整える
word <- word[order(word$Freq, decreasing=T), ]
word <- head(word, n=30)
# ４）データをマイニングする（ワードクラウド表示）
patern <- brewer.pal(8, "Dark2")
wordcloud(word$Term, word$Freq, min.freq = 1, colors=patern)
WordCloud.R
30

# １）文字列を分解してデータを得る
word <- RMeCabFreq("./SkyWill.txt")
RMeCabFreq()
WordCloud.R
テキストを形態素に分解し、形態素ごとの出現頻度を取得する関数。
以下のフォーマットのデータ（データフレーム型）が得られる
RMecabライブラリが提供する関数。
31
対象テキスト

得られるデータは、こんな感じ
1 R言語名詞固有名詞 5
3 クラウド名詞固有名詞 13
5 ビッグデータ名詞固有名詞 17
6 教育名詞一般 8
8 さん名詞数 10
9 エンジニア名詞一般 6
10 貢献する動詞自立 2
: : : : :
32

WordCloud.R
得られたデータから名詞以外をゴミ情報として取り除く。
33

: : : : :
34

WordCloud.R
さらに、名詞のうち、”数“、“非自立”、“接尾”に該当するデータを
ゴミ情報として取り除く。
35

: : : : :
36

word <- word[order(word$Freq, decreasing=T), ]
word <- head(word, n=30)
WordCloud.R
登場頻度の高い順で並べ替える。
登場頻度の上位30個のデータを抽出する。
37

: : : : :
38
整えた後のデータは、こんな感じ

WordCloud.R
# ４）データをマイニングする（ワードクラウド）
patern <- brewer.pal(8, "Dark2")
wordcloud(word$Term, word$Freq, min.freq = 1, colors=patern)
wordcloud() wordcloudライブラリが提供する関数。
39
形態素データを使って、統計解析（ワードクラウド表示）する。
形態素名出現頻度
対象を出現頻度
１回以上の形態素とする
色の表示パターン

表示されるデータは、こんな感じ
40

３）プログラムを紹介【②共起ネットワーク】
アニメのセリフを集めたテキストをマイニングして、
登場人物の関係をネットワーク図で表現する。
41
② 共起ネットワーク

「共起ネットワーク」の流れ
３）データを整える（共起性の強いデータを抽出する）
２）データからゴミを取り除く（登場人物以外を取り除く）
４）データをマイニングする（ネットワーク図で表示する）
42

# ライブラリパッケージ読み込み
library(RMeCab)
library(igraph)
# １）文章を分解してデータを得る
ngram <- NgramDF("./Totoro.txt", type=1, pos=c("名詞"), N=2)
char= c("トトロ", "サツキ", "メイ", "お父さん", "お母さん", "カンタ", "ばあちゃん")
ngram <- subset(ngram, (Ngram1 %in% char)&(Ngram2 %in% char))
ngram <- subset(ngram, Freq>=4)
# ４）データをマイニングする（ネットワーク図表示）
graph <- graph.data.frame(ngram)
plot(graph, vertex.label=V(graph)$name, vertex.size=15)
Network.R
43

# １）文字列を分解してデータを得る
ngram <- NgramDF("./Totoro.txt", type=1, pos=c("名詞"), N=2)
NgramDF()
Network.R
文章を形態素に分解し、連続する２つの形態素の出現頻度を取得
（Nグラム解析）する。
RMecabライブラリが提供する関数。
44
対象テキスト
分割単位を
形態素に指定
名詞の連続性
のみ注目
２つの形態素の共起性
を解析（バイグラム）

バス停で、サツキはトトロに出会った。
バス停でサツキはトトロ出会ったに
バス停サツキトトロ
形態素に分解
名詞の連続性だけに注目
45
１バス停サツキ 1
２サツキトトロ 1
連続する２つの形態素の出現頻度を取得
バイグラムデータ

1 サツキトトロ 9
2 トトロサツキ 3
3 バス停サツキ 6
4 トトロメイ 4
5 メイ探索 4
6 探索お願い 1
7 カンタサツキ 5
8 カンタメイ 2
9 ばあちゃんカンタ 4
10 メイトトロ 12
: : : :
46
例えば、得られるデータは、こんな感じ

char= c("トトロ", "サツキ", "メイ", "お父さん", "お母さん", "カンタ", "ばあちゃん")
ngram <- subset(ngram, (Ngram1 %in% char)&(Ngram2 %in% char))
Network.R
得られたデータから登場人物以外をゴミ情報として取り除く。
形態素１、形態素２共に、登場人物に該当するデータだけを
有効データとみなす。
47
２）データからゴミ情報を取り除く

4 トトロメイ 4
5 メイ探索 4
6 探索お願い 1
8 カンタメイ 2
: : : :
48
ゴミ情報を取り除いた後のデータは、こんな感じ

登場人物で絞り込みしないで、ネットワーク図を表示すると
情報が多すぎて、ぐちゃぐちゃに Σ(￣ロ￣lll) orz
49

ngram <- subset(ngram, Freq>=4)
Network.R
出現頻度が4回以上のデータを抽出する。
共起関係にあるデータで、かつ、出現頻度が高い場合、
２つのワードには、関係性があると言える。
50

4 トトロメイ 4
5 メイ探索 4
6 探索お願い 1
8 カンタメイ 2
: : : :
51
整えた後のデータは、こんな感じ

Network.R
graph.data.frame()
バイグラムデータをグラフ表示用データに変換する。
52
igraphライブラリが提供する関数。
バイグラムデータ

番号Ｎグラム１Ｎグラム２出現頻度
4 トトロメイ 4
：：：：
番号グラフ情報
1 サツキ -> トトロ
2 トトロ -> メイ
3 カンタ -> サツキ
：：
変換
53
変換後のデータは、こんな感じになる

Network.R
plot() R言語の組み込み関数。
グラフ表示用データを使って、統計解析（ネットワーク図表示）する。
54
グラフデータのノード名
（トトロ、サツキなど）
ネットワーク図の
ノード（丸）のサイズ

55
表示されるデータは、こんな感じ

まとめ（おさえるべきポイント）
形態素解析を理解すること
テキストマイニング処理の流れを理解すること
文章を最小構成要素（形態素）に分解する技術（8ページ参照）。
R言語では、RMecabライブラリで実現できる。
56
流れは、以下の４段階（16～24ページ参照）。
形態素解析、Nグラム解析
データクレンジング（ノイズ除去）
並べ替え、抽出、分類分けなど
ワードクラウド、ネットワーク図など

参考文献
Rで学ぶ日本語テキストマイニング
石田基広・小林雄一郎著
みんなのR
データ分析と統計解析の新しい教科書
Jared P. Lander [著]
高柳慎一、牧山幸史、簑田高志 [訳]
Tokyo.R [協力]
57

さくっとはじめるテキストマイニング（R言語） スタートアップ編

More Related Content

What's hot

Viewers also liked

Similar to さくっとはじめるテキストマイニング（R言語） スタートアップ編

Recently uploaded