SlideShare a Scribd company logo
1 of 21
テキストマイニング with R
2014/12/26
株式会社クインテット 藤巻 亮介
さて、この作品はなんでしょう?
2
じゃあ、この作品は?
3
最初のスライドは太宰治の”走れメロス”を、
2枚目のスライドは夏目漱石の”こころ”を
それぞれ形態素解析したものである
4
形態素解析って?
5
文を形態素という最小の意味(単語)に分割し、
各形態素を原型に復元し、品詞を付与する処理
6
「今日のLTはめちゃくちゃ緊張するぜ!」
↓
「今日 / の / LT / は / めちゃくちゃ / 緊張 / する / ぜ / !」
「名詞」 「助詞」「名詞」「助詞」 「名詞」 「名詞」 「動詞」 「助詞」「名詞」
形態素解析はテキスト
マイニングの第一歩です!
7
ん、テキストマイニング?
8
テキストマイニングとは?
9
● 定型化されていないテキストを自然言語解析し、統
計学、機械学習を用いて有用な情報を取り出すため
の技術の総称
● ブログや掲示板など定型化されていないものを対象
とするため、分析できるデータの範囲が広い
プログラムで実装してみよう!
10
11
でやりま
す!
● 統計解析用のプログラミング言語
● オープンソース・フリーソフトウェア
● 優れたグラフィックス機能を持つので、データの視覚
化が素晴らしい!
● 様々なパッケージが公開されている!
12
とは?
計算得意!
13
作図も一瞬!
> plot(UKgas)
14
形態素解析してみる
● 単純に形態素解析をかけただけ
なので、様々なノイズが乗って
いる状態
● 出てくる頻度(Freq)でソートした
ほうがよさそう
15
形態素解析してみる
● やっぱり、文を区切る句読点と、
助詞が多い。
● けど、解析する上でそのふたつ
はいらなくない?
● とりあえず名詞だけ抽出してみ
よう
16
形態素解析してみる
● 名詞だけ抜き取ると、この単語
だけで何の作品か分かる人には
分かるっぽいな!
17
まとめ
テキストマイニングの流れは次のようにまとめられる
1. 自然言語処理によって、テキストを解析する
2. データをクリーニングする
3. データを要約する
4. 統計的なアプローチによりデータをマイニングする
5. 結果を検証し、評価する
18
まとめ
テキストマイニングの流れは次のようにまとめられる
1. 自然言語処理によって、テキストを解析する
2. データをクリーニングする
3. データを要約する
4. 統計的なアプローチによりデータをマイニングする
5. 結果を検証し、評価する
19
今回はここだけRでやってみました!
今後の展望
口コミ広場の投稿評価(サクラかどうか)などを自動的に
判別できるようなものに発展させられればと思っています
20
21
終わり

More Related Content

Viewers also liked

Apache Mahout - Random Forests - #TokyoWebmining #8
Apache Mahout - Random Forests - #TokyoWebmining #8 Apache Mahout - Random Forests - #TokyoWebmining #8
Apache Mahout - Random Forests - #TokyoWebmining #8 Koichi Hamada
 
RでTwitterテキストマイニング
RでTwitterテキストマイニングRでTwitterテキストマイニング
RでTwitterテキストマイニングYudai Shinbo
 
Sakuteki02 yokkuns
Sakuteki02 yokkunsSakuteki02 yokkuns
Sakuteki02 yokkunsYohei Sato
 
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションantibayesian 俺がS式だ
 
20161029 TVI Tokyowebmining Seminar for Share
20161029 TVI Tokyowebmining Seminar for Share20161029 TVI Tokyowebmining Seminar for Share
20161029 TVI Tokyowebmining Seminar for ShareYasushi Gunya
 
西野カナの歌詞をテキストマイニング
西野カナの歌詞をテキストマイニング西野カナの歌詞をテキストマイニング
西野カナの歌詞をテキストマイニング江上 ゼミナール
 
20130727 ソシャゲkpi分析 tokyowebmining28_izawa_up
20130727 ソシャゲkpi分析 tokyowebmining28_izawa_up20130727 ソシャゲkpi分析 tokyowebmining28_izawa_up
20130727 ソシャゲkpi分析 tokyowebmining28_izawa_up正志 井澤
 
計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)Shota Yasui
 
オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京
オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京
オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京Koichi Hamada
 
さくっとはじめるテキストマイニング(R言語)  スタートアップ編
さくっとはじめるテキストマイニング(R言語)  スタートアップ編さくっとはじめるテキストマイニング(R言語)  スタートアップ編
さくっとはじめるテキストマイニング(R言語)  スタートアップ編Yutaka Shimada
 
R による文書分類入門
R による文書分類入門R による文書分類入門
R による文書分類入門Takeshi Arabiki
 

Viewers also liked (12)

Apache Mahout - Random Forests - #TokyoWebmining #8
Apache Mahout - Random Forests - #TokyoWebmining #8 Apache Mahout - Random Forests - #TokyoWebmining #8
Apache Mahout - Random Forests - #TokyoWebmining #8
 
Introduction of RMeCab
Introduction of RMeCabIntroduction of RMeCab
Introduction of RMeCab
 
RでTwitterテキストマイニング
RでTwitterテキストマイニングRでTwitterテキストマイニング
RでTwitterテキストマイニング
 
Sakuteki02 yokkuns
Sakuteki02 yokkunsSakuteki02 yokkuns
Sakuteki02 yokkuns
 
さくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッションさくさくテキストマイニング入門セッション
さくさくテキストマイニング入門セッション
 
20161029 TVI Tokyowebmining Seminar for Share
20161029 TVI Tokyowebmining Seminar for Share20161029 TVI Tokyowebmining Seminar for Share
20161029 TVI Tokyowebmining Seminar for Share
 
西野カナの歌詞をテキストマイニング
西野カナの歌詞をテキストマイニング西野カナの歌詞をテキストマイニング
西野カナの歌詞をテキストマイニング
 
20130727 ソシャゲkpi分析 tokyowebmining28_izawa_up
20130727 ソシャゲkpi分析 tokyowebmining28_izawa_up20130727 ソシャゲkpi分析 tokyowebmining28_izawa_up
20130727 ソシャゲkpi分析 tokyowebmining28_izawa_up
 
計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)計量経済学と 機械学習の交差点入り口 (公開用)
計量経済学と 機械学習の交差点入り口 (公開用)
 
オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京
オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京
オープニングトーク - 創設の思い・目的・進行方針  -データマイニング+WEB勉強会@東京
 
さくっとはじめるテキストマイニング(R言語)  スタートアップ編
さくっとはじめるテキストマイニング(R言語)  スタートアップ編さくっとはじめるテキストマイニング(R言語)  スタートアップ編
さくっとはじめるテキストマイニング(R言語)  スタートアップ編
 
R による文書分類入門
R による文書分類入門R による文書分類入門
R による文書分類入門
 

text_mining_with_R