RでTwitter
テキストマイニング
⽇日本⼤大学経済学部3年年 新保 雄⼤大
全43ページああ
プログラム 2
分析
⽅方法
理理由
⽬目的
内容
結果
データ説明
まとめ
3
分析
⽅方法
理理由
⽬目的
内容
結果
データ説明
まとめ
分析の内容
媒体
Twitterキーワード検索索
キーワード案
スターバックス
4
5
分析
⽅方法
理理由
⽬目的
内容
結果
データ説明
まとめ
分析の理理由
なぜTwitter?
⾃自分たちにとって⾝身近なツール
オープンソースのビッグデータ
なぜスターバックス?
ゼミでも触れた
わかりやすい結果が出そう
6
ここでちょっと⽤用語解説1
オープンソースとは?
設計図にあたるソースコードが公開
誰でも改良良、再配布ができる
ビッグデータとは?
データベース管理理システムで記録
保管、管理理が難しい巨⼤大なデータ
7
8
分析
⽅方法
理理由
⽬目的
内容
結果
データ説明
まとめ
分析の⽬目的
ゼミで学習した経験経済と
代表例例のスターバックスに
実際にどんな関係があるのか、
顧客は提供されるCXを
感じ取れているのかを検証
9
仮説1
取得tweet
画像付きツイートが多そう
分析データ
商品の品質<⾏行行った事実、感想
10
11
分析
⽅方法
理理由
⽬目的
内容
結果
データ説明
まとめ
分析の⽅方法 12
データ
収集
分析
R
TwitteR
Mecab
Twitter
( )
ここでちょっと⽤用語解説2
Rとは?
統計解析ソフト
基本的な統計分析が全て可能
オープンソース
パッケージの導⼊入が可能
ex.)twitteR、ROAuth...
13
14
分析
⽅方法
理理由
⽬目的
内容
結果
データ説明
まとめ
データを取得する前に
検索索ワードの決定
Google AdWordsのキーワードプランナー
調査期間の総ツイート数
これらの結果から決定する
15
ここでちょっと⽤用語解説3
キーワードプランナーとは?
⽉月間の検索索数や競合性、
広告単価を調査
無料料で使えSEO対策に有効
SEOとは?
検索索エンジン最適化
検索索で上位に現れるようにする
16
キーワードプランナーデータ1 17
0 200000 400000 600000 800000
スタバ
スターバックス
検索索ボリューム
seed
キ
ワ
ド
キーワードプランナーデータ2 18
0 50000 100000 150000 200000
スタバ メニュー
コーヒー
カフェ
バリスタ
タンブラー
ドトール メニュー
スタバ タンブラー
カプチーノ
喫茶茶店
エスプレッソ
検索索ボリューム
共
起
キ
ワ
ド
仮説2
キーワードプランナー
tweet数:スタバ>スターバックス
データ2で出てきた共起キーワード
が抽出語上位に来る
19
Twitterデータ
期間
8/1〜~8/31
tweet数
491,633
画像付きtweet数
142,525
20
Twitterデータ
標本
全取得ツイートからランダムで抽出
n=N/(1+(N-­‐1)*e^2/(Z^2*P*(1-­‐P)))
信頼度度95%、nは最⼤大
→N=431633,e=0.01,Z=1.96,P=0.5
→n≧9,420であれば条件を満たす
21
Twitterデータ
前処理理にかける前に
ExcelのCLEAN関数を使って、
セル内の改⾏行行を消去する。
→前処理理を⾏行行う段階でエラーとして
カウントされてしまうため、
処理理時間が増加してしまう。
全てが読み込まれない可能性有
22
23
分析
⽅方法
理理由
⽬目的
内容
結果
データ説明
まとめ
Database Stats
総抽出語数(使⽤用)
288,741(148,292)
異異なり語数(使⽤用)
19,730(18,361)
⽂文書の単純集計
⽂文:1,063,376
段落落:10,838
24
スタバとの頻出共起ワード
名詞ースタバの何?
形容詞ースタバの何がどう?
動詞ースタバで何を?
副詞ースタバで何をどう?
形容動詞ースタバがどう?
25
抽出語〜~名詞〜~ 26
抽出語〜~名詞〜~ 27
抽出語〜~形容詞〜~ 28
0 100 200 300 400 500 600 700
美味しい…
ない
いい
可愛い
⾼高い
よい
⽢甘い
楽しい
かわいい
やばい
良良い
すごい
いい
よい
寒い
新しい
うまい
嬉しい
優しい
無い
抽出語〜~形容詞〜~ 29
抽出語〜~動詞〜~ 30
抽出語〜~動詞〜~ 31
抽出語〜~副詞〜~ 32
抽出語〜~副詞〜~ 33
抽出語〜~形容動詞〜~ 34
抽出語〜~形容動詞〜~ 35
コーヒーチェーンランキング 36
⼤大学⽣生がよく⾏行行くコーヒーチェーン
スターバックス ドトールコーヒー タリーズコーヒー
コメダ珈琲 サンマルク カフェ・ド・クリエ
2014年年9⽉月 回答者数446⼈人
タダコピアプリ調べ
ツイートネガポジ割合⽐比較 37
スターバックス ドトールコーヒー
Negative
18%
Positive
52%
Negative
23%
Positive
35%
タリーズコーヒー コメダ珈琲
Negative
13%
Positive
54%
Negative
14%
Positive
59%
サンマルクカフェ カフェ・ド・クリエ
Negative
15%
Positive
58%
Negative
16%
Positive
49%
※Yahooリアルタイムより抜粋
画像付きツイート割合 38
スターバックス ドトールコーヒー
142,525
491,633
29.0%
7,126
70,932
10.0%
タリーズコーヒー コメダ珈琲
7,431
38,630
19.2%
20,955
86,198
24.3%
サンマルクカフェ カフェ・ド・クリエ
3,860
18,969
20.3%
104
585
17.8%
※Yahooリアルタイムより抜粋
プログラム 39
分析
⽅方法
理理由
⽬目的
内容
結果
データ説明
まとめ
仮説1〜~おさらい〜~
取得tweet
画像付きツイートが多そう
分析データ
商品の品質<⾏行行った事実、感想
40
仮説2〜~おさらい〜~
キーワードプランナー
tweet数:スタバ>スターバックス
データ2で出てきた共起キーワード
が抽出語上位に来る
41
結果
仮説1
画像付きツイート数(No.38)
→他店よりも圧倒的に多い
ツイート内容(No.26〜~35)
→品質も多いが、感想もかなり多く⾒見見られる
仮説2
ツイート数(No.20)
→スタバ>スターバックスは正しい
共起キーワード(No.18)
→完全には⼀一致しないが、ニュアンスは同じ
42
まとめ
ツイートの頻出共起ワードや画像付きツイート
の多さから、CXを顧客が受け取っており、
よいブランドイメージがあることがわかる。
商品などと同様に店員が注⽬目されていることから
店員のCX創造⼒力力・ホスピタリティが重要となる。
43

RでTwitterテキストマイニング