Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
RでTwitter
テキストマイニング
⽇日本⼤大学経済学部3年年 新保 雄⼤大
全43ページああ
プログラム 2
分析
⽅方法
理理由
⽬目的
内容
結果
データ説明
まとめ
3
分析
⽅方法
理理由
⽬目的
内容
結果
データ説明
まとめ
分析の内容
媒体
Twitterキーワード検索索
キーワード案
スターバックス
4
5
分析
⽅方法
理理由
⽬目的
内容
結果
データ説明
まとめ
分析の理理由
なぜTwitter?
⾃自分たちにとって⾝身近なツール
オープンソースのビッグデータ
なぜスターバックス?
ゼミでも触れた
わかりやすい結果が出そう
6
ここでちょっと⽤用語解説1
オープンソースとは?
設計図にあたるソースコードが公開
誰でも改良良、再配布ができる
ビッグデータとは?
データベース管理理システムで記録
保管、管理理が難しい巨⼤大なデータ
7
8
分析
⽅方法
理理由
⽬目的
内容
結果
データ説明
まとめ
分析の⽬目的
ゼミで学習した経験経済と
代表例例のスターバックスに
実際にどんな関係があるのか、
顧客は提供されるCXを
感じ取れているのかを検証
9
仮説1
取得tweet
画像付きツイートが多そう
分析データ
商品の品質<⾏行行った事実、感想
10
11
分析
⽅方法
理理由
⽬目的
内容
結果
データ説明
まとめ
分析の⽅方法 12
データ
収集
分析
R
TwitteR
Mecab
Twitter
( )
ここでちょっと⽤用語解説2
Rとは?
統計解析ソフト
基本的な統計分析が全て可能
オープンソース
パッケージの導⼊入が可能
ex.)twitteR、ROAuth...
13
14
分析
⽅方法
理理由
⽬目的
内容
結果
データ説明
まとめ
データを取得する前に
検索索ワードの決定
Google AdWordsのキーワードプランナー
調査期間の総ツイート数
これらの結果から決定する
15
ここでちょっと⽤用語解説3
キーワードプランナーとは?
⽉月間の検索索数や競合性、
広告単価を調査
無料料で使えSEO対策に有効
SEOとは?
検索索エンジン最適化
検索索で上位に現れるようにする
16
キーワードプランナーデータ1 17
0 200000 400000 600000 800000
スタバ
スターバックス
検索索ボリューム
seed
キ
ワ
ド
キーワードプランナーデータ2 18
0 50000 100000 150000 200000
スタバ メニュー
コーヒー
カフェ
バリスタ
タンブラー
ドトール メニュー
スタバ タンブラー
カプチーノ
喫茶茶店
エスプレッソ
検索索ボリューム...
仮説2
キーワードプランナー
tweet数:スタバ>スターバックス
データ2で出てきた共起キーワード
が抽出語上位に来る
19
Twitterデータ
期間
8/1〜~8/31
tweet数
491,633
画像付きtweet数
142,525
20
Twitterデータ
標本
全取得ツイートからランダムで抽出
n=N/(1+(N-­‐1)*e^2/(Z^2*P*(1-­‐P)))
信頼度度95%、nは最⼤大
→N=431633,e=0.01,Z=1.96,P=0.5
→n≧9,420であれ...
Twitterデータ
前処理理にかける前に
ExcelのCLEAN関数を使って、
セル内の改⾏行行を消去する。
→前処理理を⾏行行う段階でエラーとして
カウントされてしまうため、
処理理時間が増加してしまう。
全てが読み込まれない可能性有
22
23
分析
⽅方法
理理由
⽬目的
内容
結果
データ説明
まとめ
Database Stats
総抽出語数(使⽤用)
288,741(148,292)
異異なり語数(使⽤用)
19,730(18,361)
⽂文書の単純集計
⽂文:1,063,376
段落落:10,838
24
スタバとの頻出共起ワード
名詞ースタバの何?
形容詞ースタバの何がどう?
動詞ースタバで何を?
副詞ースタバで何をどう?
形容動詞ースタバがどう?
25
抽出語〜~名詞〜~ 26
抽出語〜~名詞〜~ 27
抽出語〜~形容詞〜~ 28
0 100 200 300 400 500 600 700
美味しい…
ない
いい
可愛い
⾼高い
よい
⽢甘い
楽しい
かわいい
やばい
良良い
すごい
いい
よい
寒い
新しい
うまい
嬉しい
優しい
無い
抽出語〜~形容詞〜~ 29
抽出語〜~動詞〜~ 30
抽出語〜~動詞〜~ 31
抽出語〜~副詞〜~ 32
抽出語〜~副詞〜~ 33
抽出語〜~形容動詞〜~ 34
抽出語〜~形容動詞〜~ 35
コーヒーチェーンランキング 36
⼤大学⽣生がよく⾏行行くコーヒーチェーン
スターバックス ドトールコーヒー タリーズコーヒー
コメダ珈琲 サンマルク カフェ・ド・クリエ
2014年年9⽉月 回答者数446⼈人
タダコピアプリ調べ
ツイートネガポジ割合⽐比較 37
スターバックス ドトールコーヒー
Negative
18%
Positive
52%
Negative
23%
Positive
35%
タリーズコーヒー コメダ珈琲
Negative
13%
Positive...
画像付きツイート割合 38
スターバックス ドトールコーヒー
142,525
491,633
29.0%
7,126
70,932
10.0%
タリーズコーヒー コメダ珈琲
7,431
38,630
19.2%
20,955
86,198
24...
プログラム 39
分析
⽅方法
理理由
⽬目的
内容
結果
データ説明
まとめ
仮説1〜~おさらい〜~
取得tweet
画像付きツイートが多そう
分析データ
商品の品質<⾏行行った事実、感想
40
仮説2〜~おさらい〜~
キーワードプランナー
tweet数:スタバ>スターバックス
データ2で出てきた共起キーワード
が抽出語上位に来る
41
結果
仮説1
画像付きツイート数(No.38)
→他店よりも圧倒的に多い
ツイート内容(No.26〜~35)
→品質も多いが、感想もかなり多く⾒見見られる
仮説2
ツイート数(No.20)
→スタバ>スターバックスは正しい
共起キーワード(No...
まとめ
ツイートの頻出共起ワードや画像付きツイート
の多さから、CXを顧客が受け取っており、
よいブランドイメージがあることがわかる。
商品などと同様に店員が注⽬目されていることから
店員のCX創造⼒力力・ホスピタリティが重要となる。
43
Upcoming SlideShare
Loading in …5
×

RでTwitterテキストマイニング

3,958 views

Published on

2015年9月のゼミ夏合宿でプレゼンをした資料です。
Rと言う統計ソフトを用い「スタバ」を含むTweetを取得し、スターバックスにおける「経験経済」について考察しています。
初めてテキストマイニングを行ったため、至らぬ点も多いとは思いますが、ご了承いただければと思います。

Published in: Data & Analytics
  • DOWNLOAD THIS BOOKS INTO AVAILABLE FORMAT (Unlimited) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download Full EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ACCESS WEBSITE for All Ebooks ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

RでTwitterテキストマイニング

  1. 1. RでTwitter テキストマイニング ⽇日本⼤大学経済学部3年年 新保 雄⼤大 全43ページああ
  2. 2. プログラム 2 分析 ⽅方法 理理由 ⽬目的 内容 結果 データ説明 まとめ
  3. 3. 3 分析 ⽅方法 理理由 ⽬目的 内容 結果 データ説明 まとめ
  4. 4. 分析の内容 媒体 Twitterキーワード検索索 キーワード案 スターバックス 4
  5. 5. 5 分析 ⽅方法 理理由 ⽬目的 内容 結果 データ説明 まとめ
  6. 6. 分析の理理由 なぜTwitter? ⾃自分たちにとって⾝身近なツール オープンソースのビッグデータ なぜスターバックス? ゼミでも触れた わかりやすい結果が出そう 6
  7. 7. ここでちょっと⽤用語解説1 オープンソースとは? 設計図にあたるソースコードが公開 誰でも改良良、再配布ができる ビッグデータとは? データベース管理理システムで記録 保管、管理理が難しい巨⼤大なデータ 7
  8. 8. 8 分析 ⽅方法 理理由 ⽬目的 内容 結果 データ説明 まとめ
  9. 9. 分析の⽬目的 ゼミで学習した経験経済と 代表例例のスターバックスに 実際にどんな関係があるのか、 顧客は提供されるCXを 感じ取れているのかを検証 9
  10. 10. 仮説1 取得tweet 画像付きツイートが多そう 分析データ 商品の品質<⾏行行った事実、感想 10
  11. 11. 11 分析 ⽅方法 理理由 ⽬目的 内容 結果 データ説明 まとめ
  12. 12. 分析の⽅方法 12 データ 収集 分析 R TwitteR Mecab Twitter ( )
  13. 13. ここでちょっと⽤用語解説2 Rとは? 統計解析ソフト 基本的な統計分析が全て可能 オープンソース パッケージの導⼊入が可能 ex.)twitteR、ROAuth... 13
  14. 14. 14 分析 ⽅方法 理理由 ⽬目的 内容 結果 データ説明 まとめ
  15. 15. データを取得する前に 検索索ワードの決定 Google AdWordsのキーワードプランナー 調査期間の総ツイート数 これらの結果から決定する 15
  16. 16. ここでちょっと⽤用語解説3 キーワードプランナーとは? ⽉月間の検索索数や競合性、 広告単価を調査 無料料で使えSEO対策に有効 SEOとは? 検索索エンジン最適化 検索索で上位に現れるようにする 16
  17. 17. キーワードプランナーデータ1 17 0 200000 400000 600000 800000 スタバ スターバックス 検索索ボリューム seed キ ワ ド
  18. 18. キーワードプランナーデータ2 18 0 50000 100000 150000 200000 スタバ メニュー コーヒー カフェ バリスタ タンブラー ドトール メニュー スタバ タンブラー カプチーノ 喫茶茶店 エスプレッソ 検索索ボリューム 共 起 キ ワ ド
  19. 19. 仮説2 キーワードプランナー tweet数:スタバ>スターバックス データ2で出てきた共起キーワード が抽出語上位に来る 19
  20. 20. Twitterデータ 期間 8/1〜~8/31 tweet数 491,633 画像付きtweet数 142,525 20
  21. 21. Twitterデータ 標本 全取得ツイートからランダムで抽出 n=N/(1+(N-­‐1)*e^2/(Z^2*P*(1-­‐P))) 信頼度度95%、nは最⼤大 →N=431633,e=0.01,Z=1.96,P=0.5 →n≧9,420であれば条件を満たす 21
  22. 22. Twitterデータ 前処理理にかける前に ExcelのCLEAN関数を使って、 セル内の改⾏行行を消去する。 →前処理理を⾏行行う段階でエラーとして カウントされてしまうため、 処理理時間が増加してしまう。 全てが読み込まれない可能性有 22
  23. 23. 23 分析 ⽅方法 理理由 ⽬目的 内容 結果 データ説明 まとめ
  24. 24. Database Stats 総抽出語数(使⽤用) 288,741(148,292) 異異なり語数(使⽤用) 19,730(18,361) ⽂文書の単純集計 ⽂文:1,063,376 段落落:10,838 24
  25. 25. スタバとの頻出共起ワード 名詞ースタバの何? 形容詞ースタバの何がどう? 動詞ースタバで何を? 副詞ースタバで何をどう? 形容動詞ースタバがどう? 25
  26. 26. 抽出語〜~名詞〜~ 26
  27. 27. 抽出語〜~名詞〜~ 27
  28. 28. 抽出語〜~形容詞〜~ 28 0 100 200 300 400 500 600 700 美味しい… ない いい 可愛い ⾼高い よい ⽢甘い 楽しい かわいい やばい 良良い すごい いい よい 寒い 新しい うまい 嬉しい 優しい 無い
  29. 29. 抽出語〜~形容詞〜~ 29
  30. 30. 抽出語〜~動詞〜~ 30
  31. 31. 抽出語〜~動詞〜~ 31
  32. 32. 抽出語〜~副詞〜~ 32
  33. 33. 抽出語〜~副詞〜~ 33
  34. 34. 抽出語〜~形容動詞〜~ 34
  35. 35. 抽出語〜~形容動詞〜~ 35
  36. 36. コーヒーチェーンランキング 36 ⼤大学⽣生がよく⾏行行くコーヒーチェーン スターバックス ドトールコーヒー タリーズコーヒー コメダ珈琲 サンマルク カフェ・ド・クリエ 2014年年9⽉月 回答者数446⼈人 タダコピアプリ調べ
  37. 37. ツイートネガポジ割合⽐比較 37 スターバックス ドトールコーヒー Negative 18% Positive 52% Negative 23% Positive 35% タリーズコーヒー コメダ珈琲 Negative 13% Positive 54% Negative 14% Positive 59% サンマルクカフェ カフェ・ド・クリエ Negative 15% Positive 58% Negative 16% Positive 49% ※Yahooリアルタイムより抜粋
  38. 38. 画像付きツイート割合 38 スターバックス ドトールコーヒー 142,525 491,633 29.0% 7,126 70,932 10.0% タリーズコーヒー コメダ珈琲 7,431 38,630 19.2% 20,955 86,198 24.3% サンマルクカフェ カフェ・ド・クリエ 3,860 18,969 20.3% 104 585 17.8% ※Yahooリアルタイムより抜粋
  39. 39. プログラム 39 分析 ⽅方法 理理由 ⽬目的 内容 結果 データ説明 まとめ
  40. 40. 仮説1〜~おさらい〜~ 取得tweet 画像付きツイートが多そう 分析データ 商品の品質<⾏行行った事実、感想 40
  41. 41. 仮説2〜~おさらい〜~ キーワードプランナー tweet数:スタバ>スターバックス データ2で出てきた共起キーワード が抽出語上位に来る 41
  42. 42. 結果 仮説1 画像付きツイート数(No.38) →他店よりも圧倒的に多い ツイート内容(No.26〜~35) →品質も多いが、感想もかなり多く⾒見見られる 仮説2 ツイート数(No.20) →スタバ>スターバックスは正しい 共起キーワード(No.18) →完全には⼀一致しないが、ニュアンスは同じ 42
  43. 43. まとめ ツイートの頻出共起ワードや画像付きツイート の多さから、CXを顧客が受け取っており、 よいブランドイメージがあることがわかる。 商品などと同様に店員が注⽬目されていることから 店員のCX創造⼒力力・ホスピタリティが重要となる。 43

×