Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

テキストからのSNSユーザ位置推定手法と活用事例紹介

6,475 views

Published on

テキストからのSNSユーザ位置推定手法と活用事例紹介
〜twitterはエリアマーケティングに有効か〜

Published in: Engineering
  • Be the first to comment

テキストからのSNSユーザ位置推定手法と活用事例紹介

  1. 1. @arieee0 2015/03/21 1 テキストからのSNSユーザ 位置推定手法と活用事例紹介 ∼twitterはエリアマーケティングに有効か∼ 第44回 Tokyo Webmining
  2. 2. /39 自己紹介 2 @arieee0 「あり」 修士:データマイニング・自然言語処理 今後:春からEC企業でデータ分析職 データいじり( 分析)が好き! ex. 趣味で自分のデータを解析している 起床・就寝時刻,勉強時間,集中度,体重,英語勉強… 28項目を2年間記録し続けている
  3. 3. /39 自分のデータ分析 3 !10$ 0$ 10$ 20$ 30$ 40$ 50$ 2/20$ 2/27$ 3/5$ 3/12$ 3/19$ 3/26$ 4/2$ 4/9$ 4/16$ 4/23$ 4/30$ 5/7$ 5/14$ 5/21$ 5/28$ 6/4$ 6/11$ 6/18$ 6/25$ 7/2$ 7/9$ 7/16$ 7/23$ 7/30$ 8/6$ 8/13$ 8/20$ 8/27$ 9/3$ 9/10$ 9/17$ 9/24$ 春休みの 寝不足・勉強不足 研究室配属 学会論文提出 夏休み… 院試 sensprout 一日の評価関数を作って,一日の頑張りを可視化したり こういうグラフを見ると幸せな気持ちに
  4. 4. /39 アウトライン 4 ←詳しい部分 ←素人 ビジネス上での応用(使えそう or ここが問題 etc.) はぜひ議論させてください! • 従来のエリアマーケティング • twitterを用いたエリアマーケティング事例 • twitterエリアマーケティングにおける基礎技術 ‣ ユーザの属性推定 ‣ ユーザの位置推定
  5. 5. /39 従来のエリアマーケティング 統計情報 (人口・年代構成など)をベースに地域の特性 を理解し,地域に基づいたアクションを取る 5 例:コンビニ出店場所計画 半径750mの商圏内に競合店舗が なく,20-40代の人口が3000人 以上の地域を探索 他のアクション例としては,店舗サービス改良,地域限定 商品開発,観光施策,不動産活用など
  6. 6. /39 統計情報を用いた従来の エリアマーケティングの利点・欠点 6 ✔ 地域・人口カバー率,情報の正確性 ✘ 人々の移動・滞在情報 ex. 渋谷に買い物に来る人の特徴は? ✘ リアルタイム性 ex. 今年上野公園へお花見に来ている人の特徴は?
  7. 7. 7 モバイル位置情報データの利用 そこで、、
  8. 8. /39 様々な位置情報データ 8 • 携帯電話会社が提供するユーザ位置情報 • ナビアプリ等から取得するユーザ位置情報 • SNSの位置情報付き投稿を利用
  9. 9. /39 • 携帯電話会社が提供するユーザ位置情報 • ナビアプリ等から取得するユーザ位置情報 • SNSの位置情報付き投稿を利用 ex. モバイル空間統計 (docomo) • 全年代・地域をほぼカバー • 500m-1kmメッシュの現在地データ • 契約情報と照合させた信頼度の高いユーザ属性データ 良質データ!しかし,, * http://www.docomo.biz/html/service/spatial_statistics/ 様々な位置情報データ
  10. 10. /39 • 携帯電話会社が提供するユーザ位置情報 • ナビアプリ等から取得するユーザ位置情報 • SNSの位置情報付き投稿を利用 10 ex. google Now,NAVITIME for Japan ✔ アプリ内のユーザ設定等を活用して属性取得可 ✘ 本来の目的外でデータを利用したり,他者に提供するのは ユーザにメリットがなければ厳しい (必然的に自社アプリ) ✘ ある程度の規模のサービスでないとデータが十分収集で きない 様々な位置情報データ
  11. 11. /3911 ex. Twitterのgeotag (緯度経度情報)付きツイート ✔ オープンデータで誰でも利用 ✔ 投稿からユーザの趣味嗜好などを推定できる ✔ 口コミ情報を取得できる もっと活用されてもよい位置情報データ? 様々な位置情報データ • 携帯電話会社が提供するユーザ位置情報 • ナビアプリ等から取得するユーザ位置情報 • SNSの位置情報付き投稿を利用
  12. 12. /39 アウトライン • 従来のエリアマーケティング • twitterを用いたエリアマーケティング事例 • twitterエリアマーケティングにおける基礎技術 ‣ ユーザの属性推定 ‣ ユーザの位置推定 12
  13. 13. /39 エリアマーケティング情報提供会社 例: 株式会社ナイトレイ 13 横浜市観光イベント分析,野外音楽フェスのイベント効果分析, 商業施設の店舗開発,都市計画の意思決定のサポート • SNS投稿データ(twitter, foursquare?) を元にした,メッシュ単位 (250m ) ごとに訪れているユーザ情報・口コミ 情報を提供 • 休日平日&時間別集計 • カテゴリ別 (食事,買い物,旅行)集計 • 属性解析(性別,年齢,趣味嗜好)* http://nightley.jp/ 適用事例 提供データ
  14. 14. /3914*SNS等を利用した訪日外国人の意識分析 報告書(平成26年度)[観光庁] 訪日外国人への有効な観光施策の策定を目的に, twitter投稿から訪日外国人の興味関心を調査 twitter 処理フロー 日本に関連する 英語tweetの抽出 (134万人) 訪日に関するtweetを抽出 (GPS:0.4万人, 写真:2.4万人) 分析 事例1: 観光庁とNTTデータによる 訪日外国人観光客の意識分析
  15. 15. /3915*SNS等を利用した訪日外国人の意識分析 報告書(平成26年度)[観光庁] 訪日外国人への有効な観光施策の策定を目的に, twitter投稿から訪日外国人の興味関心を調査 twitter 処理フロー 訪日に関するtweetを抽出 (GPS:0.4万人, 写真:2.4万人) 分析 抽出条件:日本の地名(都道府県・主要都市)を含む 事例1: 観光庁とNTTデータによる 訪日外国人観光客の意識分析 日本に関連する 英語tweetの抽出 (134万人)
  16. 16. /3916*SNS等を利用した訪日外国人の意識分析 報告書(平成26年度)[観光庁] 訪日外国人への有効な観光施策の策定を目的に, twitter投稿から訪日外国人の興味関心を調査 twitter 処理フロー 訪日に関するtweetを抽出 (GPS:0.4万人, 写真:2.4万人) 分析 抽出条件:日本国内の緯度経度付き or 写真付き 事例1: 観光庁とNTTデータによる 訪日外国人観光客の意識分析 日本に関連する 英語tweetの抽出 (134万人)
  17. 17. /3917*SNS等を利用した訪日外国人の意識分析 報告書(平成26年度)[観光庁] 訪日外国人への有効な観光施策の策定を目的に, twitter投稿から訪日外国人の興味関心を調査 twitter 処理フロー 訪日に関するtweetを抽出 (GPS:0.4万人, 写真:2.4万人) 分析 場所ごとに共起しやすい単語や,「食べる」「見る」 などと関連が深い単語ランキングなどを調査 事例1: 観光庁とNTTデータによる 訪日外国人観光客の意識分析 日本に関連する 英語tweetの抽出 (134万人)
  18. 18. /39 調査結果(エリアごとの単語ランキング) 18 tweet人数 割合 単語 122 19.7% crossing 84 13.5% night tweet人数 割合 単語 16 19.7% anime 10 13.5% superpotato 10 10.8% maidcafe tweet人数 割合 単語 30 12.0% night 22 8.8% gyoen - - - 14 5.6% robotrestaurant 渋谷 (来訪者:620人) 秋葉原 (来訪者:93人) 新宿 (来訪者:249人) スクランブル交差点 レトロゲーム店, メイドカフェ
  19. 19. /39 事例2: 筆者による秩父観光客の調査実験 19 あの花!* *あの日見た花の名前を僕達はまだ知らない (2011年春に放送された秩父が舞台のいわゆるご当地アニメ) 秩父といえばもちろん,,,
  20. 20. /3920 • twitter投稿を用いてご当地アニメの影響度の可視化を試みる • リアルタイムな集計によりアニメの放映期間と秩父訪問者数と の連動を調査 • 集計はアニメを見て観光に訪れた聖地巡礼者か一般の観光客か をユーザの投稿内容を見て判定し,分別して行う 事例2: 筆者による秩父観光客の調査実験 概要
  21. 21. /39 処理フロー 21 ツイート中に以下のいずれかの表現を含む 1. [秩父の地名リスト] なう 2. I m at [秩父の地名リスト] 3. [秩父の地名リスト] (に・へ・まで)[来 た・到着した・着いた・いる etc.] 4. 秩父市内の緯度経度付きgeotagデータ アニメに関するキーワード・ハッシュタグを1回以上投稿 「あの花」「じんたん」「#anohana」等 秩父を訪問したかどうかの判定 (秩父訪問前に)アニメを視聴したかどうかの判定 twitter 時系列 で集計
  22. 22. /39 結果 22 0%# 10%# 20%# 30%# 40%# 50%# 60%# 70%# 80%# 90%# 100%# 0# 200# 400# 600# 800# 1000# 1200# 1400# 2011/4/1#2011/6/1#2011/8/1# 2011/10/1# 2011/12/1#2012/2/1#2012/4/1#2012/6/1#2012/8/1# 2012/10/1# 2012/12/1#2013/2/1#2013/4/1#2013/6/1#2013/8/1# 2013/10/1# 2013/12/1# (7 )# (7 )# (30 )# TV放映期間 劇場版公開 巡礼者の割合:徐々に低下 TV放映期間後,徐々に巡礼者の割合は減少 劇場版公開を前後して再び増加
  23. 23. /39 アウトライン • 従来のエリアマーケティング • twitterを用いたエリアマーケティング事例 • twitterエリアマーケティングにおける基礎技術 ‣ ユーザの属性推定 ‣ ユーザの位置推定 23
  24. 24. /39 エリアマーケティングに用いる場合における twitter投稿データの問題点 24 -> ユーザの投稿内容から属性・位置を推定しよう ユーザ属性情報がわからないことが多い • プロフィールに年齢や性別を記入しているユーザは少ない ユーザの位置情報付きのツイートもとても少ない • 全体の0.3%ほど
  25. 25. /39 属性・位置(居住地/現在地)推定方法 25 ルールベース 機械学習ベース 一人称が「俺」-> 男 終助詞が「わ」「の」-> 女 正解データを用意して,学習・推定する 性別: 位置: 地名辞典とのパターンマッチ 地名 + < なう/ (に) いる > など
  26. 26. /39 属性・位置(居住地・現在地)推定共通の 基本的流れ[機械学習ベース] 26 1. 正解データを用意する • 人手でアノテーションして作る(!) ‣ SVMで2値分類を行う際は,正例・負例ともに200件 あれば十分な精度が得られる [ + 14] • プロフィールやリストなどから自動的に判断し収集する ‣ 男子 , おやじ , ○○歳 , 会社員 など属性情報が プロフィールや被リスト名に含まれるユーザを自動収集 • 位置推定の場合,geotag付きツイートを正解データとして 流用できる
  27. 27. /3927 2. 分類問題として学習・推定を行う 性別: 男,女の2値分類 年代: 10代,20代,30代,40代の4クラス分類 職業: 「会社員」「それ以外」の2値分類, 「専業主婦」「それ以外」の2値分類…を繰り返す 位置: 47都道府県の47クラス分類,メッシュ単位で分類 次スライド以降ではこの中から位置推定に着目し, 基本的な論文を引用しながら具体的な手順について述べます 属性・位置(居住地・現在地)推定共通の 基本的流れ[機械学習ベース] 属性のクラス分割の一例
  28. 28. [Wing  &  Baldridge,  ACL  2011] Simple  supervised  document   geoloca?on  with  geodesic  grids 28
  29. 29. /3929 ✔緯度経度の間隔 (0.1 10 ) を開発データで適用 概要 地球の緯度経度で地域を分割し,位置情報付きツイートで 学習を行い,世界の英語使用者の居住地予測を行った研究 ✔セルの中心点をユーザの位置 として推定 ✔Bag of Wordsを素性に利用
  30. 30. /3930 手法 緯度経度により分割された地域 (セル) セルごとに文書 (BoW)を学習 位置情報付きツイートを 学習に利用
  31. 31. /3931 Retrieval from   which  cell? 手法 位置情報が付いていないツイート
  32. 32. /3932 represen6ng  point 位置情報が付いていないツイート Retrieval セルを決定し,ユーザ位置 を推定 (セルの中心地) 手法
  33. 33. /3933 Fine Coarse 地域分割における難しさ ✔ 推定地域が細かい ✘ 推定地域が粗い✘ 訓練データがスパース ✔ 訓練データが豊富 開発データで最適なグリッド間隔(0.1 10 )を 決定している
  34. 34. /39 Simple  Supervised  Model 34 1.  KL-­‐divergence  (論文中で最も良い結果) 2.  Naive  Bayes User   word  distribu6on Cell   word  distribu6on ユーザとセルの単語分布間の類似性を計算 最も類似しているセルを選択
  35. 35. /39 Experiment 35 Data Metrics Evalua6on 予測位置と実際の位置との誤差距離 [km] アメリカ本土内の9500ユーザから収集した38万件の 位置情報付きツイート 80 / 10 / 10 ロウンドロビン方式 (train,dev,test)
  36. 36. /39 Result 36 TwiHer 間隔  [°] 誤差中央値距離[km] KL-­‐divergence 5 479 Naive  Bayes 5 528 Cell  prior  maximum 0.1 726 Random 0.1 1217 proposed baseline ベースラインよりは良い精度だが 誤差中央値距離は479kmとかなり大きい
  37. 37. /39 cf. 筆者の研究結果 37 日本国内の日本語位置情報付きツイートデータ (約690万件)を 用いて,行政区分レベルで現在位置推定 (注意)データと推定粒度(居住地/現在地)が違うので先ほどの研究と単純な比較はできません. 分類精度の感覚をつかんでいただけたらと思います. 推定レベル ラベル数 分類精度[%] 誤差中央値距離[km] 都道府県 47 52.0 24.9 市区 962 20.2 52.5 (*) 過去の投稿を活用したマイクロブログユーザの現在位置推定[鈴木+ 15]
  38. 38. /39 この基本形からの涙ぐましい種々の工夫たち そして位置推定の闇の世界へ… 38 adap?ve  grid  [Roller+  ‘12] 訓練データ数を均等に分けるために 地域区分を適応的に変更 tweet  genera?ve  model    [Hong+  ‘12] ツイート生成 モデルを構築 潜在変数とし て地域を推定 過去の投稿内容や 係り受け関係にある動詞等 を素性として利用 [鈴木+ 15] 興味がある方は懇親会中にでも!
  39. 39. /39 まとめ • 投稿からユーザの趣味嗜好などの情報を得られる twitterを用いたエリアマーケティングは有用 • 現状では観光施策などを中心に用いられている模様 • 属性などの情報や位置情報の不足は機械学習によっ て部分的に推定することができる 39 ビジネス面,手法面等のさまざまな意見をお待ちして おります!

×