Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Arai m

599 views

Published on

  • Be the first to comment

  • Be the first to like this

Arai m

  1. 1. 2011年度 複合情報学専攻 修士論文発表会 Twitterに基づく社会動向調査に 向けたユーザプロファイルの推定 Estimation of User Profile for General Social Survey based on Twitter 北海道大学 大学院情報科学研究科 複合情報学専攻 複雑系工学講座 調和系工学研究室 修士2年 新井 雅也
  2. 2. 本研究の概要 ・低コストで頻繁に調査可能 Twitterによる 動向調査 ・変動を抽出しやすい 動向調査 課題男性 ユーザプロファイル ユーザプロファイルの獲得 ・性別: 男性・女性 提案手法 ・居住地域: 札幌・大阪…女性 ・年齢: 10代, 20代… ツイートからキーワードの抽出 ・職業: サラリーマン・学生… ・趣味: 旅行・ピアノ… ・学歴: 高卒・大卒… プロファイルの推定 評価実験 5万人分の 性別 2値 85%以上 プロファイル 居住地域 10都市 80%以上
  3. 3. 社会動向調査におけるユーザプロファイルの重要性社会動向調査 ユーザプロファイル ・性別: 男性・女性 gooリサーチ ・居住地域: 札幌・大阪… 楽天リサーチなど ・年齢: 10代, 20代… 例) 生涯学習活動や文化・ ・職業: サラリーマン・学生… スポーツ活動を充実させる ・趣味: 旅行・ピアノ… ために必要なこと ・学歴: 高卒・大卒…
  4. 4. Twitterにおける社会調査の既存研究と利点Twitterにおける既存の 研 究 環境 あるユーザの発言 教育 心理テストにおけるスコアの推移 工業平均株価の推移グラフ 株 政治 スコア 金融 価 時刻 時刻 tf・idfによる 会社 重み付け 旅行 ほぼ一致 自然Twitter 映画 時刻 ストリーム上の発言を用いた株式市場の予測 Twitterに基づくユーザのモデル化 [J.Bollen et al, 2009] [K.Tao et al, 2011] トレンド分析にとどまっており、 ユーザプロファイルの推定に関する研究は1件のみ本研究の目的 ユーザプロファイルを推定するためのアルゴリズムを構築
  5. 5. Twitter内から直接取得可能な ユーザプロファイルの割合本研究で収集できたTwitterユーザ約173万人のうち、ロケーション データとユーザ説明文で性別と居住地域を判断できるユーザ数 居住地域の内訳 東京 性別の内訳 大阪 埼玉 横浜 不明 京都 男性 千葉 福岡 98.2% 女性 61.1% 名古屋 札幌 その他市町村 不明 全体のわずか 1.8% 全体の39.9% 不明ユーザのプロファイルを推定することが重要
  6. 6. ツイート内容に基づく ユーザプロファイルの推定 ロケーション データ ユーザ説明文 WebURL ツイート数 フォロー数 Twitterで得られる文章の構造が曖昧 フォロワー数 →従来のテキストマイニング手法が適切に利用できない R.Feldman , J.Sanger, 辻井潤一, IBM東京基礎研究所: テキストマイニングハンドブックより ツイート内容 ツイート時刻 キーワードを用いたアプローチ コーパスに基づいた文書内に現れる特徴の分類 [G.Laboreiro et al, 2010]関連研究 キーワードを利用したツイート内の感情表現抽出と曖昧な表現の解消 [S.Brody et al, 2011]ユーザプロファイル推定に関する関連研究 TwitterにおけるSVMを用いたプロファイルの推定 [D.Rao et al, 2010]
  7. 7. ベイズの定理を用いたキーワードの抽出 札幌にある フリースペース居住地域「札幌」に対する名詞「ATTIC」の重み: 事後確率で定義 ベイズの定理より算出 P札幌 P ATTIC | 札幌 P札幌 | ATTIC    P j  P ATTIC | j  j{札 幌,東 京,} P札幌  札幌に居住しているユーザのツイート総数 全ユーザのツイート総数 P ATTIC | 札幌  全地域に居住しているユーザのツイートに出現する「ATTIC」の数 札幌に居住しているユーザのツイートに出現する「ATTIC」の数出現する全ての名詞に対し重みを計算し、高いものから順にキーワードとして抽出
  8. 8. ベイズの定理から算出された 性別と居住地域に対するキーワードとその重み 利用するデータ 性別が男性であるユーザ 性別が女性であるユーザ ツイート収集期間 キーワード 重み キーワード 重み 2011/6 – 2012/1 俺 0.836 旦那 0.973 一人当たりのツイート数 バイク 0.710 あたし 0.896 3200ツイート お前 0.634 肌 0.861 性別:対象ユーザ数 ギター 0.634 赤ちゃん 0.853 1000人 (500 × 2) 居住地域:対象ユーザ数 サッカー 0.629 化粧 0.827 5000人 (500 × 10) ぼく 0.625 ランチ 0.787札幌に居住しているユーザ 東京に居住しているユーザ 千葉に居住しているユーザ キーワード 重み キーワード 重み キーワード 重み OYOYO 0.981 玉川 0.641 千葉大学 0.887 ATTIC 0.972 shibuya 0.627 稲毛海岸 0.885 ノースウェーブ 0.914 板橋 0.609 chiba 0.860 丘珠 0.903 早稲田大学 0.601 花見川 0.841 コアックマ 0.896 西新井 0.519 稲毛 0.838 サンピアザ 0.887 武蔵境 0.517 印西 0.827
  9. 9. キーワードを考慮した ユーザプロファイルの推定手法 (1/2)札幌に居住しているユーザの 東京に居住しているユーザの 千葉に居住しているユーザの キーワード群 キーワード群 キーワード群 キーワード キーワード キーワード OYOYO 玉川 千葉大学 ATTIC shibuya 稲毛海岸 ノースウェーブ 板橋 chiba 丘珠 早稲田大学 花見川 コアックマ 西新井 稲毛 サンピアザ 武蔵境 印西 ユーザの特徴ベクトルの定義 K  wOYOYO , wATTIC , w玉川, 「OYOYO」の出現回数札幌に居住しているユーザ 全キーワードの出現回数 K g1  0.6, 0.5, 0.03, 推定対象となるユーザ Ku1  0.4, 0.3, 0.01,
  10. 10. キーワードを考慮した ユーザプロファイルの推定手法 (2/2)札幌に居住しているユーザ 推定対象となるユーザ K g1  0.6, 0.5, 0.03, Ku1  0.4, 0.3, 0.01, m w  wkl g j   k l ui東京に居住しているユーザ SIM K ui , K g j  l 1 m m w l 1 2 k l ui  wkl g j 2 l 1 K g 2  0.1, 0.15, 0.5, ・コサイン距離を用いて類似度を算出 ・類似度が一番大きいものをプロファイル として推定
  11. 11. 実験設定と評価方法 推定対象とするプロファイル 対象ユーザ数:6000人 対象ツイート数:1920万ツイート 東京 大阪 性別 性別の内訳 居住地域の内訳 埼玉 横浜 男女の推定 不明 京都 千葉 男性 福岡 居住地域 女性 名古屋 札幌 東京・大阪・千葉・埼玉・横浜・ 1.8% その他市町村 福岡・名古屋・京都・札幌・仙台の推定 39.9% 不明・各プロファイルの種別ごとにユーザを500名ずつ収集・クロスバリデーション(100名1単位で訓練300名・テスト200名)を用いて、C2  10通り 5 評価方法 再現率(recall) 2  precision  recall どれだけ正しく推定できたか F 適合率(precision) precision  recall どれだけ正解を網羅できたか
  12. 12. 実験結果.1 性別の推定について 正しく推定できる割合が高い平均して200人中6人程度の誤推定におさまる 適合率 再現率 男性 女性 男性 女性 平均 94.5% 81.7% 78.6% 95.5% 標準偏差 1.7% 2.0% 2.6% 1.5% F値 男性: 0.858 女性: 0.881 男性・女性共に85%以上の精度
  13. 13. 実験結果.2 居住地域の推定について平均値 1 東京 標準偏差 東京 仙台 大阪 0.05 仙台 大阪 0.5 札幌 千葉 0.025 札幌 千葉 0 0 京都 埼玉 京都 埼玉 名古屋 横浜 名古屋 横浜 福岡 東京に関してのみ 適合率 福岡 F値 東京 精度が低い 再現率 1 仙台 大阪 0.5 札幌 千葉 東京を除く都市の 0 推定精度は平均80%以上 京都 埼玉 名古屋 横浜 福岡 F値
  14. 14. 居住地域に推定における考察 札幌に居住しているユーザ 東京に居住しているユーザ キーワード 重み キーワード 重み1 OYOYO 0.981 1 玉川 0.6412 ATTIC 0.972 2 shibuya 0.6273 ノースウェーブ 0.914 3 板橋 0.6094 丘珠 0.903 4 早稲田大学 0.6015 コアックマ 0.896 5 西新井 0.5196 サンピアザ 0.887 6 武蔵境 0.517 東京を特徴付けるキーワードは 全体的に重みが低い
  15. 15. 本研究のまとめ ・低コストで頻繁に調査可能 Twitterによる 動向調査 ・変動を抽出しやすい 動向調査 課題男性 ユーザプロファイル ユーザプロファイルの獲得 ・性別: 男性・女性 提案手法を用いて ・居住地域: 札幌・大阪… 提案手法 推定可能 ・年齢: 10代, 20代…女性 ツイートからキーワードの抽出 ・職業: サラリーマン・学生… ・趣味: 旅行・ピアノ… ・学歴: 高卒・大卒… プロファイルの推定今後の課題 評価実験 5万人分の 性別 2値 85%以上 プロファイル 居住地域 10都市 80%以上

×