Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

主観表現と客観表現を用いたTwitterにおける有益なツイートの推定

774 views

Published on

DEIM2015に投稿した論文についてA8:マイクロブログ(2)セッションで発表させていただきました.
プレゼンテーションで使用したスライドになります.

Published in: Technology
  • Be the first to comment

主観表現と客観表現を用いたTwitterにおける有益なツイートの推定

  1. 1. 主観表現と客観表現を用いた Twitterにおける有益なツイートの推定 †明治大学大学院 理工学研究科 2015.3.4 (Wed)DEIM 2015 A8-1
  2. 2. Outline 2 1. はじめに 2. 事前確認 3. 分析と評価 4. まとめ 有益なツイート発見したい 主観・客観 を使うべき!? 良さそう 有益なツイート発見しよう 発見できた
  3. 3. 1. はじめに 3
  4. 4. 1.1 背景 • 情報ネットワーク, ソーシャルネットワーク の 発達 • イベント, 流行 → 膨大なデータ が溢れている • 有益な情報(ツイート)提示ができていない 4
  5. 5. 1.2 目的 • 有益な情報提示 →(短文)ツイート内容のみ解析 設定した有益さ のツイートランキング作成 5 abc. def. hij. klm. Rank 1 Rank 2 Rank N … score 2.8 pt 2.6 pt 0.0 pt 上位に有益なツイート
  6. 6. 1.3 有益 × スパム除去 →スパムでない情報が有益とは限らない × ポジティブ情報 (ネガポジ判定) →ネガティブツイートも有益な可能性 ◎ 事実を含めて主観が入った情報 e.g.『iPhone6 発売だって。大きくて使いにくそう。』 →事実 →主観 6
  7. 7. 1.4 日本語評価極性辞書 主観→主観語 事実→客観語 • 主観語, 客観語 の 辞書 → 名詞, 用言 いずれも利用 7 例 種類数 客観的 (経験) Objective 救う 3,590 主観的 (評価) Subjective 可愛い 6,955
  8. 8. 2. 事前確認 8
  9. 9. 2.1 事前確認の目的 9 • 主観語, 客観語 が出現しているか → 有益 な情報(RT ツイート)を得られるのか
  10. 10. 2.2 対象データ 10 • Twitter ツイート tweets normal : 1,102,110 Twitter Streaming APIs retweet : 133,171 Public API , 2014/10/25-29 all (RT: 11%) : 1,235,281 GET statuses/sample • 収集対象 (①~⑤の全てを満たすツイート) ①言語設定が「ja」 ②ツイートに日本語を含む ③ツイートに「@」や「http」を含まない ④リプライツイートではない ⑤同一RTツイートは,RT経過時間が最短
  11. 11. i) 単一ツイートにおける平均出現語数 ii) 語の出現ツイート割合 2.3 確認① 11 i) Normal Tweet Retweet Tweet 客観語 0.59 words/tweet 1.31 words/tweet 主観語 0.45 words/tweet 0.89 words/tweet ii) Normal Tweet Retweet Tweet 客観語 37 % 57 % 主観語 31 % 47 %
  12. 12. 2.4 確認② 12 • {主観語,客観語}の出現数における ツイートに着目した際, RT ツイートの割合 →偏りなければ 11% e.g. 客観語が3語出現 するツイートの リツイート割合 通常比結果比 89% 11% 75% 25% Normal Retweet
  13. 13. 2.4 確認② 客観語 13 客観語数 (words) RT 割合 偏りなし 結果
  14. 14. 2.4 確認② 主観語 14 RT 割合 主観語数 (words) 偏りなし 結果
  15. 15. 2.5 確認まとめ 15 • 主観語, 客観語 を含むツイートは 有益(RTされ)そう →多く含むほど,確率Up ⇒着目OK
  16. 16. 3. 分析と評価 16
  17. 17. 3.1 アプローチ 17 • 主観語と客観語の出現情報 → ツイートの有益性スコアを付けてランキング • 先行研究で採用されている特徴量 → ツイートの文字数は多いほどリツイートされる ラーメン食べたなう。 六厘舎のつけ麺食べた。美味しかった! RT 確率↓ RT 確率↑
  18. 18. 3.2 評価 18 • 目的 →スコア付け手法が妥当かどうか ⇒有益(RT)なツイートがランキング上位にいるか • 方法 i ) Precision@k (P@k) → RTツイートが上位にいるか判断する指標 ii) Normalized Discounted Cumulated Gain @k (nDCG@k) → 推定閲覧数に対するRT数を考慮した指標
  19. 19. 3.2 評価 nDCG -1 19 𝑫𝑪𝑮 𝒌 = 𝒊=𝟏 𝒌 𝟐 𝒓𝒆𝒍𝒊 − 𝟏 log 𝟐(𝒌 + 𝟏) 𝒏𝑫𝑪𝑮@𝒌 = 𝑫𝑪𝑮 𝒌 𝑰𝑫𝑪𝑮 𝒌 𝒓𝒆𝒍: graded relevance value , 𝑰𝑫𝑪𝑮: Ideal DCG 関連度 10 関連度 9 関連度 1… Rank 1 Rank 2 Rank 10 関連度 8 関連度 10 関連度 3 … 0 システム 出力結果 Rank 1 Rank 2 Rank 10 理想 (Ideal) Rank k Rank k
  20. 20. • 各ツイートのリツイート割合 𝒓𝒆𝒕𝒘𝒆𝒆𝒕_𝒓𝒂𝒕𝒆 = 𝒓𝒆𝒕𝒘𝒆𝒆𝒕 𝒄𝒐𝒖𝒏𝒕 𝒇𝒐𝒍𝒍𝒐𝒘𝒆𝒓 𝒄𝒐𝒖𝒏𝒕+𝟏 • 関連度=リツイート割合の低い順の順位に相当する値 3.2 評価 nDCG -2 20 RT tweet_1 follower RT tweet_1 tweet_2 tweet_3 retweet_rate 関連度 (rel) 0.50 0.33 0.67 0.2 0.1 0.3
  21. 21. 3.3 実験手法 21 i ) proposal → 主観語+客観語+ツイート文字数 ii ) word → 主観語+客観語 iii ) length → ツイート文字数 iv ) follower → フォローワー数 v ) random → 乱数
  22. 22. > >> 22 3.4 評価結果 P@k top k proposal word length follower random 1 0 0 1 1 0 10 0.9 0.9 0.5 1.0 0.1 100 0.66 0.68 0.49 1.00 0.10 1000 0.596 0.576 0.469 0.988 0.116 10000 0.5055 0.4473 0.4750 0.9137 0.1123 1% 0.4985 0.4339 0.4747 0.9040 0.1114 最良 中間 中間 最悪
  23. 23. > >> 23 3.4 評価結果 nDCG@k top k proposal word length follower random 1 0.0000 0.0000 0.0326 0.1474 0.0000 10 0.2781 0.2761 0.2292 0.0803 0.0000 100 0.3251 0.3304 0.2354 0.1097 0.0309 1000 0.3195 0.3113 0.2586 0.1023 0.0474 10000 0.2820 0.2509 0.2582 0.1774 0.0533 1% 0.2834 0.2465 0.2619 0.1985 0.0537 最良 中間 中間 最悪
  24. 24. 4. まとめ 24
  25. 25. 4.1 まとめ • 主観表現と客観表現を用いると 有益なツイートを取得できる • 提案手法によるスコア付けを行い ランキング Top 1% における評価に着目 → 良い結果 25
  26. 26. 4.2 課題 • 提案手法の改善 → 文末表現 • 本当に有益? → ユーザによる評価 • ユーザの好み • 情報の組み合わせ → フィルタリング以外も 26
  27. 27. 27 ご清聴ありがとうございました

×