More Related Content
Similar to 主観表現と客観表現を用いたTwitterにおける有益なツイートの推定 (10)
主観表現と客観表現を用いたTwitterにおける有益なツイートの推定
- 4. 1.1 背景
• 情報ネットワーク, ソーシャルネットワーク の 発達
• イベント, 流行
→ 膨大なデータ が溢れている
• 有益な情報(ツイート)提示ができていない
4
- 10. 2.2 対象データ
10
• Twitter ツイート
tweets
normal : 1,102,110 Twitter Streaming APIs
retweet : 133,171 Public API , 2014/10/25-29
all (RT: 11%) : 1,235,281 GET statuses/sample
• 収集対象 (①~⑤の全てを満たすツイート)
①言語設定が「ja」
②ツイートに日本語を含む
③ツイートに「@」や「http」を含まない
④リプライツイートではない
⑤同一RTツイートは,RT経過時間が最短
- 11. i) 単一ツイートにおける平均出現語数
ii) 語の出現ツイート割合
2.3 確認①
11
i) Normal Tweet Retweet Tweet
客観語 0.59 words/tweet 1.31 words/tweet
主観語 0.45 words/tweet 0.89 words/tweet
ii) Normal Tweet Retweet Tweet
客観語 37 % 57 %
主観語 31 % 47 %
- 19. 3.2 評価 nDCG -1
19
𝑫𝑪𝑮 𝒌 =
𝒊=𝟏
𝒌
𝟐 𝒓𝒆𝒍𝒊 − 𝟏
log 𝟐(𝒌 + 𝟏)
𝒏𝑫𝑪𝑮@𝒌 =
𝑫𝑪𝑮 𝒌
𝑰𝑫𝑪𝑮 𝒌
𝒓𝒆𝒍: graded relevance value , 𝑰𝑫𝑪𝑮: Ideal DCG
関連度 10
関連度 9
関連度 1…
Rank 1
Rank 2
Rank 10
関連度 8
関連度 10
関連度 3
…
0
システム
出力結果
Rank 1
Rank 2
Rank 10
理想
(Ideal)
Rank k
Rank k
- 20. • 各ツイートのリツイート割合
𝒓𝒆𝒕𝒘𝒆𝒆𝒕_𝒓𝒂𝒕𝒆 =
𝒓𝒆𝒕𝒘𝒆𝒆𝒕 𝒄𝒐𝒖𝒏𝒕
𝒇𝒐𝒍𝒍𝒐𝒘𝒆𝒓 𝒄𝒐𝒖𝒏𝒕+𝟏
• 関連度=リツイート割合の低い順の順位に相当する値
3.2 評価 nDCG -2
20
RT
tweet_1
follower
RT
tweet_1
tweet_2
tweet_3
retweet_rate 関連度 (rel)
0.50
0.33
0.67
0.2
0.1
0.3
- 21. 3.3 実験手法
21
i ) proposal → 主観語+客観語+ツイート文字数
ii ) word → 主観語+客観語
iii ) length → ツイート文字数
iv ) follower → フォローワー数
v ) random → 乱数
- 22. > >>
22
3.4 評価結果 P@k
top k proposal word length follower random
1 0 0 1 1 0
10 0.9 0.9 0.5 1.0 0.1
100 0.66 0.68 0.49 1.00 0.10
1000 0.596 0.576 0.469 0.988 0.116
10000 0.5055 0.4473 0.4750 0.9137 0.1123
1% 0.4985 0.4339 0.4747 0.9040 0.1114
最良 中間 中間 最悪
- 23. > >>
23
3.4 評価結果 nDCG@k
top k proposal word length follower random
1 0.0000 0.0000 0.0326 0.1474 0.0000
10 0.2781 0.2761 0.2292 0.0803 0.0000
100 0.3251 0.3304 0.2354 0.1097 0.0309
1000 0.3195 0.3113 0.2586 0.1023 0.0474
10000 0.2820 0.2509 0.2582 0.1774 0.0533
1% 0.2834 0.2465 0.2619 0.1985 0.0537
最良 中間 中間 最悪
- 26. 4.2 課題
• 提案手法の改善 → 文末表現
• 本当に有益? → ユーザによる評価
• ユーザの好み
• 情報の組み合わせ → フィルタリング以外も
26