主観表現と客観表現を用いたTwitterにおける有益なツイートの推定

主観表現と客観表現を用いた
Twitterにおける有益なツイートの推定
†明治大学大学院理工学研究科
2015.3.4 (Wed)DEIM 2015 A8-1

Outline
2
1. はじめに
2. 事前確認
3. 分析と評価
4. まとめ
有益なツイート発見したい
主観・客観を使うべき！？
良さそう
有益なツイート発見しよう
発見できた

1.1 背景
• 情報ネットワーク, ソーシャルネットワークの発達
• イベント, 流行
→ 膨大なデータが溢れている
• 有益な情報(ツイート)提示ができていない
4

1.2 目的
• 有益な情報提示
→(短文)ツイート内容のみ解析
設定した有益さのツイートランキング作成
5
abc. def.
hij.
klm.
Rank 1
Rank 2
Rank N
…
score
2.8 pt
2.6 pt
0.0 pt
上位に有益なツイート

1.3 有益
× スパム除去
→スパムでない情報が有益とは限らない
× ポジティブ情報 (ネガポジ判定)
→ネガティブツイートも有益な可能性
◎ 事実を含めて主観が入った情報
e.g.『iPhone6 発売だって。大きくて使いにくそう。』
→事実 →主観
6

1.4 日本語評価極性辞書
主観→主観語事実→客観語
• 主観語, 客観語の辞書
→ 名詞, 用言いずれも利用
7
例種類数
客観的 (経験)
Objective
救う 3,590
主観的 (評価)
Subjective
可愛い 6,955

2.1 事前確認の目的
9
• 主観語, 客観語が出現しているか
→ 有益な情報(RT ツイート)を得られるのか

2.2 対象データ
10
• Twitter ツイート
tweets
normal : 1,102,110 Twitter Streaming APIs
retweet : 133,171 Public API , 2014/10/25-29
all (RT: 11%) : 1,235,281 GET statuses/sample
• 収集対象 (①～⑤の全てを満たすツイート)
①言語設定が「ja」
②ツイートに日本語を含む
③ツイートに「@」や「http」を含まない
④リプライツイートではない
⑤同一RTツイートは，RT経過時間が最短

i) 単一ツイートにおける平均出現語数
ii) 語の出現ツイート割合
2.3 確認①
11
i) Normal Tweet Retweet Tweet
客観語 0.59 words/tweet 1.31 words/tweet
主観語 0.45 words/tweet 0.89 words/tweet
ii) Normal Tweet Retweet Tweet
客観語 37 % 57 %
主観語 31 % 47 %

2.4 確認②
12
• {主観語,客観語}の出現数における
ツイートに着目した際，
RT ツイートの割合
→偏りなければ 11%
e.g.
客観語が３語出現
するツイートの
リツイート割合
通常比結果比
89%
11%
75%
25%
Normal Retweet

2.4 確認② 客観語
13
客観語数 (words)
RT 割合
偏りなし
結果

2.4 確認② 主観語
14
RT 割合
主観語数 (words)
偏りなし
結果

2.5 確認まとめ
15
• 主観語, 客観語を含むツイートは有益(RTされ)そう
→多く含むほど，確率Up
⇒着目OK

3.1 アプローチ
17
• 主観語と客観語の出現情報
→ ツイートの有益性スコアを付けてランキング
• 先行研究で採用されている特徴量
→ ツイートの文字数は多いほどリツイートされる
ラーメン食べたなう。
六厘舎のつけ麺食べた。美味しかった！
RT 確率↓
RT 確率↑

3.2 評価
18
• 目的
→スコア付け手法が妥当かどうか
⇒有益(RT)なツイートがランキング上位にいるか
• 方法
i ) Precision@k (P@k)
→ RTツイートが上位にいるか判断する指標
ii) Normalized Discounted Cumulated Gain @k (nDCG@k)
→ 推定閲覧数に対するRT数を考慮した指標

3.2 評価 nDCG -1
19
𝑫𝑪𝑮 𝒌 =
𝒊=𝟏
𝒌
𝟐 𝒓𝒆𝒍𝒊 − 𝟏
log 𝟐(𝒌 + 𝟏)
𝒏𝑫𝑪𝑮@𝒌 =
𝑫𝑪𝑮 𝒌
𝑰𝑫𝑪𝑮 𝒌
𝒓𝒆𝒍: graded relevance value , 𝑰𝑫𝑪𝑮: Ideal DCG
関連度 10
関連度 9
関連度 1…
Rank 1
Rank 2
Rank 10
関連度 8
関連度 10
関連度 3
…
0
システム
出力結果
Rank 1
Rank 2
Rank 10
理想
(Ideal)
Rank k
Rank k

• 各ツイートのリツイート割合
𝒓𝒆𝒕𝒘𝒆𝒆𝒕_𝒓𝒂𝒕𝒆 =
𝒓𝒆𝒕𝒘𝒆𝒆𝒕 𝒄𝒐𝒖𝒏𝒕
𝒇𝒐𝒍𝒍𝒐𝒘𝒆𝒓 𝒄𝒐𝒖𝒏𝒕+𝟏
• 関連度=リツイート割合の低い順の順位に相当する値
3.2 評価 nDCG -2
20
RT
tweet_1
follower
RT
tweet_1
tweet_2
tweet_3
retweet_rate 関連度 (rel)
0.50
0.33
0.67
0.2
0.1
0.3

3.3 実験手法
21
i ) proposal → 主観語+客観語+ツイート文字数
ii ) word → 主観語+客観語
iii ) length → ツイート文字数
iv ) follower → フォローワー数
v ) random → 乱数

> >>
22
3.4 評価結果 P@k
top k proposal word length follower random
1 0 0 1 1 0
10 0.9 0.9 0.5 1.0 0.1
100 0.66 0.68 0.49 1.00 0.10
1000 0.596 0.576 0.469 0.988 0.116
10000 0.5055 0.4473 0.4750 0.9137 0.1123
1% 0.4985 0.4339 0.4747 0.9040 0.1114
最良中間中間最悪

> >>
23
3.4 評価結果 nDCG@k
top k proposal word length follower random
1 0.0000 0.0000 0.0326 0.1474 0.0000
10 0.2781 0.2761 0.2292 0.0803 0.0000
100 0.3251 0.3304 0.2354 0.1097 0.0309
1000 0.3195 0.3113 0.2586 0.1023 0.0474
10000 0.2820 0.2509 0.2582 0.1774 0.0533
1% 0.2834 0.2465 0.2619 0.1985 0.0537
最良中間中間最悪

4.1 まとめ
• 主観表現と客観表現を用いると
有益なツイートを取得できる
• 提案手法によるスコア付けを行い
ランキング Top 1% における評価に着目
→ 良い結果
25

4.2 課題
• 提案手法の改善 → 文末表現
• 本当に有益？ → ユーザによる評価
• ユーザの好み
• 情報の組み合わせ → フィルタリング以外も
26

27
ご清聴ありがとうございました

主観表現と客観表現を用いたTwitterにおける有益なツイートの推定

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (6)

Similar to 主観表現と客観表現を用いたTwitterにおける有益なツイートの推定

Similar to 主観表現と客観表現を用いたTwitterにおける有益なツイートの推定 (10)

Recently uploaded

Recently uploaded (10)

主観表現と客観表現を用いたTwitterにおける有益なツイートの推定