読み手の印象推定に基づくツイートのフィルタリングに関する研究

読み手の印象推定に基づく
ツイートのフィルタリングに関する研究
九州大学芸術工学部芸術情報設計学科黒木クルミ
九州大学大学院芸術工学研究院牛尼剛聡
D5-1

背景
Twitter
国内月間利用者数4000万以上の社会インフラ
興味があるものをフォローできる
トピックで検索できる
1
情報発信
コミュニ
ケーション
情報収集
暇つぶし
息抜き

暇つぶしには何が有効か
暇つぶしを目的にTwitterを使うとき、ユーザは「なりたい
気分になること」を求めている
2
ユーザ
何か楽しい
ことないかな
何か面白い
ことないかな
楽しい気分になりたい
面白い気持ちになりたい
ユーザが希望する印象が得られるツイートを得られることができれば
ユーザの満足度が高くなると期待できる

目的
息抜きの際に「ユーザがなりたい気持ち」になるツイート
を提供
3
ツイート印象
ツイートの印象の推定が必要
フィルタ
ツイート
ツイート
ツイート
ツイートのフィルタリングが必要
ユーザ

問題点
キーワードで印象を検索するのは
難しい
例えば「笑える」というキーワードで検
索しても、投稿者が「笑える」と感じた
ものは検索できるが、読み手にとってそ
のツイートが笑えるのかどうかとは別の
問題である。
4
「笑える」の検索結果

アプローチ
5
本文ツイート
反応ツイート
他のユーザの反応を利用することにより印象推定可能

ツイートへの反応
6
リプライ
リツイート
反応ツイートの種類
引用リツイート
リツイート直後のツイート
対象とするツイートが明確であり
ユーザの反応が必ず記載されている

関連研究
「Twitterにおける発話者へのリプライを用いたユーザ感情
推定手法」
堀宮ありさ，坂野遼平，佐藤晴彦，小山聡，栗原正仁，沼澤政信
2012
- ラベルを6感情「驚き」，「悲しみ」などに人手で分類し，それを
正解データとしている
- 2-gramのtf-idfで重みを計算し，SVMで判別
「ユーザの反応を利用したネタツイート自動分類手法」
林田宗一郎，牛尼剛聡 2014
- ユーザの目的や価値に応じたツイートのカテゴリの代表例として
「ネタツイート」を対象
- 2-gramの出現頻度を足し合わせたものを特徴量とし，SVMで判別
7

8
フィルタ
印象
ツイート
ツイート
ツイート
ユーザ
ツイート
ツイート
ツイート
ユーザが欲しい印象を表すクラスタ
反応に基づ
いてクラス
タリング
・
・
・
いいねしたツイート
ユーザが欲しい印象をどのように取得するか
新しいツイート

「いいね」ツイートを使う理由
• 好みのツイートを「いいね」すると、
後で見返したりすることができる
→ユーザの興味・関心を表している
9
いいね一覧

クラスタリングをする理由
カテゴリを決めてしまうと…
10
おもしろい系
癒される系
おどろき系
共感系
問題提起系
人によって興味の偏りがある → 「いいね」したツイートを使う
人によって興味の度合いが違う → パラメータを変えることによって変えられる
キュンキュン系
ほのぼの系
ほほえましい系
クラスタリングをすると…

リプライの取得
Twitter API
特定のツイートに対するリプライを直
接取得するメソッドが提供されてない
• to演算子で特定のユーザに発信された
ツイートを検索し、tweet IDが一致す
るものを検索
• 一回に検索で取得できる件数が最大
200件程度のため、対象となるツイー
トが発信された時点まで繰り返し検
索を行う
11

反応からの特徴量抽出
形態素に分解し、その形容詞の出現頻度を特徴量とする
12
美しいです
うわあああ幻想
的です
いいですねぇ
見るだけなら
こんな
銀閣の方z が
いいです
形態素解析
本文ツイート t 反応ツイート rdt
形容詞
美しい
いい
いい
ツイート
ツイート
ツイート
他のツイートに対しても同様 tf-idfの文書行列を作成
tf-idf

「いいね」ツイートのクラスタリング
特徴的な反応(印象)を持つ代表的なツイート
を取るために、DBSCANでクラスタリング
を行う
特徴量:文書同士のユークリッド距離
13
DBSCAN
• 半径ε内に、MinPts個以上のオ
ブジェクトを含むオブジェクト
xの集合をクラスタとする
• ノイズに強い
• kの数をあらかじめ決める必要
がない
MinPts = 5
x
ε
クラスタリング結果
特定の印象を持つクラスタ
〇〇系〇〇系

機械学習によるフィルタリング
14
学習器
学習
判別
未知の
ツイート
クラスタ２
不正解
クラスタ１
クラスタ
リング結果
未知のツイートがどの印象に当てはまるかを判別
今回はニューラルネットワークを利用
クラスタに分類
リプライ一定数以上で
学習に使われていないツイート

目的反応ツイートに基づいて正しくクラスタリングできるか
方法テストデータに対して提案手法に沿ってクラスタリングを行う
実験１
実験
• テストデータ
- 著者のお気に入りした中のリプライ数が10以上のツイート(117件)
- 反応数10~405件平均約65件
• 評価
- 著者自身が主観的に判断
15
目的クラスタリングで得られたカテゴリに正しくフィルタリングできるか
方法実験１で得られた最も良いクラスタを利用して、テストデータを分類
実験2
- ツイッターに投稿されたリプライ数が10件以上のツイート(15件)
• フィルタリング方法
- ニューラルネットワーク
• 評価

クラスタリングの結果
クラスタ数が8以上の3つのパラメータにおける適合率と分類成功率
16
MinPts
MinPts 3 3 4
ε 1.6 1.7 1.8
8 10 8
0.73 0.6 0.66
0.34 0.51 0.66
パラメータ
クラスタ数
適合率
分類成功率
適合率と分類成功率が高いパラメータ(MinPts=2, ε=4)を実験２に利用

クラスタリングの内容
17
→美味しそう系 →かわいい系
クラスタ2 クラスタ3
成功例
MinPts=4, ε=1.8
クラスタID 1 2 3 4 5 6 7 8
解釈問題提起系美味しそう系かわいい系感嘆系懐かしい系問題提起系おもしろ系？
個数 8 5 21 22 4 7 4 6
正解数 5 4 21 9 4 4 4 0
反応ツイート反応ツイート

失敗例
18
クラスタ1 クラスタ6
→どちらも問題提起系？クラスタの違いが不明瞭
反応ツイート怖い反応ツイート悪い
クラスタリングの内容

目的反応ツイートに基づいて正しくクラスタリングできるか
方法テストデータに対して提案手法に沿ってクラスタリングを行う
実験１
実験
- 著者のお気に入りした中のリプライ数が10以上のツイート(117件)
- 反応数10~405件平均約65件
• 評価
19
目的クラスタリングで得られたカテゴリに正しくフィルタリングできるか
方法実験１で得られた最も良いクラスタを利用して、テストデータを分類
実験2
- ツイッターに投稿されたリプライ数が10件以上のツイート(15件)
- ニューラルネットワーク
• 評価

フィルタリングに対する評価
フィルタリング方法：ニューラルネットワーク
• 学習データをフィルタリングした結果
- 正解率 116/117件 = 0.99
• 実験1のデータを用いた場合のフィルタリング結果
- 正解率 8/15件 = 0.53
20
ツイート 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
正解クラスタ C3 C7 C7 C1 C7 C3 C4 C6 C3 0 C3 C1 0 C7 C3
NN結果 C3 C4 C4 0 0 C3 C4 C6 C3 0 C3 C4 0 C4 0

フィルタリングの内容
正解例反応ツイート「可愛い」
21
→かわいい系と判定◯ →感嘆系と判定×
問題提起系と思われる
不正解例反応ツイート〜すれば「いい」

考察
• 特徴量
- N-gramやdoc2vecなど特徴量
を生成する他の手法や，単語
以外の特徴を用いてみる
- 印象の特徴は反応ツイートの
形容詞のみに現れるものでは
なく，例えば絵文字や顔文字，
「！」「w」などの記号にも
表現されていると考えられる
22
顔文字や絵文字が多い反応の例

考察
• 特徴量
- 同じ人が同じように反応するツイートは同じような印象を持つ
ツイートだとみなす
- 「誰」が反応したか、反応した「人」を見る
23
ツイート
ツイート
ツイート
反応
ユーザA
反応
反応
同じような反応であれば
同じような印象を持つツイート

考察
2-gramによる類似度（デンドログラム）
24
あるユーザAの反応

課題
• 対象ツイート
- 反応がないツイートや，ユーザのお気に入りの量が少ない場合は
使えない
- 対象件数増やす
- ユーザのお気に入りでないものとも比較
- 機械学習のパラメータなどの調整を行う
• 評価
- 被験者実験など実施し，より客観性のある評価を得て有効性を確
かめる
25

まとめ
概要
• ユーザの希望する印象を持つツイートを提供するため、
ツイートの印象推定をすることを目的
• 「いいね」したツイートの反応ツイートを取得
• その形容詞のtf-idf値を特徴量としたクラスタリング
• その結果を正解データとして機械学習でフィルタリング
• 実験の正誤は半々程度
今後の課題
• 形容詞以外の特徴を用いたクラスタリング
• 人による反応の違いを使ったアプローチ
26

27
ご静聴ありがとうございました

読み手の印象推定に基づくツイートのフィルタリングに関する研究

More Related Content

What's hot

読み手の印象推定に基づくツイートのフィルタリングに関する研究

Editor's Notes