SlideShare a Scribd company logo
Timeline Generation:
Tracking individuals on
Twitter
Jiwei Li, Claire Cardie
東京大学大学院工学系研究科システム創成学専攻
大橋鳥海研究室 馬場正剛
2014/5/31 ToriLab輪読会
1
背景
• 興味ある人間について時系列的に知りたい欲望
• 映画俳優の最新情報、会社の社長・・・・
• 既存の情報収集はウェブ検索が主体
• 今は人力が主体(自分で検索)
• 有名人なら多少は可能
• ネットに情報の少ない一般人は?
• 有名人・一般人に関する情報を時系列的に自動
収集する(=個人史の構築)手法の必要性
2
情報ソース=Twitter
• Twitterに個人の呟きが大量に存在
• 個人史にとって重要な出来事を抽出可能?
• 例:ヒューストンに移籍したことを把握可能
3
一般人も
• 例:有名人でなくとも重要な出来事を把握可能
• 自動で例のようなTweetを抽出し時系列的に整理
• 重要なイベントを並べた個人史を構築可能
4
個人にとって重要なイベント
• 個人にとって重要なイベント=PIE
(Personal Important Event)
• 個人史には重要な出来事のみ掲載
• 雑多でなく、PIEに関するTweetのみ抽出する必要性
5
PIEの決定基準
• 1:個人にとって重要な出来事である
• 本人、フォロワーが何度も言及すること
• 2:期間が限定された出来事である
• 日常的に起こってはならない
• 自転車11km漕いだ、ヨガをした=日常的な関心先
• 3:個人に関係ある出来事である
• 一般的出来事でない
• 例:大統領選挙(関心は持つだろうが、関係ない)
6
3:個人に関係ある出来事の補足
• 一般的イベントは誰にとっても関係なく一般的か?
• 大統領選挙はオバマにとって関係ないか?
• 一般的イベントを有名人のPIEとするケースも存在
• 大統領選挙→オバマのPIE
7
Tweetを4タイプに分類
• Tweetは以下によって4タイプに分類可能
• Public or Personal
• Time-specific or Time-general
8
time-specific time-general
public PublicTS PublicTG
personal PersonTS PersonTG
一般人、有名人のPIE
• 一般人:PersonTS(個人的で期間が限定)
• 有名人:PersonTS、関係ある場合はPublicTS
99
time-specific time-general
public PublicTS PublicTG
personal PersonTS PersonTG
論文の流れ
• 個人史構築にPIEが必要なのはわかった
• PIEを抽出する手法は?
ディリクレ過程モデルを用いる
10
~残りの論文の流れ~
• ディリクレ過程と本手法の説明
• 本手法の妥当性の評価
• 結果と考察
• まとめと今後の課題
ディリクレ過程とは?
• ノンパラメトリックベイズ法の基本となるモデル
• モデルの複雑性を自動決定する学習手法
• 例:クラスターの数Kを学習してくれる
• 規定測度𝐺0(確率分布)に似たGを生成
• 無限次元の離散分布によって、すかすかに似せる
• 𝐺~𝐷𝑃 𝑎, 𝐺0 𝑎:似ている度
11最近のベイズ理論の進展と応用(III) ノンパラメトリックベイズ 持橋大地
ディリクレ過程とは?
• 𝐺0からサンプルした場所𝜃 𝑘に, 高さ、𝜋 𝑘の𝛿(𝜃 𝑘)を
立てていく
• 𝜋 𝑘のイメージは次スライド
13
ディリクレ過程とは?
• 𝐺0からサンプルした場所𝜃 𝑘に, 高さ、𝜋 𝑘の𝛿(𝜃 𝑘)を
立てていく
14
階層ディリクレ過程とは?
• HDP (Hierarchical Dirichlet Process)
• Nonparametric Bayes for Non-Bayesians (IBIS 2008)
がわかりやすい
16
階層ディリクレ過程とは?
• HDP (Hierarchical Dirichlet Process)
• Nonparametric Bayes for Non-Bayesians (IBIS 2008)
がわかりやすい
17
トピックの分布
• HDPを用いる
20
H
𝐺0
𝐺𝑡: (𝐺(0,1))
𝐺𝑖: (𝐺(1,0))
𝐺𝑖
𝑡
: (𝐺(1,1))
Discussed specially at T Specific to user i
Discussed specially at T
𝐺0:denote Generally topics
階層ディリクレ過程とは?
21
𝐺0のアトムが共有される!
トピックの分布
• 全ツイートでアトム=トピックは共有される!
22
H
𝐺0
𝐺𝑡: (𝐺(0,1))
𝐺𝑖: (𝐺(1,0))
𝐺𝑖
𝑡
: (𝐺(1,1))
Discussed specially at T Specific to user i
Discussed specially at T
𝐺0:Generally topics
Tweet 𝑣 への変数
• 𝑣𝑖
𝑡
へ𝑥 𝑣, 𝑦𝑣, 𝑧 𝑣を付与
• 𝑥 𝑣, 𝑦𝑣によりTweetを4分類
• 𝑧 𝑣はツイートが表すトピック
• 𝑥 𝑣, 𝑦𝑣はユーザiの趣向𝜋 𝑥
𝑖 , 𝜋 𝑦
𝑖 によって決定
• ユーザーiはpersonal、time-specificなのをつぶやきやすいのか?
• ベータ分布によって趣向は決定
23
モデルをまとめると
24
モデルをまとめると
25
モデルをまとめると
26
モデルをまとめると
27
モデルをまとめると
28
モデルをまとめると
29
モデルをまとめると
30
モデルをまとめると
31
モデルをまとめると
32
モデルをまとめると
33
Topicの決定
𝐸(𝑧)
(・)
: x, yタイプTweet中のtopicがzのワード数
𝐸(𝑧)
(𝑤)
: topic z中のwの数
𝑁𝑣: Tweet 𝑣中のワード数
𝑁𝑣
𝑤: Tweet 𝑣中のwの数
34
Gibbs Sampling
35
• パラメータの値を観測データから得られた事後分
布から推定
• 例:正規分布に従う100個の乱数を観測して、母集団の
平均と分散を推定
• サンプルの初めは正確でないため、サンプル捨てる
• =burn-in
Gibbs Sampling
36
DPMへギブスサンプリング
hyperparameterをギブスサンプリング
burn in は200回
37
5.Timeline Generation
• 以下の3つに注意して個人のTLを構築
• まずトピックを統合させる(トピックが多すぎて計算煩
雑)
• 有名人のPublicTSを関連付け(オバマに選挙)
• 各トピックで最もPIEなTweetを抜き出し
39
トピックを統合
• トピックが多すぎて計算が煩雑
• ユーザーiの近しいトピックを統合
• 以下の値が下がらなくなるまで統合を繰り返す
• 内部エントロピー、クラスタ間の分散
40
トピックを統合
値が下がらなくなるまで統合を繰り返す
• 𝑃𝑖:ユーザーiのトピック群、𝐶 𝑃 𝑖
トピックの中心
• 内部エントロピー、クラスタ間の分散
41
有名人へPublicTSの関連付け
• Lj:PublicTSなトピックでも以下の3つを満たすなら
有名人iに関連している(=PIE)とできる
• Ljの全Tweet中に10%以上、iの名前orTweetID出現
• GiとLjのカイ二乗値ーP値が0.5以上
• クラスタリングバランス値が低下
43
各トピックからTweet選択
• PIEなトピックLの中でベストなTweetを抽出
• 抽出したら個人のTLへ
44
使用したTweetDataSet
• 500,000人のユーザーの400,000,000Tweet
• Jun 7 th,2011~Mar 4th 2013 (637days=7*91week)
• Split into 91 time periods(week)
• DPMモデルの構築には一般人と有名人の両方の
Tweetが必要
• フォロワー500~2,000→一般人
• フォロワー1,000,000~→有名人
• それぞれ20人を用意
• TweetからStop-wordsを取り除く(a,the・・・)
45
Gold-Standard Dataset Creation
• Gold-Standard Dataset を構築
• 手法を評価するための人為的PIE-TL
• 20 ordinary users(TwitSet-O)
• 20 celebrities (TwitSet-C)
46
TwitSet-O
• 自分以上に自分を知る人間は存在しない
• ユーザー本人が評価を行う
• 他人の評価は一切用いず
• 自分のPIEを表現するTweetを抽出
• そのTweetにはPIEの名前でラベリング
• 例:ハーバード合格Event
• 複数のTweetが同一ラベリングされるケースも
47
TwitSet-C
• 2人がPIEの抽出を行う
• 一致率を評価(カッパ係数で評価)
• Amazon Mechanical Turk に委託
• 悪い結果(カッパ係数0.653)
• もっと高くならない?
• oDeskに委託
• 専門分野の人間に判定を依頼
• 例:バスケに詳しい人にバスケ選手のTweetを
• 十分な結果(カッパ係数0.901)
48
TwitSet-C結果例
49
TwitSet-C結果例
50
TwitSet-C結果例
51
本手法の評価
• 他の手法と比較
• Multi-level LDA
• Person-DP
• Public-DP
• Gold-Standard Dataset(GSD) との一致率で比較
• GSDにあるPIEに関するツイートを含んでいる割合
52
Multi-Level LDA
• 本手法との違いはTopicの抽出方法
• LDAとは?
53
LDAについて
Latent Dirichlet Allocation(LDA)を用いたニュース記事の分類
54
LDAについて
55
LDAについて
56
LDAについて
57
LDAについて
58
Person-DP,Public-DP
• DPMとほとんど同じ
• Person-DP:background topics 𝐺0使わず→𝐺𝑖使用
• Public-DP:TSを考慮しない
• Person,Public 周りの人間,時間考慮しない
61
3手法の比較
• 各個人のGold-Standard Dataset(GSD) とのPIEの一
致率を3項目で比較
• Recall : 手法で触れたPIE数/全PIE数
• 網羅率
• Presion: nonPIEを含んでないか PIE/(PIE+nonPIE)
• ゴミが少ないか
• F1:手法をトータルで評価
62
3手法比較結果
• 時間や他人を考慮してないPerson,Public-DPはゴミ
が多い
• F1が一番高い→本手法の優位性
63
本手法による結果例
PIEを抽出できた
64
本手法による結果例
65
本手法による結果例
66
本手法の問題点
• DallasCowboys:ジェームスが興味持ってるfootball
team
• 短い期間に関するツイートをたくさんした
• PIEと勘違いされた
67
まとめ
• personal-important-event (PIE)の抽出に成功
• DPMを用いた
• PIEから個人史を構築
• 抽出手法は他の手法より優位なことを示した
68
今後の課題
• 有名人の方がスコアがよかった
• 一般人はTweet情報が少ないから?
• 一般人のスコアをもう少しあげたい
• 隠れたPIEの存在
• 誰も触れなかったTweetがPIEを表していたら?
• Facebook,wilkipediaあたりと連携をとったらより正
確?
69
感想
• 内容は面白かった
• 特に言語処理のあたりは自分の研究に応用でき
そう
• トピック分類についての指摘も学会であった
• 一定期間に興味を持った事柄を抽出できたのもそ
れはそれで面白いと思った
• 論文執筆の教科書的な論文も読んでみたい
70

More Related Content

Viewers also liked

So, you want to Startup?
So, you want to Startup?So, you want to Startup?
So, you want to Startup?
Matias Honorato
 
Authoring Clinical Reports in VarSeq
Authoring Clinical Reports in VarSeqAuthoring Clinical Reports in VarSeq
Authoring Clinical Reports in VarSeq
Golden Helix Inc
 
Sustantivos
SustantivosSustantivos
Sustantivos
anitaloona
 
Ηδιατροφή στην Αρχαία Ελλάδα
Ηδιατροφή στην Αρχαία ΕλλάδαΗδιατροφή στην Αρχαία Ελλάδα
Ηδιατροφή στην Αρχαία Ελλάδα
Κατερίνα Καραμπαΐρη
 
Προξενιό
ΠροξενιόΠροξενιό
Workplace india
Workplace indiaWorkplace india
Workplace india
Workplace India
 
Restaurant casual
Restaurant casualRestaurant casual
Restaurant casual
Chino Chaparro
 
ο γάμος τα παλιότερα χρόνια προξενιό
ο γάμος τα παλιότερα χρόνια  προξενιόο γάμος τα παλιότερα χρόνια  προξενιό
ο γάμος τα παλιότερα χρόνια προξενιό
Κατερίνα Καραμπαΐρη
 
1st 2nd activity in english (Greece)
1st 2nd activity in english (Greece)1st 2nd activity in english (Greece)
1st 2nd activity in english (Greece)
Κατερίνα Καραμπαΐρη
 
Προτάσεις προστασίας της γης
Προτάσεις προστασίας της γηςΠροτάσεις προστασίας της γης
Προτάσεις προστασίας της γης
Κατερίνα Καραμπαΐρη
 
336bad9a270ac2f1456caebe75899ceb
336bad9a270ac2f1456caebe75899ceb336bad9a270ac2f1456caebe75899ceb
336bad9a270ac2f1456caebe75899cebPimpaka Khampin
 
κέντρο δεξιώσεων
κέντρο δεξιώσεωνκέντρο δεξιώσεων
κέντρο δεξιώσεων
Κατερίνα Καραμπαΐρη
 
Izabela lewicka kołobrzeg 1
Izabela lewicka kołobrzeg 1Izabela lewicka kołobrzeg 1
Izabela lewicka kołobrzeg 1Izabela Lewicka
 
MM - KBAC: Using mixed models to adjust for population structure in a rare-va...
MM - KBAC: Using mixed models to adjust for population structure in a rare-va...MM - KBAC: Using mixed models to adjust for population structure in a rare-va...
MM - KBAC: Using mixed models to adjust for population structure in a rare-va...
Golden Helix Inc
 
김청진 포트폴리오
김청진 포트폴리오김청진 포트폴리오
김청진 포트폴리오
cheongjin kim
 

Viewers also liked (18)

So, you want to Startup?
So, you want to Startup?So, you want to Startup?
So, you want to Startup?
 
Authoring Clinical Reports in VarSeq
Authoring Clinical Reports in VarSeqAuthoring Clinical Reports in VarSeq
Authoring Clinical Reports in VarSeq
 
Sustantivos
SustantivosSustantivos
Sustantivos
 
Ηδιατροφή στην Αρχαία Ελλάδα
Ηδιατροφή στην Αρχαία ΕλλάδαΗδιατροφή στην Αρχαία Ελλάδα
Ηδιατροφή στην Αρχαία Ελλάδα
 
Προξενιό
ΠροξενιόΠροξενιό
Προξενιό
 
Informe terminado
Informe terminadoInforme terminado
Informe terminado
 
Workplace india
Workplace indiaWorkplace india
Workplace india
 
Restaurant casual
Restaurant casualRestaurant casual
Restaurant casual
 
ο γάμος τα παλιότερα χρόνια προξενιό
ο γάμος τα παλιότερα χρόνια  προξενιόο γάμος τα παλιότερα χρόνια  προξενιό
ο γάμος τα παλιότερα χρόνια προξενιό
 
1 st 2nd activity erasmus+logo contest results
1 st 2nd activity erasmus+logo contest results1 st 2nd activity erasmus+logo contest results
1 st 2nd activity erasmus+logo contest results
 
1st 2nd activity in english (Greece)
1st 2nd activity in english (Greece)1st 2nd activity in english (Greece)
1st 2nd activity in english (Greece)
 
Ecuaciones de laplace
Ecuaciones de laplaceEcuaciones de laplace
Ecuaciones de laplace
 
Προτάσεις προστασίας της γης
Προτάσεις προστασίας της γηςΠροτάσεις προστασίας της γης
Προτάσεις προστασίας της γης
 
336bad9a270ac2f1456caebe75899ceb
336bad9a270ac2f1456caebe75899ceb336bad9a270ac2f1456caebe75899ceb
336bad9a270ac2f1456caebe75899ceb
 
κέντρο δεξιώσεων
κέντρο δεξιώσεωνκέντρο δεξιώσεων
κέντρο δεξιώσεων
 
Izabela lewicka kołobrzeg 1
Izabela lewicka kołobrzeg 1Izabela lewicka kołobrzeg 1
Izabela lewicka kołobrzeg 1
 
MM - KBAC: Using mixed models to adjust for population structure in a rare-va...
MM - KBAC: Using mixed models to adjust for population structure in a rare-va...MM - KBAC: Using mixed models to adjust for population structure in a rare-va...
MM - KBAC: Using mixed models to adjust for population structure in a rare-va...
 
김청진 포트폴리오
김청진 포트폴리오김청진 포트폴리오
김청진 포트폴리오
 

Tori lab meeting Timeline Generation: Tracking individuals on Twitter