SlideShare a Scribd company logo
COLING読み会@小町研究室 
Major Life Event Extraction from 
Twitter based on Congratulations/ 
Condolences Speech Acts 
introduced by 北川善彬 
1
人生におけるメジャーイベント抽出の実現可能性 
❖ Twitterからの結婚、卒業などの人生におけるメジャーなイベン 
トの抽出を考える 
❖ Twitter、facebook等ではの最新のpublicなニュースに関しての 
研究が主流 
❖ ユーザーに関してのprivateなニュースの自動抽出はあまりない 
❖ モチベーションは下位アプリケーションへの手助けとなること 
• 例: 友達推薦、広告(結婚して子供が出来ることがわかる等) 
2
ユーザーの書いたテキストからイベントを抽出する際の 
課題 
❖ 課題 1: “major life event”に対する曖昧な定義 
❖ 結婚、就職などのeventは該当することは明らかだがアルゴリズムなどによる 
ロバストな定義が難しい 
❖ 課題 2: Twitterのデータがノイジーであること 
❖ “major life event”はとての多様であるし、ニュースについての議論だったり、 
日常に関してのtweetだったりが多い 
❖ 課題3: トレーニングデータの不足 
❖ 適切なカテゴリわけも難しく、アノテーションのガイドラインも必要 
❖ publicなイベントと違い個々のユーザーに関しての情報は少ない 
3
提案するシステムの出来る事 
❖ きめ細かい情報を無駄なく取り出せる 
❖ 他のアプリケーションへの応用が可能4
提案手法は pipeline system 
❖ pipline1: カテゴリの同定と関係のないデータのフィル 
タリング 
❖ pipline2: twitterした本人がそのeventに直接関わってる 
かそうでないかの同定 
❖ pipline3: eventのプロパティの抽出 
5
良くないデータを捨てていく 
6
pipline1:カテゴリの同定と関係のないデータの 
フィルタリング 
7
イベントのクラスタリングと人手ラベリング。そして 
bootstrapoingでデータ収集 
1. “Congratulations”, “Congrats”, “Sorry to hear that”, “Awesome”な 
どのリプライに注目して集める 
• 全部集められるわけではないが高いprecision 
2. LDA (Blei et al., 2003)によりクラスタリング+人手でラベル付け こ 
の手法はLDA-CLUSTERING+HUMAN-IDENTIFICATION(Ritter 
et al., 2012) 
❖ 1, 2の繰り返しをしてBootstrapで集めデータ拡大 (e.g., (Kozareva 
and Hovy, 2010b; Davidov et al., 2007)) 
8
bootstrappingでのデータ獲得の様子 
❖ bootstrappingの 
イタレーションは 
4回 
❖ 繰り返しにより新 
たなパターンを見 
つけseedの数を増 
やす 
9
データ収集とカテゴリの作成は終わり。 
次は割り当てをしないといけない 
10
多クラス分類で43クラスに分類 
❖ maximum entropy classifierで分類  ↓クラスの例 
❖ 素性 
• Word: ワードシークエンス 
• NER: NERtag 
• Dictionary: イベントに関する辞書 
• window: Dicのwordがある場合左右3windowを素性とす 
る 
11 
❖ ↓クラスの例
pipline2: tweetした本人がそのeventに直 
接関わってるかそうでないかの同定 
12
いわゆる当事者かそうでないかの同定 
❖ “self-reported events” → “I got married” 
❖ “not self-reported events” → “my friend Chris got 
married” 
❖ “self-reported events”は多く出てくるわけでもなくランダ 
ムサンプリングしたデータから学習するのは困難 
❖ pipline1で作ったデータから800件の正例、pipline1のデー 
タとtwitterからのsearch(topicで検索)により2500件の負 
例を人手アノテーションし学習データを作成 
13
SVMで2値分類~洗練された素性エンジニアリング~ 
❖ 素性 
• Bigram: バイグラム 
• Window: topicから最も高い確率で出現する単語uの左右3windowとその品詞 
• Tense: binary 素性、VBDかそうでないか(過去系かどうか) 
• Factuality(事実性): modal word such as “might”, “will”等の素性 
-stanfordのPragBank,FactBank (Sauri and Pustejovsky, 2009)を利用 
• I: 主語が一人称か 
• Dependency: もし主語が一人称で”u”が動詞のときは主語とuの間の係り受けpathがあ 
るかないかの素性 
14
pipline3:eventのプロパティの 
抽出 
15
CRFの問題として解く 
❖ 要はtweetの中のどのwordがプロパティなのかを当てれば良い 
❖ プロパティである部分に1、そうでない部分に0をラベル付けす 
るような系列ラベリング問題として解けば良い 
❖ CRF(Lafferty et al., 2001)データは人手アノテーション (300件) 
16
❖ 素性 
❖ word token, capitalization, POS 
❖ 左右window3とそれに相当するPOS 
❖ word shape, NER 
❖ a gazetteer of universities and employers borrowed 
from NELL 
17
全体を通したシステムの評価 
❖ トレーニングは終わったので実データに適用する 
❖ gold standardはamazon Mechanical Turks (Snow et al., 
2008)を利用して作成 
❖ baseline を2通り作成 
1. Supervised linear SVM、素性: BOW, NER, POS 
2. Supervised+Self linear SVM、素性: BOW, NER, POS 
18
最終結果 
❖ ただの教師あり学習だけではこのタスクでいい結果は 
残せない 
❖ Self-reportedはprecisionを高く上げている 
19
まとめ 
❖ pipeline systemで単なる教師あり学習では得られないような良い結 
果のmajor life eventの抽出に成功した 
❖ recallを犠牲に人手の努力を最小限に抑えてcleanなtraning setを作成 
出来た 
❖ いくつかの制約を用いてふるいにかけることで目標を達成出来た 
❖ major life event はこの論文で挙げた以外にもたくさんあるのでそれ 
をカバーするのは今後の課題 
❖ 全てのpiplineにおいて教師を作るのがとても面倒 
20

More Related Content

More from Ace12358

Dual tkb a-dual_learning_bridge_between_text_and_knowledge_base
Dual tkb  a-dual_learning_bridge_between_text_and_knowledge_baseDual tkb  a-dual_learning_bridge_between_text_and_knowledge_base
Dual tkb a-dual_learning_bridge_between_text_and_knowledge_base
Ace12358
 
Knowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embeddingKnowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embedding
Ace12358
 
Low-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddingsLow-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddings
Ace12358
 
Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Neural relation extraction for knowledge base enrichment introduced by Yoshia...Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Ace12358
 
Emnl preading2016
Emnl preading2016Emnl preading2016
Emnl preading2016
Ace12358
 
Chainer meetup lt
Chainer meetup ltChainer meetup lt
Chainer meetup lt
Ace12358
 
Emnlp2015 reading festival_lstm_cws
Emnlp2015 reading festival_lstm_cwsEmnlp2015 reading festival_lstm_cws
Emnlp2015 reading festival_lstm_cws
Ace12358
 
Acl reading 2nd
Acl reading 2ndAcl reading 2nd
Acl reading 2nd
Ace12358
 
Naacl2015unsupervised morph
Naacl2015unsupervised morphNaacl2015unsupervised morph
Naacl2015unsupervised morph
Ace12358
 
DeepLearning論文紹介@Ace12358
DeepLearning論文紹介@Ace12358DeepLearning論文紹介@Ace12358
DeepLearning論文紹介@Ace12358
Ace12358
 
DeepLearning3@Ace12358
DeepLearning3@Ace12358DeepLearning3@Ace12358
DeepLearning3@Ace12358
Ace12358
 
ACLreading2014@Ace12358
ACLreading2014@Ace12358ACLreading2014@Ace12358
ACLreading2014@Ace12358
Ace12358
 

More from Ace12358 (12)

Dual tkb a-dual_learning_bridge_between_text_and_knowledge_base
Dual tkb  a-dual_learning_bridge_between_text_and_knowledge_baseDual tkb  a-dual_learning_bridge_between_text_and_knowledge_base
Dual tkb a-dual_learning_bridge_between_text_and_knowledge_base
 
Knowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embeddingKnowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embedding
 
Low-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddingsLow-dimensional hyperbolic knowledge graph embeddings
Low-dimensional hyperbolic knowledge graph embeddings
 
Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Neural relation extraction for knowledge base enrichment introduced by Yoshia...Neural relation extraction for knowledge base enrichment introduced by Yoshia...
Neural relation extraction for knowledge base enrichment introduced by Yoshia...
 
Emnl preading2016
Emnl preading2016Emnl preading2016
Emnl preading2016
 
Chainer meetup lt
Chainer meetup ltChainer meetup lt
Chainer meetup lt
 
Emnlp2015 reading festival_lstm_cws
Emnlp2015 reading festival_lstm_cwsEmnlp2015 reading festival_lstm_cws
Emnlp2015 reading festival_lstm_cws
 
Acl reading 2nd
Acl reading 2ndAcl reading 2nd
Acl reading 2nd
 
Naacl2015unsupervised morph
Naacl2015unsupervised morphNaacl2015unsupervised morph
Naacl2015unsupervised morph
 
DeepLearning論文紹介@Ace12358
DeepLearning論文紹介@Ace12358DeepLearning論文紹介@Ace12358
DeepLearning論文紹介@Ace12358
 
DeepLearning3@Ace12358
DeepLearning3@Ace12358DeepLearning3@Ace12358
DeepLearning3@Ace12358
 
ACLreading2014@Ace12358
ACLreading2014@Ace12358ACLreading2014@Ace12358
ACLreading2014@Ace12358
 

EMNLPreading@Ace12358