Coling読み会 2014

Adapting taggers to Twitter
with not-so-distant supervision
(Plank et al.)
COLING 2014 読み会(2014/11/05)
小町研M1 平田亜衣1

Abstract
 遠距離学習(半教師ありと教師なし学習)を用いたツ
イッターへのPOSとNERの適用．
 特に良いnot-so-distant supervisionの一番良いソー
スとしてウェブサイトのリンクを用いた．
 TwitterにおけるPOS taggingとNERにおいてstate-of-
the-artの研究を大きく改善した．
 POS tagging：89.76% accuracy, 8% error reduction
 NER：F1=79.4%, 10% error reduction
2

1,Introduction
 Twitterから自動で情報抽出する研究が多くなされて
いる．
 しかし，Hovy et al. (2014)ではこれまで提案された
モデルは各々サンプルにオーバーフィッティングして
いて，twitterデータ以外での評価はとても下がること
を示した．
 これはtwitterでドリフトしているためであったり
Eisenstein (2013)，単純にtwitterが異質であったり，
小さなサンプルにバイアスがかかっていたりするため
である．
 この論文では，ラベル付けされていないtweetからの
学習を追加することによって，少なくともこのバイア
スを正すことができるという仮説を立て，検証してい
く．
3

 この論文ではラベル付けされてないデータからの学習
を助けるための遠距離教師あり学習を提案する．
 我々のアイデアは，遠距離教師あり学習としてtweet
に付随するURLのウェブサイトの言語情報を使う．
 リンクされているウェブサイトを学習の時のみに使う
が，テストの段階では必要としない．
 我々の半教師ありの手法は他に存在するアプローチよ
りも違ったtweetのデータに対して頑健にPOSタグ付
けとNERモデルを学習することができる．
4

5
2, Tagging with not-so-distant
狙いはラベル付けされていない
tweetの小さなpoolでタグ系列
の推測によってモデルのバイア
スを修正し，数回のモデルの再
学習によって徐々にモデルのバ
イアスを正しくすることである．
ベースラインとpredict()
functionの扱いが違うだけ
の4つのシステムで実験す
る．
supervision
tweet(x)とtweet内のリ
ンク先ウェブサイト(w)

 ベースラインと4つのpredict()
 SELF-TRAINING baseline
 一般的なラベル付けされていないtwitterデータへの推
測．predict()のvのみでwを考慮しないもの．
 WEB
 ウェブサイトからの情報を追加する．tweetとそれと
一致するウェブサイト両方で出現したすべての単語に
対して，ウェブサイトで当てはまるタグを付与する．
 例
 (1)でタグ付けをすると”Supplier”がadjective(形容
詞)と判断される．(間違い)
 (2)だと右の単語(“Project”)と同じで，noun(名詞)だ
と判断される．(正解)
6

 DICT
 辞書(Wikitionary)のみを使うもの．
 DICT<WEB
 辞書の情報とwebの情報が衝突した時に，webの情報
を使うもの．
 WEB<DICT
 逆に辞書の情報を使うもの．
7

3, Experiments
 3.1 Model
 CRF(features proposed by Gimpel et al. 2011)
 Twitterコーパスから抽出したBrown word cluster
 プールサイズ：1000
 500や2000のサイズでの実験では同じような結果に
なった．
 development dataでの反復回数：i
 websiteへのNER
 品詞タグ付け：LAPOS tagger (Tsuruoka et al., 2011)
 NERシステム：Stanford NER system (Finkel et al.,
2005)
 Stanford NER taggerでのタグ付けと，各iteration
でタグ付けし直すよりもoff-lineでのタグ付けをした
方がわずかに良い結果となった．
8

 3.2 Data
 unsupervised domain adaptation(DA)
 ラベル付けされたニュース記事データのみ
 semi-supervised DA
 twitterデータとニュース記事
 training data
 POS
 WSJ newswire
 in-domain training POS data comes from Gimpel et al.
(2011)
 NER
 CoNLL2003datasetsofannotated newswire from the Reuters
corpus.
 in-domain NER data comes from Finin et al. (2010) (FININ-TRAIN)
9
in-domain out-of-domain

 3.2 Data
 Unlabeled data
 TwitterAPIでtweet-websiteのペアを200k収集．
 websiteに1文以上含まれているか，ストップワード以外
の単語が少なくとも1語以上含まれているかなどの制限
をかけたもの．
 out-of-vocabulary(OOV) rate
10

4,Result
 4.1 POS results
11

4,Result
 4.1 POS results
12
OOV rateが低
いため，高い
値が出る．
これら提案手法では，
既存のシステ(Owoputi
et al., 2013)の87.5%の
精度よりも良い結果が
得られた

 Learning with URLs
 Note, again, that they do not require the test data
to contain URLs.
13

Coling読み会 2014

Recommended

Recommended

More Related Content

Similar to Coling読み会 2014

Similar to Coling読み会 2014 (10)

Recently uploaded

Recently uploaded (8)

Coling読み会 2014