8. 3, Experiments
3.1 Model
CRF(features proposed by Gimpel et al. 2011)
Twitterコーパスから抽出したBrown word cluster
プールサイズ:1000
500や2000のサイズでの実験では同じような結果に
なった.
development dataでの反復回数:i
websiteへのNER
品詞タグ付け:LAPOS tagger (Tsuruoka et al., 2011)
NERシステム:Stanford NER system (Finkel et al.,
2005)
Stanford NER taggerでのタグ付けと,各iteration
でタグ付けし直すよりもoff-lineでのタグ付けをした
方がわずかに良い結果となった.
8
9. 3.2 Data
unsupervised domain adaptation(DA)
ラベル付けされたニュース記事データのみ
semi-supervised DA
twitterデータとニュース記事
training data
POS
WSJ newswire
in-domain training POS data comes from Gimpel et al.
(2011)
NER
CoNLL2003datasetsofannotated newswire from the Reuters
corpus.
in-domain NER data comes from Finin et al. (2010) (FININ-TRAIN)
9
in-domain out-of-domain
10. 3.2 Data
Unlabeled data
TwitterAPIでtweet-websiteのペアを200k収集.
websiteに1文以上含まれているか,ストップワード以外
の単語が少なくとも1語以上含まれているかなどの制限
をかけたもの.
out-of-vocabulary(OOV) rate
10