NAACL 2015 Unsupervised Multi-Domain Adaptation with Feature Embedding

NAACL ２０１５読み会
Unsupervised Multi-Domain
Adaptation with Feature Embedding
Yi Yang and Jacob Eisenstein
２０１５/０６/２４
M１堺澤勇也
※ このスライド中の全ての図はこの論文中のもので

表現学習は DA に対して有力な技術である
最近の研究では，SCLやDenoising Autoencoderなどで
学習した表現がいい結果を出している
しかし，上記の方法は以下のような問題点がある
• 訓練コストが高い
• ヒューリスッティクに“pivot feature”を与える必要が
ある
• 単一ソースから単一ターゲットに問題を限定してい
る
Introduction

SCL と DA (Denoising Autoencoder) はソースとター
ゲット間で類似している表現を学習している → pivot
featureを学習
これは，DAを解決するのに有効な
表現を学習出来るが以下の問題点がある
• 計算コストが高い
• pivot feature を再構築する必要がある
先行研究

直接素性の表現を学習する (noise-constrastive estimation)
目的関数
学習後のインスタンス n の表現
提案手法
n : インスタンス (n ∈ {1, … , N})
t : 素性テンプレート (t ∈ {1, … , T})
ufn(t) : 入力, vfn(t) : 出力
σ : シグモイド関数
Pt’
(n) : noise distribution
学習

M個の metadata ドメインを入れる（右図）
目的関数
Xn
(aug)を作る時はhi
(０) のみ使用
FE across domains

 二つの設定で品詞タグ付けを行う
① ニュース記事からweb記事に対してタグ付け(SANCL
share task)
② いくつかの時代とジャンルを超えたドメイン間の品
詞タグ付け(Tycho Brahe corpus)
 ①の結果→FE が品詞タグ付けによく効くか評価
 ②の結果→multi-attribute DA の評価
Experiments

 品詞タグ付けを分類問題として解く（SVM使用）
 素性
 FEMA (Lexical + Affixes = １３)
 basic feature (All = １６)
Experiments detail

学習(news : WSJ)
 training ： section ０２-２１
 dev ： secction ２２
 Learning representation ：１００,０００のラベルな
し文
学習(web : SANCL)
 ５つのジャンル(newsgroups, reviews, weblogs,
answers, emails) からそれぞれ１００,０００のラベル
なし文
 ただし， ANSWERS domain のみ２７,２７４文
テスト
 各ドメインの１０００文のラベルありデータ
Evaluation：①

比較システム６つ
• baseline : word2vecで表層の表現のみ使用
• MEMM : maximum entropy Markov model
• FlORS : distribution features を使用
• SCL, mDA : pivot feature それぞれ６９１８, ２７５４
• word2vec, FEMA : それぞれ１００次元でサンプリング数
５
実験結果：

 Tycho Brahe corpus は下の図のような形のコーパス
 最新のものを学習データとし，それ以外のジャン
ルで品詞タグ付けを行う
Evaluation
s : source, t : target

実験結果：
SCL : １８２３
mDA : １８２３
word2vec : ５０，１５
FEMA(s) : ５０，１５
FEMA(a) : ５０，１５
FEMA(s) : ufn(t) 使用
FEMA(a) : hfn(t)
(０) 使用

 FE は，DA に対して有効であることがわかった
 metadata domain attribute を持つ FE の組み合わせ
によって，各素性のドメイン普遍の本質を取得し，
より頑健な表現を得ることができた
まとめ

NAACL 2015 Unsupervised Multi-Domain Adaptation with Feature Embedding

Recommended

Recommended

More Related Content

Similar to NAACL 2015 Unsupervised Multi-Domain Adaptation with Feature Embedding

Similar to NAACL 2015 Unsupervised Multi-Domain Adaptation with Feature Embedding (6)

NAACL 2015 Unsupervised Multi-Domain Adaptation with Feature Embedding