Acl読み会2014

Learning to Predict Distributions
of Words Across Domains
[Bollegala+, 2014]
ACL2014読み会 @PFI 2014/ 7/12
@tempra28
2014/7/12 1ACL 読み会 2014 @ PFI

• お茶大 M2
– 専門分野:
自然言語処理, 機械学習
• Twitter (@tempra28)
2014/7/12 2ACL 読み会 2014 @ PFI
自己紹介
ぐらふぃ(仮)

1枚概要
異ドメインでの単語分布を予測しよう!
• 教師なしによる手法を提案
– 特異値分解で低次元ベクトルを抽出
– PSL回帰でドメイン間のベクトルをマッピング
• 実験
cross-domain 品詞タグ付け/ 評判分析
(結果はいずれもstate-of-the-art)
• 他のドメイン適応タスクにも使える
2014/7/12 3ACL 読み会 2014 @ PFI

2014/7/12 ACL 読み会 2014 @ PFI 4
背景

• 単語は周辺文脈によって決定
– 共起する周辺単語の分布で表現
• 種々のＮＬＰタスクに適応されてきた
– POSタグ付け, オントロジー学習...
映画の
レビュー
文書
ポータブル
コンピュータ
の文書
分布仮説に基づく単語表現
2014/7/12 5ACL 読み会 2014 @ PFI
同じ単語であっても
ドメインによって単語分布
は異なる
lightweight lightweight

2014/7/12 ACL 読み会 2014 @ PFI 6
単語分布の作成

ユニグラム・バイグラムの素性
• (単語×素性)の行列を作成: 行列A
• 各要素のPositive PMIを計算: 行列F
• 特異値分解により次元圧縮
素性ベクトル(単語分布)の作成
2014/7/12 ACL 読み会 2014 @ PFI 7
単
語
ユ
ニ
グ
ラ
ム
各要素のPPMIを計算
⇒ 行列Fを作成
SVD
圧縮された特徴ベクトル単
語
ユ
ニ
グ
ラ
ム
ソースドメイン,
ターゲットドメイン
それぞれで作成

• 2つのベクトルに対して回帰モデルを学習
• 説明変数から潜在変数を計算し、その潜在
変数から従属変数を予測
Partial Least Squares Regression
2014/7/12 ACL 読み会 2014 @ PFI 8
Lコのベクトルペア(λl γl)を求める
(特に、||pl||=||ql||=1で
Cov(λl γl)が最大になるように)
対応関係Mでマッピング

2014/7/12 ACL 読み会 2014 @ PFI 9
実験

• SドメインからTドメインのPosタグを予測
– Sドメインの全単語は含まれていると仮定
• CRFモデルで5素性を学習
– capitalization, numeric, prefixes, suffixes and
distributional features
• PLSRモデルからTドメインの単語分布を求める
• (学習済み)CRFでTドメインのPosタグ予測
(1) Cross-domain Posタグ付け
2014/7/12 ACL 読み会 2014 @ PFI 10

(1) Cross-domain Posタグ付け
• ターゲットドメイン文書にのみ出現する単語に対して
の予測結果
– NA: ドメイン適応なし
– Spred: ソースドメイン文書の素性を適応
– Tpred: ターゲットドメイン文書の素性を利用
– Filter: [Schnabel+,2013]のフィルタリング手法
• 提案手法の精度が良い (Tpredに対しては有意差無)
2014/7/12 ACL 読み会 2014 @ PFI 11
Wall Street Journalの5種ドメイン
をターゲットドメイン文書とした
-- POSタグ付き: 約1000文
-- POSタグなし : 約100,000文

• L2正則化ロジスティック回帰で2値分類
• パラメータθを学習:
– 単語w(i)の素性u(i)のスコア式の上位rコをu(i)を素
性に採用
– Hはテスト用ターゲットドメイン文書
• Amazon製品レビュー文書 (4種ドメイン)
(2) Cross-domain 評判文書分類
2014/7/12 ACL 読み会 2014 @ PFI 12

(2) Cross-domain 評判文書分類
• baseline: NA, Spred, Tpred
• 先行研究: SCL, SFA, SCL (以前のstate-of-the-art), SST(教師あり)
• 提案手法: pivot選択(SFA)不要、
ターゲットドメインでの分布を直接推定
2014/7/12 ACL 読み会 2014 @ PFI 13
青の直線は
教師ありで分類
したときの精度

PLSR / SVDでの次元と精度の関係
• PLSR
– (SVDのk)=1000 (固定)
– L∈[10, 800]
– 精度は, ほぼ横ばい
• SVD
– (PLSRのL)=100 (固定)
– k∈[1000, 3000]
– 精度は単調減少
2014/7/12 ACL 読み会 2014 @ PFI 14
kが大き過ぎるとPLSRで
オーバーフィッテングする

分布予測の例: lightweight
• Sドメイン文書(books) → Tドメイン文書(electronics)
• 上位3件の単語分布
• PLSRによるマッピングにより、ドメインによる単語の
ミスマッチなく、lightweightの類似単語がとれている
2014/7/12 ACL 読み会 2014 @ PFI 15
booksドメイン
electronicsドメイン
PLSRによるマッピングなし
PLSRによるマッピングあり

まとめ
• 単語の素性はドメインによって変化
• PLS回帰を用いて、異ドメインでの(単語)素性
ベクトルの予測
• Cross-domainのPosタグ付け, 評判文書分類
• 予測自体は教師なしなので他のNLPタスクに
も適応可
2014/7/12 16ACL 読み会 2014 @ PFI

Acl読み会2014

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (13)

Acl読み会2014

Editor's Notes