Acl読み会2014
- 1. Learning to Predict Distributions
of Words Across Domains
[Bollegala+, 2014]
ACL2014読み会 @PFI 2014/ 7/12
@tempra28
2014/7/12 1ACL 読み会 2014 @ PFI
- 2. • お茶大 M2
– 専門分野:
自然言語処理, 機械学習
• Twitter (@tempra28)
2014/7/12 2ACL 読み会 2014 @ PFI
自己紹介
ぐらふぃ(仮)
- 5. • 単語は周辺文脈によって決定
– 共起する周辺単語の分布で表現
• 種々のNLPタスクに適応されてきた
– POSタグ付け, オントロジー学習...
映画の
レビュー
文書
ポータブル
コンピュータ
の文書
分布仮説に基づく単語表現
2014/7/12 5ACL 読み会 2014 @ PFI
同じ単語であっても
ドメインによって単語分布
は異なる
lightweight lightweight
- 7. ユニグラム・バイグラムの素性
• (単語×素性)の行列を作成: 行列A
• 各要素のPositive PMIを計算: 行列F
• 特異値分解により次元圧縮
素性ベクトル(単語分布)の作成
2014/7/12 ACL 読み会 2014 @ PFI 7
単
語
ユ
ニ
グ
ラ
ム
各要素のPPMIを計算
⇒ 行列Fを作成
SVD
圧縮された特徴ベクトル単
語
ユ
ニ
グ
ラ
ム
ソースドメイン,
ターゲットドメイン
それぞれで作成
- 10. • SドメインからTドメインのPosタグを予測
– Sドメインの全単語は含まれていると仮定
• CRFモデルで5素性を学習
– capitalization, numeric, prefixes, suffixes and
distributional features
• PLSRモデルからTドメインの単語分布を求める
• (学習済み)CRFでTドメインのPosタグ予測
(1) Cross-domain Posタグ付け
2014/7/12 ACL 読み会 2014 @ PFI 10
- 11. (1) Cross-domain Posタグ付け
• ターゲットドメイン文書にのみ出現する単語に対して
の予測結果
– NA: ドメイン適応なし
– Spred: ソースドメイン文書の素性を適応
– Tpred: ターゲットドメイン文書の素性を利用
– Filter: [Schnabel+,2013]のフィルタリング手法
• 提案手法の精度が良い (Tpredに対しては有意差無)
2014/7/12 ACL 読み会 2014 @ PFI 11
Wall Street Journalの5種ドメイン
をターゲットドメイン文書とした
-- POSタグ付き: 約1000文
-- POSタグなし : 約100,000文
- 13. (2) Cross-domain 評判文書分類
• baseline: NA, Spred, Tpred
• 先行研究: SCL, SFA, SCL (以前のstate-of-the-art), SST(教師あり)
• 提案手法: pivot選択(SFA)不要、
ターゲットドメインでの分布を直接推定
2014/7/12 ACL 読み会 2014 @ PFI 13
青の直線は
教師ありで分類
したときの精度
- 14. PLSR / SVDでの次元と精度の関係
• PLSR
– (SVDのk)=1000 (固定)
– L∈[10, 800]
– 精度は, ほぼ横ばい
• SVD
– (PLSRのL)=100 (固定)
– k∈[1000, 3000]
– 精度は単調減少
2014/7/12 ACL 読み会 2014 @ PFI 14
kが大き過ぎるとPLSRで
オーバーフィッテングする
- 15. 分布予測の例: lightweight
• Sドメイン文書(books) → Tドメイン文書(electronics)
• 上位3件の単語分布
• PLSRによるマッピングにより、ドメインによる単語の
ミスマッチなく、lightweightの類似単語がとれている
2014/7/12 ACL 読み会 2014 @ PFI 15
booksドメイン
electronicsドメイン
PLSRによるマッピングなし
PLSRによるマッピングあり
Editor's Notes
- Positive PMI
- 重回帰分析をする際、説明変数の中に互いに相関が高い変数が含まれる場合
通常の、最小2乗法では回帰係数の推定精度が悪くなる(多重共線性)という問題がある
PCR回帰(説明変数に対して主成分分析を行い、その主成分得点を使って従属変数を説明)
PLS回帰(説明変数から潜在変数を計算し、そのスコアで従属変数を予測
因子 X を説明変数として直接回帰に用いず、潜在変数T を説明変数として従属変数Y への
回帰を行う。
MI
- r = 10コで計算
単語wに対してsim(MuS(i), wT)の値が大きい、rコのu(i)を求める
- (ロジスティック回帰は多クラスでも容易に拡張可能)
- 直線はラベルデータを使って訓練した場合の精度
SFAとSCLがこれまでのstate-of the-art、SSTはマッピングにあたってラベルありデータが必要
SFAはヒューリスティックにpivot選択が必要だが不要。
またターゲットレビューを低次元の潜在空間に写像して、訓練器にかけているだけだけど、提案手法では
マッヒング先の