文献紹介：Mine the Easy, Classify the Hard: A Semi-Supervised Approach to Automatic Sentiment Classification

文献紹介 2014/07/03
長岡技術科学大学
自然言語処理研究室
岡田正平

文献情報
SajibDasguptaand Vincent Ng
Mine the Easy, Classify the Hard: A semi- Supervised Approach to Automatic Sentiment Classification
In Proceedings of the 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP, pp 701-709.
2009
2014/7/3 文献紹介 2

概要
•
semi-supervised approach to sentiment classification
•
はじめに曖昧でないデータだけを分けて，その結果を利用して曖昧なデータを分類する手法
2014/7/3 文献紹介 3

背景
2014/7/3 文献紹介 4

背景
polarityclassification はtopic-based text classification と比べ曖昧性が多い
•
1つのレビュー内で良い部分と悪い部分の両方に言及する
•
長々と解説して，最後にちょっとだけ自分の意見を言う
2014/7/3 文献紹介 5

背景
過去に行われた研究(supervised approach)
•
客観的な部分を独立に学習・分類
•
positive/negativeの他にneutralも用いる
•
sentence-and document-level sentiment analysis を同時に扱うモデル

大量の手動アノテーションが必要
2014/7/3 文献紹介 6

背景
unsupervised approachは意義は大きいが難しい
•
domain-specific なことが一因
•
一般的なクラスタリング手法では，有効な素性を同定できない
2014/7/3 文献紹介 7

背景
提案手法(semi-supervised) “mine the easy, classify the hard”approach
•
最初に曖昧でないレビュー(i.e., “easy”)を同定しラベル付けを行う
•
次に曖昧なレビュー(i.e., “hard”)を扱う
2014/7/3 文献紹介 8

Spectral Clustering
k-means法では線形分離不可能なデータに対応不可

Spectral Clusteringを適用
–
情報を保ちつつ低次元空間に移してからクラスタリングを行う
2014/7/3 文献紹介 10

Spectral Clustering
푆: 各データ間の類似度行列
퐺: (푖,푖)の要素が푆の푖番目の行の総和である対角行列
퐿: ラプラシアン行列
퐿=퐺1/2푆퐺−1/2
2014/7/3 文献紹介 11

Spectral Clustering
•
퐿について，固有値の大きい方から푚個の固有ベクトルで新しい行列をつくる
–
各データ点が푚次元空間に移される
•
各行を単位長に正規化（各符号は保持）
•
k-means法によりクラスタリングを行う
2014/7/3 文献紹介 12

Spectral Clustering
※各次元は1つの固有ベクトルにより定義される
•
固有値の大きい固有ベクトルはデータに対して大きい分散を持つ

（クラスタリングのために）重要な次元が選択されると考えられる
2014/7/3 文献紹介 13

Spectral Clustering
1110011100001100001100011 −0.69830.7158−0.69830.7158−0.9869−0.1616−0.6224−0.7827−0.6224−0.7827 2014/7/3 文献紹介 14

提案手法
•
spectral clustering を用いても，うまく分離できるとは限らない
–
曖昧なレビューが存在するため

一度に全てクラスタリングせず，曖昧なレビューは別で扱う
2014/7/3 文献紹介 16

提案手法
1.
spectral clustering を用いて曖昧でない(i.e., “easy”)レビューを同定・分類
2.
少数の曖昧な(i.e., “hard”)レビューに対し手動でラベリング
3.
これらを使って残りのレビューを分類
2014/7/3 文献紹介 17

提案手法
1.
2.
3.
2014/7/3 文献紹介 18

提案手法| step 1
•
素性ベクトルはBOW
–
句読点, 長さ1の単語，単一のレビューにしか現れない語を除去
–
文書頻度の高い方から1.5%の語も除去
•
類似度行列の計算には，内積を用いる
–
ただし，対角成分は0とする
2014/7/3 文献紹介 19

どの固有ベクトルを用いるか？
•
一般に2番目の固有ベクトルのみを用いるのが良いと言われている
•
提案手法の場合は必ずしもそうではない

5番目までの固有ベクトルを用いる（→次ページに続く）
2014/7/3 文献紹介 20

各固有ベクトルに対して
1.
푛個の要素それぞれを閾値として扱う（푛通りの分割方法が存在することになる）
2.
各分割方法についてcut-valueを計算する
3.
最小のcut-valueを選ぶ
最小のcut-valueを持つ固有ベクトルを用いる
2014/7/3 文献紹介 21

曖昧なレビューを同定する
1110011100001100001100011 −0.69830.7158−0.69830.7158−0.9869−0.1616−0.6224−0.7827−0.6224−0.7827 2014/7/3 文献紹介 22

1110011100001100001100011 −0.69830.7158−0.69830.7158−0.9869−0.1616−0.6224−0.7827−0.6224−0.7827 2014/7/3 文献紹介 23

1110011100001100001100011 −0.69830.7158−0.69830.7158−0.9869−0.1616−0.6224−0.7827−0.6224−0.7827 2014/7/3 文献紹介 24

1110011100001100001100011 −0.69830.7158−0.69830.7158−0.9869−0.1616−0.6224−0.7827−0.6224−0.7827 2014/7/3 文献紹介 25
曖昧なレビュー

1110011100001100001100011 −0.69830.7158−0.69830.7158−0.9869−0.1616−0.6224−0.7827−0.6224−0.7827 2014/7/3 文献紹介 26

1110011100001100001100011 −0.69830.7158−0.69830.7158−0.9869−0.1616−0.6224−0.7827−0.6224−0.7827 2014/7/3 文献紹介 27

1110011100001100001100011 −0.69830.7158−0.69830.7158−0.9869−0.1616−0.6224−0.7827−0.6224−0.7827 2014/7/3 文献紹介 28

1.
データ点集合퐷から先述の手順に従ってラプラシアン行列の固有ベクトルを選ぶ
2.
固有ベクトルにしたがって퐷をソートし中央の훼個のデータを取り除く
3.
データ点の数が훽個になるまで1,2を繰り返す
4.
固有ベクトルを用いて，2-meansによるクラスタリングを行う
2014/7/3 文献紹介 29

筆者らの実験では
•
훼=50
•
훽=500
2014/7/3 文献紹介 30

得られた2クラスタに対してラベルを付ける
•
10点ずつランダムサンプリングし手動で positive/negative のタグ付け
•
半数より多くpositiveが付けられたらそのクラスタはpositive，それ以外はnegative
2014/7/3 文献紹介 31

評価データセットに対するseedの分類精度
2014/7/3 文献紹介 32

•
Book およびDVD を除き，80%超え
•
不完全なseedデータでも，よりよく分類器を学習させる
2014/7/3 文献紹介 33

提案手法
1.
2.
3.
2014/7/3 文献紹介 34

クラスタリング手法だけでは各素性が有効かそうでないかを同定できない
•
seed set を用いて極性分類に有効な素性を同定
2014/7/3 文献紹介 35

seed set が高精度であっても，残りのデータを精度よく分類できないことが予測される
•
曖昧なレビューとそうでないレビューの両方で学習しなければ高精度は達成できないと仮定
•
曖昧なレビューの中でも特に曖昧さが大きいものから学習する方が効率がいい
2014/7/3 文献紹介 36

active learning を適用
•
seed set を用いてSVMを学習させる
•
SVMに残りのデータを入力
•
SVMの分離超平面に近いデータ点（=曖昧な点） 10個ずつを人手でタグ付け，それを含めて再学習

繰り返すことで，計100個の人手によるラベル付きデータを得る
2014/7/3 文献紹介 37

提案手法
1.
2.
3.
2014/7/3 文献紹介 38

transductiveSVMを適用
•
step 1で得られたラベル付きデータ（低精度）の数の方が大きい
（step 1: 500，step 2: 100）
–
分離超平面の決定時に支配的に振る舞う
2014/7/3 文献紹介 39

step 2で得られたラベル付きデータ（高精度）を効率良く使い，またノイズに強い分類器を構築したい

5つの分類器を別々に学習させる
–
それぞれ100個の高精度ラベル付きデータ（共通）と，100個の低精度ラベル付きデータ（別々）で学習を行う
2014/7/3 文献紹介 40

データセットの分け方
•
step 1 の最終的な固有値ベクトルの要素値に基づき昇順にソート
•
푖番目のデータを(푖 mod 5)番目のセットに含める

ただ分けるだけでなく，信頼性の高い/低いデータ点を等しく分ける
2014/7/3 文献紹介 41

最終的に，ラベル無しデータに対して
•
5つの分類器のconfidence value （符号付）の総和をとる
•
0以上ならpositive，それ以外ならnegative
2014/7/3 文献紹介 42

評価| データセット
•
movie (MOV), books (BOO), DVDs (DVD), electronics (ELE), kitchen appliances (KIT) の 5種類のレビューデータセット（ラベル付き）を使用
•
各データセットのサイズは2000（positive, negative それぞれが1000ずつ）
2014/7/3 文献紹介 44

評価| 指標
•
10分割交差検定を用いて精度を評価
•
Adjusted Rand Index でも評価
–
−1から1の値を取り，大きいほど良い指標
2014/7/3 文献紹介 45

評価| ベースライン
公平を期すため，各ベースラインは 100個のデータのラベルを使用できる
•
Semi-supervised spectral clustering
•
TransductiveSVM
•
Active learning
2014/7/3 文献紹介 46

評価| 結果
2014/7/3 文献紹介 47

評価| 結果
2014/7/3 文献紹介 48

評価| 結果
•
いずれのデータセット・評価指標でも，提案手法が最高結果を達成
•
step 1 の段階でも，ベースラインに匹敵する精度を達成
•
ステップを追うごとに精度は向上していく
2014/7/3 文献紹介 49

評価| 追加実験
どの部分が性能に影響を与えているのかを調べる

次の7つの手法を評価する
2014/7/3 文献紹介 50

•
seeds を得る際にsingle step で行う
•
seeds を用いない
•
曖昧さの小さい方から100個のみをseeds とする
•
分類器を5つに分けない
•
passive learningを用いる(100個をランダムに選ぶ)
•
active learning で500個のデータを得る
•
fully supervised
2014/7/3 文献紹介 51

2014/7/3 文献紹介 52

2014/7/3 文献紹介 53

•
seeds, ensemble, active learningのいずれも精度向上に貢献している
•
seedsは低精度であっても貢献している
•
3つのデータセットについては，人手によるラベル付きデータを500個程度用意することで， fully-supervised の精度をほぼ達成している
2014/7/3 文献紹介 54

結論
•
感情極性分類のsemi-supervised なアプローチ
•
“mine the easy, classify the hard” apprach
•
高い精度を達成
•
次の観点から拡張可能
–
この手法は感情の分類に特化していない
–
素性はBOWしか使っていない
2014/7/3 文献紹介 56

文献紹介：Mine the Easy, Classify the Hard: A Semi-Supervised Approach to Automatic Sentiment Classification

More Related Content

Viewers also liked

Similar to 文献紹介：Mine the Easy, Classify the Hard: A Semi-Supervised Approach to Automatic Sentiment Classification

More from Shohei Okada

文献紹介：Mine the Easy, Classify the Hard: A Semi-Supervised Approach to Automatic Sentiment Classification