レビューサイトにおける不均質性を考慮した	
特異なレビュアー発⾒とレビューサマリの推測
川本 淳平1 浅野 泰仁2 俵本 ⼀輝2 吉川 正俊2
1.  九州⼤学⼤学院システム情報科学研究院
2.  京都⼤学⼤学院情報学研究科
レビューサイト
•  顧客や販売者の意思決定に対して影響を与える	
•  Amazon,	価格.com,	IMDb	など多くのサイトがレビューを掲載	
•  特異なレビュー	
•  スパムレビュー (Social	spammers	や Crowd	turfing	workers)	
•  ステルスマーケティング	
•  エキスパートによるレビュー	
•  「一般的な」人々が求めているレビューと乖離しているレビュー	
•  初期レビューにおける特異なレビューの問題	
•  レビュー数が少ない・特異なレビューが多数となりやすい	
2016/3/1 DEIM	Forum	2016	G6-3		 2
⽬的
•  商品販売当初などレビュー数の少ない段階において	
•  特異なレビュアーの発⾒	
•  ⻑期間レビューの予測	
2016/3/1
レビュアー
対象
レビュアー
⭐
⭐⭐⭐
⭐⭐
どちらが特異か?
⼗分時間経過後の	
評価はどうなるか?
DEIM	Forum	2016	G6-3		 3
⽂脈⾮依存・教師なし学習で
⽬的
•  商品販売当初などレビュー数の少ない段階において	
•  特異なレビュアーの発⾒	
•  ⻑期間レビューの予測	
2016/3/1
レビュアー
対象
レビュアー
⭐
⭐⭐⭐
⭐⭐
対象
対象
対象
対象
⭐
⭐
⭐
⭐
⭐
他の対象へのレビューも考慮して判断
DEIM	Forum	2016	G6-3		 4
⽂脈⾮依存・教師なし学習で
ニ部グラフと反復改良
•  ⼆つのスコア	
•  レビュアーに特異度を定義	
•  レビュー対象にサマリスコアを定義	
•  ⼆つのスコアの関係性	
•  特異なレビュアーは個々の評価対象について	
サマリとは異なる評価値を与えるだろう 	
•  評価のサマリは	
特異でない通常の評価者の評価値と近い値であるべき	
•  ⼆つのスコアを繰り返し計算する	
•  繰り返し計算によりレビュアーの他のレビュー傾向を反映可能	
•  レビュー数の少ない初期状態での特異なレビュアーの影響を削減	
2016/3/1
レビュアー
対象
レビュアー
⭐
⭐⭐⭐
⭐⭐
特異度:	0.9
特異度:	0.2
サマリ:	4.8
DEIM	Forum	2016	G6-3		 5
関連研究
•  スパムレビュアーの検知に関する研究1	
•  ⼗分な学習⽤データを利⽤するものが多い	
•  レビュー数が少ない場合学習⽤データの取得は難しい	
•  特異なレビュアーはスパムレビュアーを⼀般化したもの	
•  査読プロセスにおけるレビュー解析2	
•  「厳しい査読者」と「優しい査読者」など傾向の分析	
•  査読者は正当に振る舞うと仮定	
•  オンラインショップのレビュー評価3	
•  限られた期間内に⾏われた商店の評価分析	
•  評価実験において⽐較対象とする	
2016/3/1
1.	Mukherjee,	A.,	Liu,	B.,	Wang,	J.,	Glance,	N.S.,	Jindal,	N.:	Detecting	group	review	spam.	World	Wide	Web	
(Companion	Volume).	(2011)	93–94		
2.	Lauw,	H.W.,	Lim,	E.,	Wang,	K.:	Summarizing	review	scores	of	”unequal”	reviewers.	In:	Proceedings	of	
the	Seventh	SIAM	International	Conference	on	Data	Mining.	(2007)	539–544		
3.	Wang,	G.,	Xie,	S.,	Liu,	B.,	Yu,	P.S.:	Review	Graph	Based	Online	Store	Review	Spammer	Detection.	In:	
Proc.	of	the	11th	IEEE	International	Conference	on	Data	Mining.	(2011)	1242–1247		
DEIM	Forum	2016	G6-3		 6
レビューサイトにおける⾮対称性
•  レビュー数の不均質性	
•  ⼀部の対象のみ⼤量のレビューを集める	
•  多くのレビューを集めていて分散が⼤きい場合	
vs.		少ないレビューで分散が⼩さい場合	
•  レビュー傾向の不均質性	
•  ⽢めのレビューになりやすい	vs.	厳し⽬のレビューになりやすい	
2016/3/1 DEIM	Forum	2016	G6-3		 7
既存研究ではこれらの⾮対称性は考慮されていない
本発表における提案
•  各レビュー対象における評価値の論争度	
•  レビュー数とその分散から求まる値
•  レビュー数が多く分散が⼩さければ論争度は低い	
•  論争度の⼤き対象に対するレビューから特異か否かは判断しにくい	
•  評価値の偏差希少度	
•  レビューとサマリとの差分が発⽣する頻度を考慮	
•  サマリと少しずれているレビューは多い	
•  差分に対して線形のペナルティを与えると,	
差分の⼩さいレビュアーに対して過剰なペナルティとなっていた.	
2016/3/1 DEIM	Forum	2016	G6-3		 8
本発表における提案
•  各レビュー対象における評価値の論争度	
•  レビュー数とその分散から求まる値
•  レビュー数が多く分散が⼩さければ論争度は低い	
•  論争度の⼤き対象に対するレビューから特異か否かは判断しにくい	
•  評価値の偏差希少度	
•  レビューとサマリとの差分が発⽣する頻度を考慮	
•  サマリと少しずれているレビューは多い	
•  差分に対して線形のペナルティを与えると,	
差分の⼩さいレビュアーに対して過剰なペナルティとなっていた.	
2016/3/1 DEIM	Forum	2016	G6-3		 9
レビュー対象ごとの特徴
データセットごとの特徴
スコア計算の概要
•  反復改良	
•  ⼆つのスコアの影響を相互に考慮し解を求める	
•  レビュアーの特異度を元にサマリを計算する	
•  サマリとの乖離を元に特異度を計算する	
•  ⼆部グラフモデル	
•  レビュアーとレビュー対象の⼆種類の頂点からなるグラフ	
•  それぞれの枝にレビュースコアを設定	
2016/3/1 DEIM	Forum	2016	G6-3		 10
スコア計算の概要
•  反復改良	
•  ⼆つのスコアの影響を相互に考慮し解を求める	
•  レビュアーの特異度を元にサマリを計算する	
•  サマリとの乖離を元に特異度を計算する	
•  ⼆部グラフモデル	
•  レビュアーとレビュー対象の⼆種類の頂点からなるグラフ	
•  それぞれの枝にレビュースコアを設定	
2016/3/1
個々の対象について	
サマリを計算
DEIM	Forum	2016	G6-3		 11
スコア計算の概要
•  反復改良	
•  ⼆つのスコアの影響を相互に考慮し解を求める	
•  レビュアーの特異度を元にサマリを計算する	
•  サマリとの乖離を元に特異度を計算する	
•  ⼆部グラフモデル	
•  レビュアーとレビュー対象の⼆種類の頂点からなるグラフ	
•  それぞれの枝にレビュースコアを設定	
2016/3/1
個々の対象について	
サマリを計算
サマリを元に特異度を計算
DEIM	Forum	2016	G6-3		 12
スコア計算の概要
•  反復改良	
•  ⼆つのスコアの影響を相互に考慮し解を求める	
•  レビュアーの特異度を元にサマリを計算する	
•  サマリとの乖離を元に特異度を計算する	
•  ⼆部グラフモデル	
•  レビュアーとレビュー対象の⼆種類の頂点からなるグラフ	
•  それぞれの枝にレビュースコアを設定	
2016/3/1
特異度を元に	
サマリを更新
サマリを元に特異度を計算
DEIM	Forum	2016	G6-3		 13
論争度
•  対象が「評価の分かれる」ものか否かを表す指標	
•  レビュー対象	q に寄せられたレビューの分散:	σq
2	
•  q とレビュー数が等しい対象におけるレビュー分散の平均:	σ2	
•  σq
2	–	σ2	>	0 ならば	q	へのレビュー分散は相対的に⼤きい		
•  σq
2	–	σ2	<	0 ならば	q	へのレビュー分散は相対的に⼩さい 	
•  レビュー対象	q の論争度	
•  q のレビュー数が	1 の時:	0.5	
•  それ以外:	
2016/3/1 DEIM	Forum	2016	G6-3		 14
)( 22
1
1
1 σσα −
+
−
p
N
N:	qに寄せられたレビュー数	
α:	パラメータ
偏差稀少度
•  レビューとサマリの偏差の希少性を考慮	
•  レビュア p	の対象 q	へのレビュー:	r	
•  対象 q	のサマリ:	s(q)	
•  レビュー r	と対象 q	のサマリ s(q) との偏差:	d(r,	q)	=	|r	–	s(q)|	
•  データセット全体で偏差の分布を計算	
•  分布の累積密度関数を F(d)	とする (d は偏差)	
•  レビュアーr	の商品 p	に対するレビューの偏差希少度
2016/3/1 DEIM	Forum	2016	G6-3		 15
偏差の平均
)(|))((|)()),(( dFqsrFdFqrdF −−=−
この偏差は相対的に⼤きいか?⼩さいか?
レビュアーの特異度
•  レビュアーの対象別特異度	
•  レビュアー	p のレビュー対象 q に対する特異度	
•  偏差希少度にシグモイド関数を適⽤	
•  論争度は偏差希少度の増幅に使⽤	
•  論争度が⼩さい場合,偏差希少度の影響を強く	
•  論争度が⼤きい場合,対象別特異度を 0.5	(ニュートラル)	へ近づける	
•  レビュアー	p	の特異度	
•  レビュアー	p が評価したすべての対象について	
•  対象別特異度の平均を	p	の特異度とする 	
2016/3/1
レビュアー
対象
⭐
特異度:	???
サマリ:	4.8
DEIM	Forum	2016	G6-3		 16
)))(1(exp(1
1
1
偏差希少度の論争度 ×−−+
−
pβ
パラメータ
レビューのサマリ
•  特異度を考慮した重み付き平均	
•  シグモイド関数を⽤いて	
特異度	a に対する重み計算	
•  重みは	1	–	a	
	
•  サマリは	
•  特異度の⼤きいレビュアーの評価	
•  サマリ計算への影響は⼩さくなる
2016/3/1
レビュアー
対象
レビュアー
⭐
⭐⭐⭐
⭐⭐
特異度:	0.9
特異度:	0.2
サマリ:	???
(1−0.9)*1.0+(1−0.2)*5.0
(1−0.9)+(1−0.2)
DEIM	Forum	2016	G6-3		 17
≠	4.5
評価実験
•  データセット	
•  Amazon	レビューデータ	(1996年5⽉31⽇〜2006年5⽉29⽇)	
•  書籍カテゴリのレビューのみ抽出	
•  2004年12⽉31⽇までのレビューを元に2006年5⽉29⽇時点のサマリを予測	
•  レビュー数1の書籍は対象外とする(データセットから削除)	
	
	
	
•  特異なレビュアーの追加	
•  公開データセットでは特異なレビュアーは削除されている可能性が⾼い	
•  特異なレビュアー数が本来よりも少ない可能性が⾼い	
•  ⼈⼯的に特異なレビュアーを追加して補う	
2016/3/1
2004	年 12	⽉ 31	⽇までのレビュー数:	1555315	
2005	年 1	⽉ 1	⽇以降のレビュー数:	613265	
2004	年 12	⽉ 31	⽇までの評価者数:	730667		
実験に⽤いたデータセットの詳細
DEIM	Forum	2016	G6-3		 18
特異なレビュアーの種類
2016/3/1
•  結託しない特異なレビュアー	
•  レビュー数:実際のレビュー数の分布からランダムに決定	
•  レビュー対象:ランダムに選択	
•  レビュースコア:通常レビュー平均 <	2.5 なら	5,	>=2.5 なら	1	
•  結託する特異なレビュアー	
•  対象書籍において結託側が多数となるように配置	
•  レビュー数:2冊	
•  レビュー対象:通常のレビュアーが2⼈の書籍	
•  結託⼈数:4⼈	
•  レビュースコア:結託しない場合と同じ
DEIM	Forum	2016	G6-3		 19
正解データと⽐較⼿法
•  正解データ	
•  Amazon データセットに含まれる	
全期間レビューの平均値(⻑期間平均)	
•  追加した特異なレビュアーは含まない	
•  ⽐較⼿法	
•  ONE†	,		MRA‡,	RSD*			
2016/3/1
単純平均と正解データの⽐較
†Lim,	E.P.,	Nguyen,	V.A.,	Jindal,	N.,	Liu,	B.,	Lauw,	H.W.:	Detecting	Product	Review	Spammers	using	Rating	
Behav-	iors.	In:	Proc.	of	the	19th	ACM	International	Conference	on	Information	and	Knowledge	
Management,	Toronto,	ON,	Canada,	ACM	Press	(October	2010)	939–948		
‡Tawaramoto,	K.,	Kawamoto,	J.,	Asano,	Y.,	Yoshikawa,	M.:	A	Bipartite	Graph	Model	and	Mutually	
Reinforcing	Anal-	ysis	for	Review	Sites.	In:	Proc.	of	the	22nd	International	Conference	on	Database	and	
Expert	Systems	Applications,	Toulouse,	France,	Springer	(2011)	341–348		
*G.	Wang,	S.	Xie,	B.	Liu,	and	P.	S.	Yu.	Review	Graph	Based	Online	Store	Review	Spammer	Detection.	In	
Proc.	of	the	11th	IEEE	International	Conference	on	Data	Min-	ing,	pages	1242–1247,	Vancouver,	BC,	
Canada,	dec	2011.	IEEE	Computer	Society.		
DEIM	Forum	2016	G6-3		 20
実験1: 特異度の評価
•  ⽬的	
•  特異なレビュアーの特異度は期待通り⼤きくなっているのか	
•  ⼿順	
•  ONE,	MRA,	RSD, 提案⼿法それぞれを⽤いて特異度を計算	
•  追加した特異なレビュアーの特異度分布を評価	
	
•  Amazon データセットに含まれるレビュアーは通常とした	
•  実際には特異なレビュアーも含まれている	
•  通常レビュアーの特異度分布はあくまで参考	
2016/3/1 DEIM	Forum	2016	G6-3		 21
実験1: 特異度の評価結果
2016/3/1
ONE
DEIM	Forum	2016	G6-3		 22
MRA
RSD 提案⼿法	
β	=	40.0
実験2: ⻑期間平均の予測
•  2004年までのレビュー	+	特異なレビューから	
⻑期間平均を予測	
•  ⻑期間平均との誤差分布を計算	
•  Amazonレビューは	5つ星評価のため誤差の最⼤値は	4.0	
•  単純平均に⽐べて	
どの程度改善したのか	
2016/3/1
単純平均と正解データの⽐較
DEIM	Forum	2016	G6-3		 23
実験2: ⻑期間平均の予測結果
2016/3/1 DEIM	Forum	2016	G6-3		 24
ONE MRA
RSD 提案⼿法	
β	=	40.0
まとめと今後の課題
•  不均質性を考慮した特異なレビュアー発⾒⼿法	
•  レビューサイトにおける不均質性	
•  レビュー数の不均質性	
•  レビュー傾向の不均質性	
•  不均質性を扱う⼆つの概念を導⼊	
•  各レビュー対象における評価値の論争度	
•  評価値の偏差希少度	
•  評価実験	
•  結託する特異なレビュアに対しても有効	
	
•  今後の課題
•  ⻑期的にも評価が割れるレビューの取り扱い	
•  現在は⻑期的にはレビューサマリは収束することを仮定	
•  反復改良アルゴリズムの収束速度の評価
2016/3/1 DEIM	Forum	2016	G6-3		 25

レビューサイトにおける不均質性を考慮した特異なレビュアー発⾒とレビューサマリの推測