Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

初期レビューを用いた長期間評価推定􏰀

576 views

Published on

Presentation slide in DEIM 2015.

Published in: Internet
  • Be the first to comment

  • Be the first to like this

初期レビューを用いた長期間評価推定􏰀

  1. 1. 初期レビューを⽤用いた⻑⾧長期間評価推定 川本  淳平1  俵本  ⼀一輝2  浅野  泰仁2  吉川  正俊2 1.  九州⼤大学⼤大学院システム情報科学研究院 2.  京都⼤大学⼤大学院情報学研究科  
  2. 2. レビューサイト •  顧客や販売者の意思決定に対して影響を与える   •  Amazon,  価格.com,  IMDb  など多くのサイトがレビューを掲載   •  特異異なレビュー   •  スパムレビュー  (Social  spammers  や  Crowd  turfing  workers)   •  ステルスマーケティング   •  エキスパートによるレビュー   •  「一般的な」人々が求めているレビューと乖離しているレビュー   •  初期レビューにおける特異異なレビューの問題   •  レビュー数が少ない・特異異なレビューが多数となりやすい   2015/3/2 DEIM  Forum  2015  D3-­‐6     2
  3. 3. ⽬目的 •  商品販売当初などレビュー数の少ない段階において   •  特異異なレビュアーの発⾒見見   •  ⻑⾧長期間レビューの予測   2015/3/2 DEIM  Forum  2015  D3-­‐6     3 レビュアー 対象 レビュアー ⭐️️ ⭐️⭐️⭐️ ⭐️⭐️ どちらが特異異か? ⼗十分時間経過後の   評価はどうなるか?
  4. 4. ⽬目的 •  商品販売当初などレビュー数の少ない段階において   •  特異異なレビュアーの発⾒見見   •  ⻑⾧長期間レビューの予測   2015/3/2 DEIM  Forum  2015  D3-­‐6     4 レビュアー 対象 レビュアー ⭐️️ ⭐️⭐️⭐️ ⭐️⭐️ 対象 対象 対象 対象 ⭐️️ ⭐️️ ⭐️️ ⭐️️ ⭐️️ 他の対象へのレビューも考慮して判断
  5. 5. 関連研究 •  スパムレビュアーの検知に関する研究1   •  ⼗十分な学習⽤用データを利利⽤用するものが多い   •  レビュー数が少ない場合学習⽤用データの取得は難しい   •  特異異なレビュアーはスパムレビュアーを⼀一般化したもの   •  査読プロセスにおけるレビュー解析2   •  「厳しい査読者」と「優しい査読者」など傾向の分析   •  査読者は正当に振る舞うと仮定   •  オンラインショップのレビュー評価3   •  限られた期間内に⾏行行われた商店の評価分析   •  評価実験において⽐比較対象とする   2015/3/2 DEIM  Forum  2015  D3-­‐6     5 1.  Mukherjee,  A.,  Liu,  B.,  Wang,  J.,  Glance,  N.S.,  Jindal,  N.:  Detecting  group  review  spam.  World  Wide  Web   (Companion  Volume).  (2011)  93–94     2.  Lauw,  H.W.,  Lim,  E.,  Wang,  K.:  Summarizing  review  scores  of  ”unequal”  reviewers.  In:  Proceedings  of   the  Seventh  SIAM  International  Conference  on  Data  Mining.  (2007)  539–544     3.  Wang,  G.,  Xie,  S.,  Liu,  B.,  Yu,  P.S.:  Review  Graph  Based  Online  Store  Review  Spammer  Detection.  In:   Proc.  of  the  11th  IEEE  International  Conference  on  Data  Mining.  (2011)  1242–1247    
  6. 6. アイデア •  ⼆二つのスコア   •  レビュアーに特異異度度を定義   •  レビュー対象にサマリスコアを定義   •  ⼆二つのスコアの関係性(仮定)   •  特異異なレビュアーは個々の評価対象について   サマリとは異異なる評価値を与えるだろう     •  評価のサマリは   特異異でない通常の評価者の評価値と近い値であるべき   •  ⼆二つのスコアを繰り返し計算する   •  繰り返し計算によりレビュアーの他のレビュー傾向を反映可能   •  レビュー数の少ない初期状態での特異異なレビュアーの影響を削減   2015/3/2 DEIM  Forum  2015  D3-­‐6     6 レビュアー 対象 レビュアー ⭐️️ ⭐️⭐️⭐️ ⭐️⭐️ 特異異度度:  0.9 特異異度度:  0.2 サマリ:  4.8
  7. 7. RI  と⼆二部グラフモデル •  Repeated  improvement  (RI)   •  ⼆二つのスコアの影響を相互に考慮し解を求める   •  レビュアーの特異異度度を元にサマリを計算する   •  サマリとの乖離離を元に特異異度度を計算する   •  ⼆二部グラフモデル   •  レビュアーとレビュー対象の⼆二種類の頂点からなるグラフ   •  それぞれの枝にレビュースコアを設定   2015/3/2 DEIM  Forum  2015  D3-­‐6     7
  8. 8. RI  と⼆二部グラフモデル •  Repeated  improvement  (RI)   •  ⼆二つのスコアの影響を相互に考慮し解を求める   •  レビュアーの特異異度度を元にサマリを計算する   •  サマリとの乖離離を元に特異異度度を計算する   •  ⼆二部グラフモデル   •  レビュアーとレビュー対象の⼆二種類の頂点からなるグラフ   •  それぞれの枝にレビュースコアを設定   2015/3/2 DEIM  Forum  2015  D3-­‐6     8 個々の対象について   サマリを計算
  9. 9. RI  と⼆二部グラフモデル •  Repeated  improvement  (RI)   •  ⼆二つのスコアの影響を相互に考慮し解を求める   •  レビュアーの特異異度度を元にサマリを計算する   •  サマリとの乖離離を元に特異異度度を計算する   •  ⼆二部グラフモデル   •  レビュアーとレビュー対象の⼆二種類の頂点からなるグラフ   •  それぞれの枝にレビュースコアを設定   2015/3/2 DEIM  Forum  2015  D3-­‐6     9 個々の対象について   サマリを計算 サマリを元に特異異度度を計算
  10. 10. RI  と⼆二部グラフモデル •  Repeated  improvement  (RI)   •  ⼆二つのスコアの影響を相互に考慮し解を求める   •  レビュアーの特異異度度を元にサマリを計算する   •  サマリとの乖離離を元に特異異度度を計算する   •  ⼆二部グラフモデル   •  レビュアーとレビュー対象の⼆二種類の頂点からなるグラフ   •  それぞれの枝にレビュースコアを設定   2015/3/2 DEIM  Forum  2015  D3-­‐6     10 特異異度度を元に   サマリを更更新 サマリを元に特異異度度を計算
  11. 11. レビュアーの特異異度度 •  レビュアーの対象別特異異度度   •  レビュアー  p  がレビュー対象  q  を  e  と評価   •  レビュー対象のサマリは  s  であった   •  レビュアー  p  の  q  に対する特異異度度を  |e  –  s|  と定義   •  レビュー対象  q  のサマリ  s  に対する信頼度度   •   レビュー対象  q  に与えられたレビュー数を  Nq,  評価の分散  を  σ2   •  サマリ  s  の信頼度度                                                                                                                                                  と定義   •  「レビュー数が多く,ばらつきが少ないほど信頼度度は⾼高い」   •  レビュアー  p  の特異異度度   •  レビュアー  p  が評価したすべての対象について   •  対象別特異異度度の信頼度度による重み付き平均を  p  の特異異度度と定義   2015/3/2 DEIM  Forum  2015  D3-­‐6     11 レビュアー 対象 ⭐️️ 特異異度度:  ??? サマリ:  4.8 e.g.  |4.8  –  1.0| c = log(Nq) σ 2 +1  c  x  |e  –s|
  12. 12. レビューのサマリ •  特異異度度を考慮した重み付き平均   •  シグモイド関数を⽤用いて   特異異度度  a  に対する重み計算   •  重みは                                                                                                        (α  はパラメータ)   •  サマリは   •  特異異度度の⼤大きいレビュアーの評価   •  サマリ計算への影響は⼩小さくなる 2015/3/2 DEIM  Forum  2015  D3-­‐6     12 レビュアー 対象 レビュアー ⭐️️ ⭐️⭐️⭐️ ⭐️⭐️ 特異異度度:  0.9 特異異度度:  0.2 サマリ:  ??? wα (a) = 1 1+e−αa wα (0.9)*1.0 + wα (0.2)*5.0 wα (0.9)+ wα (0.2)
  13. 13. 2015/3/2 DEIM  Forum  2015  D3-­‐6     13
  14. 14. 評価実験 •  データセット   •  Amazon  レビューデータ  (1996年年5⽉月31⽇日〜~2006年年5⽉月29⽇日)   •  書籍カテゴリのレビューのみ抽出   •  2004年年12⽉月31⽇日までのレビューを元に2006年年5⽉月29⽇日時点のサマリを予測   •  レビュー数1の書籍は対象外とする(データセットから削除)         •  特異異なレビュアーの追加   •  公開データセットでは特異異なレビュアーは削除されている可能性が⾼高い   •  特異異なレビュアー数が本来よりも少ない可能性が⾼高い   •  ⼈人⼯工的に特異異なレビュアーを追加して補う   2015/3/2 DEIM  Forum  2015  D3-­‐6     14 2004  年年  12  ⽉月  31  ⽇日までのレビュー数:  1555315   2005  年年  1  ⽉月  1  ⽇日以降降のレビュー数:  613265   2004  年年  12  ⽉月  31  ⽇日までの評価者数:  730667     実験に⽤用いたデータセットの詳細
  15. 15. 特異異なレビュアーの種類 2015/3/2 DEIM  Forum  2015  D3-­‐6     15 •  結託しない特異異なレビュアー   •  レビュー数:実際のレビュー数の分布からランダムに決定   •  レビュー対象:ランダムに選択   •  レビュースコア:通常レビュー平均  <  2.5  なら  5,  >=2.5  なら  1   •  結託する特異異なレビュアー   •  対象書籍において結託側が多数となるように配置   •  レビュー数:2冊   •  レビュー対象:通常のレビュアーが2⼈人の書籍   •  結託⼈人数:4⼈人   •  レビュースコア:結託しない場合と同じ
  16. 16. 正解データと⽐比較⼿手法 •  正解データ   •  Amazon  データセットに含まれる   全期間レビューの平均値(⻑⾧長期間平均)   •  追加した特異異なレビュアーは含まない   •  ⽐比較⼿手法   •  ONE†  :  Repeated  improvement  を⽤用いない     •  MRA‡  :  Repeated  improvement  を⽤用いる                            サマリの信頼度度を考慮しない                    シグモイド関数の  α  =  1   2015/3/2 DEIM  Forum  2015  D3-­‐6     16 単純平均と正解データの⽐比較 †Lim,  E.P.,  Nguyen,  V.A.,  Jindal,  N.,  Liu,  B.,  Lauw,  H.W.:  Detecting  Product  Review  Spammers  using  Rating   Behav-­‐  iors.  In:  Proc.  of  the  19th  ACM  International  Conference  on  Information  and  Knowledge   Management,  Toronto,  ON,  Canada,  ACM  Press  (October  2010)  939–948     ‡Tawaramoto,  K.,  Kawamoto,  J.,  Asano,  Y.,  Yoshikawa,  M.:  A  Bipartite  Graph  Model  and  Mutually   Reinforcing  Anal-­‐  ysis  for  Review  Sites.  In:  Proc.  of  the  22nd  International  Conference  on  Database  and   Expert  Systems  Applications,  Toulouse,  France,  Springer  (2011)  341–348    
  17. 17. 実験1:  特異異度度の評価 •  ⽬目的   •  特異異なレビュアーの特異異度度は期待通り⼤大きくなっているのか   •  ⼿手順   •  ONE,  MRA,  提案⼿手法それぞれを⽤用いて特異異度度を計算   •  追加した特異異なレビュアーの特異異度度分布を評価     •  Amazon  データセットに含まれるレビュアーは通常とした   •  実際には特異異なレビュアーも含まれている   •  通常レビュアーの特異異度度分布はあくまで参考   2015/3/2 DEIM  Forum  2015  D3-­‐6     17
  18. 18. 実験1:  特異異度度の評価結果 2015/3/2 DEIM  Forum  2015  D3-­‐6     18 ONE MRA 提案⼿手法   α  =  0.25 提案⼿手法   α  =  2.0
  19. 19. 実験1:  特異異度度の評価結果 2015/3/2 DEIM  Forum  2015  D3-­‐6     19 ONE MRA 提案⼿手法   α  =  0.25 提案⼿手法   α  =  2.0 結託しない特異異なレビュアーの特異異度度(緑)はどの⼿手法でも⾼高い   -­‐>  結託しない特異異なレビュアーは⽐比較的容易易に検出できる
  20. 20. 実験1:  特異異度度の評価結果 2015/3/2 DEIM  Forum  2015  D3-­‐6     20 ONE MRA 提案⼿手法   α  =  0.25 提案⼿手法   α  =  2.0 結託する特異異なレビュアーの特異異度度(⾚赤)は   ONE,  提案⼿手法(α  =  0.25)  では中盤に固まっている   MRA,  提案⼿手法(α  =  2.0)では⼀一部⾼高く⼀一部低い  
  21. 21. 実験1:  特異異度度の評価結果 2015/3/2 DEIM  Forum  2015  D3-­‐6     21 ONE MRA 提案⼿手法   α  =  0.25 提案⼿手法   α  =  2.0 結託する特異異なレビュアーの特異異度度(⾚赤)は   ONE,  提案⼿手法(α  =  0.25)  では中盤に固まっている   MRA,  提案⼿手法(α  =  2.0)では⼀一部⾼高く⼀一部低い   ONE,  提案⼿手法(α  =  0.25)では通常レビュアーと⽐比較的区別できる   MRA,  提案⼿手法(α  =  2.0)では⼀一部の特異異なレビュアーが通常レビュアーに紛れている
  22. 22. 実験2:  ⻑⾧長期間平均の予測 •  2004年年までのレビュー  +  特異異なレビューから   ⻑⾧長期間平均を予測   •  ⻑⾧長期間平均との誤差分布を計算   •  Amazonレビューは  5つ星評価のため誤差の最⼤大値は  4.0   •  単純平均に⽐比べて   どの程度度改善したのか   2015/3/2 DEIM  Forum  2015  D3-­‐6     22 単純平均と正解データの⽐比較
  23. 23. 実験2:  ⻑⾧長期間平均の予測結果 2015/3/2 DEIM  Forum  2015  D3-­‐6     23 ONE MRA 提案⼿手法   α  =  0.25 提案⼿手法   α  =  2.0
  24. 24. まとめと今後の課題 •  部分的なレビューから⻑⾧長期間経過後のレビューを求める   •  ⼆二部グラフを⽤用いてレビュアーとレビュー対象を表現   •  Repeated  Improvement  を⽤用いて   レビュアーの特異異度度とレビュー対象のサマリを計算   •  繰り返し計算により各レビュアーの過去のレビュー傾向を考慮できる   •  特異異なレビュアーか否かを判定   •  今後の課題   •  提案⼿手法(α  =  0.25)では通常レビュアーと結託するレビュアーの   区別が⼀一部できている   •  ⼀一⽅方で⻑⾧長期間経過後のレビュー予測ではエラーが多い   •  ⼿手法の改良良が必要 2015/3/2 DEIM  Forum  2015  D3-­‐6     24

×