Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

fukui m

369 views

Published on

  • Be the first to comment

  • Be the first to like this

fukui m

  1. 1. レビューデータに基づく格付け 生成に関する研究 複合情報学専攻 調和系工学研究室 修士2年 福井知子
  2. 2. 背景 膨大な量の自由回答文(クチコミ,ブログ等)が存在,その数は今後も増加 レストランA 味 雰囲気 サービス 料金 アクセス ・大規模データの集約 ・複数の対象を相対評価 宿泊施設,レストラン等のクチコミが多数集まるサイト等での利用 調べたい対象についての全ての文章を読むのは困難 →その評価を直感的にわかりやすく提示することが重要
  3. 3. 目的 自由回答文からある設問に対する5段階評価を推定する 1.分析用データを用意し,自由回答文と5段階評価の関連性を分析 2.自由回答文から5段階評価の推定手法を検討 3.評価用データを用意し,推定手法に基づき5段階評価の推定 推定手法構築に向けたアプローチ コストパフォーマンス 安いのに設備 もキレイで良 かったです! 平日の料金は 格安! この値段だっ たら良いと思 います。
  4. 4. 対象とするレビューデータ 楽天GORAにクチコミとして投稿されたレビューデータ約24万件 ゴルフ場予約サイト(http://gora.golf.rakuten.co.jp/) タイトル コメント 例) レビューデータ1件の構成 ・自由回答文(タイトル,コメント) ・8項目の5段階評価 ・その他詳細情報
  5. 5. 自由回答文からの5段階評価推定 例) 楽天GORA自由回答文 コメント 総 合 評 価 コストパフォーマンス スタッフ接客 コー ス/戦略性 食 事 が美味しい 設備が充実 フェアウェイが広い 距 離 が長い コースは戦略的で面白い。スタッフの方の対応が親切丁寧。お酒が旨い。 4 4 5 4 5 2 2 2 普通のゴルフ場のつもりで行くとダメですよ。練習場の延長と思ってください。 ですが、初心者にとっては、平らだし、距離は短いし良いと思います。 4 3 5 3 3 3 3 2 初めていきましたが、プレッシャーのない広々したコースで気持ちよかったです。 午後の短時間でまわれるのがGOOD! 5 5 4 3 3 3 5 5 特徴語の抽出,評価分布 全体の評価分布 0 0.2 0.4 0.6 1 2 3 4 5 0 0.2 0.4 0.6 1 2 3 4 5 ・・・ 0 0.2 0.4 1 2 3 4 5 この値段 だったら良い と思います。
  6. 6. 予備実験 ①自由回答文から頻出名詞の抽出 ②頻出名詞と係り受け関係にある単語の抽出 ③ ②の各組に対する5段階評価の分布 名詞 出現割合[%] 名詞 出現割合[%] コース 41.9 ホール 5.7 グリーン 20.4 スタッフ 5.3 距離 10.9 スタート 4.6 フェアウェイ 8.4 ゴルフ 4.6 食事 7.8 バンカー 4.3 天気 7.1 感じ 4.2 ゴルフ場 7.0 対応 4.2 スコア 6.7 初心者 4.0 雨 6.2 風 3.4 最高 5.8 戦略性 3.3 ゴルフに関する名詞が上位 →評価対象を推定 例)コース コース=良い コース=面白い コース=綺麗 コース=広い コース=狭い コース=楽しい コース=素晴らしい コース=整備 コース=戦略的 例)距離 →各名詞に対する評価尺度を推定 ④5段階評価の評価分布 距離=短い 距離=ある 距離=長い 距離=ない 距離=長い-ない 距離=ある-ない 距離=出る-ない 距離=遠い 距離=良い 距離=近い 距離=出る 距離=適度 設問「距離が長い」 距離=短い 距離=長い 距離=出る-ない 距離=ある 0 0.2 0.4 0.6 1 2 3 4 5 0 0.2 0.4 0.6 1 2 3 4 5 0 0.2 0.4 0.6 1 2 3 4 5 0 0.2 0.4 1 2 3 4 5 →単語と評価 に関連性 0 20000 40000 60000 80000 100000 120000 140000 160000 180000 1 2 3 4 5 →全体的に肯定的評価への偏り 目的:自由回答文と5段階評価の関連性を調べる
  7. 7. 自由回答文からの5段階評価推定 例) 楽天GORA自由回答文 コメント 総 合 評 価 コストパフォーマンス スタッフ接客 コー ス/戦略性 食 事 が美味しい 設備が充実 フェアウェイが広い 距 離 が長い コースは戦略的で面白い。スタッフの方の対応が親切丁寧。お酒が旨い。 4 4 5 4 5 2 2 2 普通のゴルフ場のつもりで行くとダメですよ。練習場の延長と思ってください。 ですが、初心者にとっては、平らだし、距離は短いし良いと思います。 4 3 5 3 3 3 3 2 初めていきましたが、プレッシャーのない広々したコースで気持ちよかったです。 午後の短時間でまわれるのがGOOD! 5 5 4 3 3 3 5 5 特徴語の抽出,評価分布 全体の評価分布 0 0.2 0.4 0.6 1 2 3 4 5 0 0.2 0.4 0.6 1 2 3 4 5 ・・・ 0 0.2 0.4 1 2 3 4 5 この値段 だったら良い と思います。
  8. 8. アプローチ 自由回答文 Ⅰ.頻出名詞から各設問iの関連 名詞集合Ni={n1,n2,…,nmax}の抽出 Ⅱ.各名詞n Niの係り受け関係 ={d1,d2,…,dmax}の抽出 項目i 関連名詞集合Ni={n1,n2,…,nmax} 1.コストパフォーマンス コストパフォーマンス,料金,値段,価格 2.スタッフ接客 スタッフ,対応,接客,キャディ 3.コースと戦略性 コース,戦略性 4.食事が美味しい 食事,ごはん 5.設備が充実 設備,お風呂,クラブハウス,カート,トイレ 6.フェアウェイが広い フェアウェイ 7.距離が長い 距離 Ⅲ.名詞と係り受け関係の組ごと の評価分布 を作成 N1 料金 値段 コストパフォーマンス 価格 N2 スタッフ 対応 接客 キャディ N7 距離 頻出名詞 短い ある 長い ない 長い-ない ある-ない 出る-ない 遠い 良い 近い出る 良い 遅い 最高 気持ち良い 迅速 係り受け 距離=短い 距離=長い 0 0.2 0.4 0.6 1 2 3 4 5 0 0.2 0.4 0.6 1 2 3 4 5 評価分布 Ⅳ.Ⅲ以外の評価分布 を作成 0 0.2 0.4 0.6 1 2 3 4 5 距離以外 ・・・  Ni n D N7 D距離 N 2 D対応 Ni Dn d P Ni Dn others P Ⅲ,Ⅳを用いて推定
  9. 9. レビューデータの分析 各集合ごとの評価分布作成 出現回数mi 1 2 3 4 5 距離=短い 3249 0.150 0.523 0.297 0.026 0.004 距離=ある 1482 0.005 0.072 0.227 0.466 0.231 距離=長い 785 0.008 0.052 0.192 0.327 0.420 距離=ない 300 0.100 0.473 0.400 0.023 0.003 距離=長い-ない 180 0.011 0.294 0.617 0.078 0 距離=ある-ない 161 0.050 0.422 0.472 0.043 0.012 距離=出る-ない 44 0.068 0.250 0.364 0.227 0.091 距離=遠い 41 0 0.098 0.488 0.341 0.073 距離=良い 40 0.025 0.125 0.500 0.300 0.050 距離=近い 35 0.051 0.256 0.487 0.103 0 距離=出る 26 0.038 0.192 0.385 0.269 0.115 距離以外 87228 0.018 0.135 0.548 0.248 0.050 ↓5段階評価の各評価の割合 推定手法 分析用データ:10万件のレビューデータ集合 (「~ほしい」といった要望表現を含むデータは除く) 距離=短い 距離=長い 0 0.2 0.4 0.6 1 2 3 4 5 0 0.2 0.4 0.6 1 2 3 4 5 0 0.2 0.4 0.6 1 2 3 4 5 距離以外 + + ・・・ + 0 0.5 1 1 2 3 4 5 全体の評価 ・各分布を出現回数分足し合わせて合成 ・距離について述べていない潜在的な分布は出現回数を0.7倍←単語と評価の関連性に重みをつける ←距離に関する係り受けが出現しない集合の 評価 を利用 単語によっては評価分布 に大きな偏り →単語から評価の推定に利用 しかし,距離に対する係り受けの集合だけを用い た場合,全体の評価推定に大きなずれ Ni Dn P短い Ni Dn P長い Ni Dn others ×m1 P ×m2 ×mothers×0.7 Ni Dn d P Ni Dn others P
  10. 10. 推定手法の評価 テスト用データ:分析用データと異なるゴルフ場20施設の各レビューデータ集合 (1つの集合は1073~2735件) 推定手順 コメント 総合評価 コストパフォーマンス スタッフ接客 コー ス/戦略性 食 事 が美味しい 設 備 が充実 フェアウェイが広い 距 離 が長い コースは戦略的で面白い。スタッフの方の対応が親切丁寧。お酒が旨い。 4 4 5 4 5 2 2 2 普通のゴルフ場のつもりで行くとダメですよ。練習場の延長と思ってください。 ですが、初心者にとっては、平らだし、距離は短いし良いと思います。 4 3 5 3 3 3 3 2 初めていきましたが、プレッシャーのない広々したコースで気持ちよかった です。午後の短時間でまわれるのがGOOD! 5 5 4 3 3 3 5 5 提案手法 正解分布 0 0.2 0.4 1 2 3 4 5 0 0.2 0.4 1 2 3 4 5 0 0.5 1 1 2 3 4 5 分析結果 推定 推定結果と正解分布とを比較
  11. 11. 結果 0 2 4 6 8 10 12 ゴルフ場20施設の推定平均値と正解平均値との誤差 ~0.5 1 2 3 4 5 ・推定平均値と正解平均値との誤差は全て1.0以下 ・誤差の平均は0.43 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 1 2 3 4 5 推定 正解 あるゴルフ場の推定評価値と正解評価値 コメント 久し振りに行きました。距離は長くはありませんが面白いコー スです。 カートにナビがついてより快適になりました。今の値段でオー ルシーズンやっていただけると助かるのですが。 ナビゲーションも付いていて楽にプレーが出来ました。また行き たいと思います。 ・・・ 0 0.1 0.2 0.3 0.4 0.5 0.6 1 2 3 4 5 あるゴルフ場集合に対する推定手法適用例
  12. 12. まとめ 自由回答文と5段階評価の関連性を分析し推定手法を提案した 未知のデータに対して推定手法を適用し5段階評価を推定した 研究業績 国内学会発表2件 本研究は,楽天株式会社よりレビューデータおよび株式会社日立東日本ソリューションズより分析ツール の提供を受けております.

×