SlideShare a Scribd company logo
1 of 12
Download to read offline
レビューデータに基づく格付け
   生成に関する研究
 複合情報学専攻 調和系工学研究室
     修士2年 福井知子
背景
膨大な量の自由回答文(クチコミ,ブログ等)が存在,その数は今後も増加

  調べたい対象についての全ての文章を読むのは困難
   →その評価を直感的にわかりやすく提示することが重要




                 レストランA
               味
               雰囲気         ・大規模データの集約
               サービス        ・複数の対象を相対評価
               料金
               アクセス




          宿泊施設,レストラン等のクチコミが多数集まるサイト等での利用
目的

自由回答文からある設問に対する5段階評価を推定する

     安いのに設備
     もキレイで良
     かったです!
                    コストパフォーマンス


 この値段だっ
          平日の料金は
 たら良いと思
          格安!
 います。



推定手法構築に向けたアプローチ
1. 分析用データを用意し,自由回答文と5段階評価の関連性を分析
2. 自由回答文から5段階評価の推定手法を検討
3. 評価用データを用意し,推定手法に基づき5段階評価の推定
対象とするレビューデータ
楽天GORAにクチコミとして投稿されたレビューデータ約24万件
       ゴルフ場予約サイト(http://gora.golf.rakuten.co.jp/)
例)

タイトル




コメント

レビューデータ1件の構成
・自由回答文(タイトル,コメント)
・8項目の5段階評価
・その他詳細情報
自由回答文からの5段階評価推定
例) 楽天GORA自由回答文
                                                               コ                             フ
                                                               ス                 食
                                                               ト   ス     コ                   ェ
                                                           総             ー       事       設   ア   距
                                                               パ   タ                     備   ウ   離
                                                           合   フ   ッ     ス       が
                                 コメント                                                    が   ェ




                                                                         /
                                                           評   ォ   フ     戦       美               が
                                                                                 味       充   イ   長
                                                           価   ー   接     略                   が
                                                               マ   客     性       し       実       い
                                                                                 い           広
                                                               ン                             い
                                                               ス
コースは戦略的で面白い。スタッフの方の対応が親切丁寧。お酒が旨い。                          4   4   5     4       5       2   2   2
普通のゴルフ場のつもりで行くとダメですよ。練習場の延長と思ってください。
ですが、初心者にとっては、平らだし、距離は短いし良いと思います。
                                                           4   3   5     3       3       3   3   2
初めていきましたが、プレッシャーのない広々したコースで気持ちよかったです。
午後の短時間でまわれるのがGOOD!
                                                           5   5   4     3       3       3   5   5

                   特徴語の抽出,評価分布                                     全体の評価分布
 0.6                       0.6                                     0.4
 0.4                       0.4
 0.2                       0.2                       ・・・           0.2
  0                          0                                      0
       1   2   3   4   5         1   2   3   4   5                       1   2   3   4   5


                                          この値段
                                         だったら良い
                                         と思います。
予備実験
目的:自由回答文と5段階評価の関連性を調べる
①自由回答文から頻出名詞の抽出                                          ②頻出名詞と係り受け関係にある単語の抽出
 名詞     出現割合[%]            名詞   出現割合[%]                   例)コース コース=良い          例)距離   距離=短い
 コース        41.9           ホール       5.7                            コース=面白い            距離=ある
 グリーン       20.4           スタッフ      5.3                            コース=綺麗             距離=長い
 距離         10.9           スタート      4.6                            コース=広い             距離=ない
 フェアウェイ      8.4           ゴルフ       4.6                            コース=狭い             距離=長い-ない
 食事          7.8           バンカー      4.3                            コース=楽しい            距離=ある-ない
 天気          7.1           感じ        4.2                            コース=素晴らしい          距離=出る-ない
 ゴルフ場        7.0           対応        4.2                            コース=整備             距離=遠い
 スコア         6.7           初心者       4.0                            コース=戦略的            距離=良い
 雤           6.2           風         3.4                                               距離=近い
 最高          5.8           戦略性       3.3                                               距離=出る
                                                                                       距離=適度
  ゴルフに関する名詞が上位
  →評価対象を推定                                                 →各名詞に対する評価尺度を推定

③ ②の各組に対する5段階評価の分布                                         ④5段階評価の評価分布
 設問「距離が長い」                                                 180000
距離=短い                      距離=ある                           160000
 0.6                        0.6                            140000
 0.4                        0.4                            120000
 0.2                        0.2                            100000
  0                          0                              80000
       1   2   3   4   5          1   2   3   4   5         60000
距離=長い                      距離=出る-ない                         40000
                            0.4
 0.6                                                        20000
 0.4                                                            0
                            0.2
 0.2                                                  →単語と評価   1   2   3  4                 5
   0                         0
       1   2   3   4   5
                                                      に関連性   →全体的に肯定的評価への偏り
                                  1   2   3   4   5
自由回答文からの5段階評価推定
例) 楽天GORA自由回答文
                                                               コ                             フ
                                                               ス                 食
                                                               ト   ス     コ                   ェ
                                                           総             ー       事       設   ア   距
                                                               パ   タ                     備   ウ   離
                                                           合   フ   ッ     ス       が
                                 コメント                                                    が   ェ




                                                                         /
                                                           評   ォ   フ     戦       美               が
                                                                                 味       充   イ   長
                                                           価   ー   接     略                   が
                                                               マ   客     性       し       実       い
                                                                                 い           広
                                                               ン                             い
                                                               ス
コースは戦略的で面白い。スタッフの方の対応が親切丁寧。お酒が旨い。                          4   4   5     4       5       2   2   2
普通のゴルフ場のつもりで行くとダメですよ。練習場の延長と思ってください。
ですが、初心者にとっては、平らだし、距離は短いし良いと思います。
                                                           4   3   5     3       3       3   3   2
初めていきましたが、プレッシャーのない広々したコースで気持ちよかったです。
午後の短時間でまわれるのがGOOD!
                                                           5   5   4     3       3       3   5   5

                   特徴語の抽出,評価分布                                     全体の評価分布
 0.6                       0.6                                     0.4
 0.4                       0.4
 0.2                       0.2                       ・・・           0.2
  0                          0                                      0
       1   2   3   4   5         1   2   3   4   5                       1   2   3   4   5


                                          この値段
                                         だったら良い
                                         と思います。
アプローチ
                                  項目i          関連名詞集合Ni={n1,n2,…,nmax}
                                  1.コストパフォーマンス コストパフォーマンス,料金,値段,価格
                                  2.スタッフ接客     スタッフ,対応,接客,キャディ
自由回答文                             3.コースと戦略性    コース,戦略性
                                  4.食事が美味しい    食事,ごはん
                                  5.設備が充実      設備,お風呂,クラブハウス,カート,トイレ
                                  6.フェアウェイが広い フェアウェイ
                                  7.距離が長い      距離
Ⅰ.頻出名詞から各設問iの関連
                                                                                                     N7
名詞集合Ni={n1,n2,…,nmax}の抽出     頻出名詞                                                      係り受け         D距離
                                                                                              短い ある
                                                                     N7                       長い ない
                                                                                              長い-ない
                                              N1                                              ある-ない
Ⅱ.各名詞n  Niの係り受け関係                                                   距離                       出る-ない
 DnNi ={d1,d2,…,dmax}の抽出              料金                                                      遠い 良い
                                      値段                                                      近い出る
                                  コストパフォーマンス                              N2
                                      価格                                                               N2
                                                                                                      D対応
                                                                 スタッフ
Ⅲ.名詞と係り受け関係の組ごと                                                   対応                                 良い
           Ni
  の評価分布 PdDn を作成                                                  接客                                 遅い
                                                                 キャディ                                最高
                                                                                                    気持ち良い
                                                                                                     迅速
                            評価分布
Ⅳ.Ⅲ以外の評価分布 P      DnNi
                      を作成
                 others     距離=短い                      距離=長い                                  距離以外
                            0.6                        0.6                                    0.6
                            0.4                                                               0.4
                            0.2
                                                       0.4
                                                                                       ・・・    0.2
  Ⅲ,Ⅳを用いて推定                  0
                                                       0.2
                                                        0                                      0
                                  1   2   3    4   5         1   2    3        4   5                 1    2   3   4   5
レビューデータの分析
 分析用データ:10万件のレビューデータ集合
        (「~ほしい」といった要望表現を含むデータは除く)
      各集合ごとの評価分布作成
                                           ↓5段階評価の各評価の割合
                         出現回数mi         1       2       3       4       5
   距離=短い                   3249       0.150   0.523   0.297   0.026   0.004
   距離=ある                   1482       0.005   0.072   0.227   0.466   0.231                                                     Ni
                                                                                            単語によっては評価分布 PdD に大きな偏り              n

   距離=長い                   785        0.008   0.052   0.192   0.327   0.420
   距離=ない                   300        0.100   0.473   0.400   0.023   0.003                 →単語から評価の推定に利用
  距離=長い-ない                 180        0.011   0.294   0.617   0.078     0
  距離=ある-ない                 161        0.050   0.422   0.472   0.043   0.012
  距離=出る-ない                  44        0.068   0.250   0.364   0.227   0.091
                                                                                        しかし,距離に対する係り受けの集合だけを用い
   距離=遠い                    41          0     0.098   0.488   0.341   0.073
   距離=良い                    40        0.025   0.125   0.500   0.300   0.050
                                                                                        た場合,全体の評価推定に大きなずれ
   距離=近い                    35        0.051   0.256   0.487   0.103     0
   距離=出る                    26        0.038   0.192   0.385   0.269   0.115
   距離以外                   87228       0.018   0.135   0.548   0.248   0.050                 ←距離に関する係り受けが出現しない集合の
                                                                                            評価 P DnNi を利用
                                                                                                    others
推定手法                     ・各分布を出現回数分足し合わせて合成
                         ・距離について述べていない潜在的な分布は出現回数を0.7倍←単語と評価の関連性に重みをつける
距離=短い                           距離=長い                                  距離以外                                        全体の評価
0.6                             0.6                                    0.6                                    1
0.4
0.2
                             + 0.4                     + ・・・ +         0.4
                                                                       0.2
                                                                                                             0.5
                                0.2
 0                               0                                       0                                    0
       1     2   3   4   5            1    2 3 4 5                             1    2   3   4   5                   1   2   3   4    5
        Ni                                 Ni                                  Ni
      P短い ×m1
       Dn
                                      P   Dn
                                          長い
                                              ×m2                            Pothers ×mothers×0.7
                                                                              Dn
推定手法の評価
テスト用データ:分析用データと異なるゴルフ場20施設の各レビューデータ集合
        (1つの集合は1073~2735件)
推定手順
                                                  コ                     フ
                                                  ス             食
                                                  ト   ス     コ           ェ
                                             総              ー   事   設   ア   距
                                                  パ   タ             備   ウ   離
                                             合    フ   ッ     ス   が
                            コメント                                    が   ェ




                                                            /
                                             評    ォ   フ     戦   美           が
                                                                味   充   イ   長
                                             価    ー   接     略           が
                                                  マ   客         し   実       い
                                                            性           広
                                                  ン             い
                                                  ス                     い

  コースは戦略的で面白い。スタッフの方の対応が親切丁寧。お酒が旨            4    4   5     4   5   2   2   2
  い。

 普通のゴルフ場のつもりで行くとダメですよ。練習場の延長と思ってください。        4    3   5     3   3   3   3   2
 ですが、初心者にとっては、平らだし、距離は短いし良いと思います。
 初めていきましたが、プレッシャーのない広々したコースで気持ちよかった          5    5   4     3   3   3   5   5
 です。午後の短時間でまわれるのがGOOD!

      分析結果                                       正解分布
 1
                         提案手法                       0.4
0.5
 0                                                    0.2
                              推定
       1 2 3 4 5                                       0
                   0.4
                                                            1 2 3 4 5
                   0.2
                                     推定結果と正解分布とを比較
                    0
                         1 2 3 4 5
結果
 あるゴルフ場の推定評価値と正解評価値                ゴルフ場20施設の推定平均値と正解平均値との誤差
 0.7
                                   12
 0.6
                                   10
 0.5
                                    8
 0.4
                             推定     6
 0.3
                             正解     4
 0.2
 0.1                                2

  0                                 0
                                        ~0.5 1       2       3   4       5
       1   2   3     4   5
                                  ・推定平均値と正解平均値との誤差は全て1.0以下
                                  ・誤差の平均は0.43
あるゴルフ場集合に対する推定手法適用例
                                         0.6
コメント
                                         0.5
久し振りに行きました。距離は長くはありませんが面白いコー
スです。                                     0.4

カートにナビがついてより快適になりました。今の値段でオー             0.3
ルシーズンやっていただけると助かるのですが。                   0.2

ナビゲーションも付いていて楽にプレーが出来ました。また行き            0.1
たいと思います。
                                          0
               ・・・                               1       2   3   4   5
まとめ
自由回答文と5段階評価の関連性を分析し推定手法を提案した
未知のデータに対して推定手法を適用し5段階評価を推定した




本研究は,楽天株式会社よりレビューデータおよび株式会社日立東日本ソリューションズより分析ツール
の提供を受けております.

 研究業績    国内学会発表2件

More Related Content

More from harmonylab

【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backboneharmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Modelsharmonylab
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimationharmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Modelsharmonylab
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimationharmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究harmonylab
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究harmonylab
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究harmonylab
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究harmonylab
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究harmonylab
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究harmonylab
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...harmonylab
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究harmonylab
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Gridharmonylab
 

More from harmonylab (20)

【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 
A Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear GridA Study on Generation of Deformed Route Maps using Octilinear Grid
A Study on Generation of Deformed Route Maps using Octilinear Grid
 

Hukui m

  • 1. レビューデータに基づく格付け 生成に関する研究 複合情報学専攻 調和系工学研究室 修士2年 福井知子
  • 2. 背景 膨大な量の自由回答文(クチコミ,ブログ等)が存在,その数は今後も増加 調べたい対象についての全ての文章を読むのは困難 →その評価を直感的にわかりやすく提示することが重要 レストランA 味 雰囲気 ・大規模データの集約 サービス ・複数の対象を相対評価 料金 アクセス 宿泊施設,レストラン等のクチコミが多数集まるサイト等での利用
  • 3. 目的 自由回答文からある設問に対する5段階評価を推定する 安いのに設備 もキレイで良 かったです! コストパフォーマンス この値段だっ 平日の料金は たら良いと思 格安! います。 推定手法構築に向けたアプローチ 1. 分析用データを用意し,自由回答文と5段階評価の関連性を分析 2. 自由回答文から5段階評価の推定手法を検討 3. 評価用データを用意し,推定手法に基づき5段階評価の推定
  • 4. 対象とするレビューデータ 楽天GORAにクチコミとして投稿されたレビューデータ約24万件 ゴルフ場予約サイト(http://gora.golf.rakuten.co.jp/) 例) タイトル コメント レビューデータ1件の構成 ・自由回答文(タイトル,コメント) ・8項目の5段階評価 ・その他詳細情報
  • 5. 自由回答文からの5段階評価推定 例) 楽天GORA自由回答文 コ フ ス 食 ト ス コ ェ 総 ー 事 設 ア 距 パ タ 備 ウ 離 合 フ ッ ス が コメント が ェ / 評 ォ フ 戦 美 が 味 充 イ 長 価 ー 接 略 が マ 客 性 し 実 い い 広 ン い ス コースは戦略的で面白い。スタッフの方の対応が親切丁寧。お酒が旨い。 4 4 5 4 5 2 2 2 普通のゴルフ場のつもりで行くとダメですよ。練習場の延長と思ってください。 ですが、初心者にとっては、平らだし、距離は短いし良いと思います。 4 3 5 3 3 3 3 2 初めていきましたが、プレッシャーのない広々したコースで気持ちよかったです。 午後の短時間でまわれるのがGOOD! 5 5 4 3 3 3 5 5 特徴語の抽出,評価分布 全体の評価分布 0.6 0.6 0.4 0.4 0.4 0.2 0.2 ・・・ 0.2 0 0 0 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 この値段 だったら良い と思います。
  • 6. 予備実験 目的:自由回答文と5段階評価の関連性を調べる ①自由回答文から頻出名詞の抽出 ②頻出名詞と係り受け関係にある単語の抽出 名詞 出現割合[%] 名詞 出現割合[%] 例)コース コース=良い 例)距離 距離=短い コース 41.9 ホール 5.7 コース=面白い 距離=ある グリーン 20.4 スタッフ 5.3 コース=綺麗 距離=長い 距離 10.9 スタート 4.6 コース=広い 距離=ない フェアウェイ 8.4 ゴルフ 4.6 コース=狭い 距離=長い-ない 食事 7.8 バンカー 4.3 コース=楽しい 距離=ある-ない 天気 7.1 感じ 4.2 コース=素晴らしい 距離=出る-ない ゴルフ場 7.0 対応 4.2 コース=整備 距離=遠い スコア 6.7 初心者 4.0 コース=戦略的 距離=良い 雤 6.2 風 3.4 距離=近い 最高 5.8 戦略性 3.3 距離=出る 距離=適度 ゴルフに関する名詞が上位 →評価対象を推定 →各名詞に対する評価尺度を推定 ③ ②の各組に対する5段階評価の分布 ④5段階評価の評価分布 設問「距離が長い」 180000 距離=短い 距離=ある 160000 0.6 0.6 140000 0.4 0.4 120000 0.2 0.2 100000 0 0 80000 1 2 3 4 5 1 2 3 4 5 60000 距離=長い 距離=出る-ない 40000 0.4 0.6 20000 0.4 0 0.2 0.2 →単語と評価 1 2 3 4 5 0 0 1 2 3 4 5 に関連性 →全体的に肯定的評価への偏り 1 2 3 4 5
  • 7. 自由回答文からの5段階評価推定 例) 楽天GORA自由回答文 コ フ ス 食 ト ス コ ェ 総 ー 事 設 ア 距 パ タ 備 ウ 離 合 フ ッ ス が コメント が ェ / 評 ォ フ 戦 美 が 味 充 イ 長 価 ー 接 略 が マ 客 性 し 実 い い 広 ン い ス コースは戦略的で面白い。スタッフの方の対応が親切丁寧。お酒が旨い。 4 4 5 4 5 2 2 2 普通のゴルフ場のつもりで行くとダメですよ。練習場の延長と思ってください。 ですが、初心者にとっては、平らだし、距離は短いし良いと思います。 4 3 5 3 3 3 3 2 初めていきましたが、プレッシャーのない広々したコースで気持ちよかったです。 午後の短時間でまわれるのがGOOD! 5 5 4 3 3 3 5 5 特徴語の抽出,評価分布 全体の評価分布 0.6 0.6 0.4 0.4 0.4 0.2 0.2 ・・・ 0.2 0 0 0 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 この値段 だったら良い と思います。
  • 8. アプローチ 項目i 関連名詞集合Ni={n1,n2,…,nmax} 1.コストパフォーマンス コストパフォーマンス,料金,値段,価格 2.スタッフ接客 スタッフ,対応,接客,キャディ 自由回答文 3.コースと戦略性 コース,戦略性 4.食事が美味しい 食事,ごはん 5.設備が充実 設備,お風呂,クラブハウス,カート,トイレ 6.フェアウェイが広い フェアウェイ 7.距離が長い 距離 Ⅰ.頻出名詞から各設問iの関連 N7 名詞集合Ni={n1,n2,…,nmax}の抽出 頻出名詞 係り受け D距離 短い ある N7 長い ない 長い-ない N1 ある-ない Ⅱ.各名詞n  Niの係り受け関係 距離 出る-ない DnNi ={d1,d2,…,dmax}の抽出 料金 遠い 良い 値段 近い出る コストパフォーマンス N2 価格 N2 D対応 スタッフ Ⅲ.名詞と係り受け関係の組ごと 対応 良い Ni の評価分布 PdDn を作成 接客 遅い キャディ 最高 気持ち良い 迅速 評価分布 Ⅳ.Ⅲ以外の評価分布 P DnNi を作成 others 距離=短い 距離=長い 距離以外 0.6 0.6 0.6 0.4 0.4 0.2 0.4 ・・・ 0.2 Ⅲ,Ⅳを用いて推定 0 0.2 0 0 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5
  • 9. レビューデータの分析 分析用データ:10万件のレビューデータ集合 (「~ほしい」といった要望表現を含むデータは除く) 各集合ごとの評価分布作成 ↓5段階評価の各評価の割合 出現回数mi 1 2 3 4 5 距離=短い 3249 0.150 0.523 0.297 0.026 0.004 距離=ある 1482 0.005 0.072 0.227 0.466 0.231 Ni 単語によっては評価分布 PdD に大きな偏り n 距離=長い 785 0.008 0.052 0.192 0.327 0.420 距離=ない 300 0.100 0.473 0.400 0.023 0.003 →単語から評価の推定に利用 距離=長い-ない 180 0.011 0.294 0.617 0.078 0 距離=ある-ない 161 0.050 0.422 0.472 0.043 0.012 距離=出る-ない 44 0.068 0.250 0.364 0.227 0.091 しかし,距離に対する係り受けの集合だけを用い 距離=遠い 41 0 0.098 0.488 0.341 0.073 距離=良い 40 0.025 0.125 0.500 0.300 0.050 た場合,全体の評価推定に大きなずれ 距離=近い 35 0.051 0.256 0.487 0.103 0 距離=出る 26 0.038 0.192 0.385 0.269 0.115 距離以外 87228 0.018 0.135 0.548 0.248 0.050 ←距離に関する係り受けが出現しない集合の 評価 P DnNi を利用 others 推定手法 ・各分布を出現回数分足し合わせて合成 ・距離について述べていない潜在的な分布は出現回数を0.7倍←単語と評価の関連性に重みをつける 距離=短い 距離=長い 距離以外 全体の評価 0.6 0.6 0.6 1 0.4 0.2 + 0.4 + ・・・ + 0.4 0.2 0.5 0.2 0 0 0 0 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 Ni Ni Ni P短い ×m1 Dn P Dn 長い ×m2 Pothers ×mothers×0.7 Dn
  • 10. 推定手法の評価 テスト用データ:分析用データと異なるゴルフ場20施設の各レビューデータ集合 (1つの集合は1073~2735件) 推定手順 コ フ ス 食 ト ス コ ェ 総 ー 事 設 ア 距 パ タ 備 ウ 離 合 フ ッ ス が コメント が ェ / 評 ォ フ 戦 美 が 味 充 イ 長 価 ー 接 略 が マ 客 し 実 い 性 広 ン い ス い コースは戦略的で面白い。スタッフの方の対応が親切丁寧。お酒が旨 4 4 5 4 5 2 2 2 い。 普通のゴルフ場のつもりで行くとダメですよ。練習場の延長と思ってください。 4 3 5 3 3 3 3 2 ですが、初心者にとっては、平らだし、距離は短いし良いと思います。 初めていきましたが、プレッシャーのない広々したコースで気持ちよかった 5 5 4 3 3 3 5 5 です。午後の短時間でまわれるのがGOOD! 分析結果 正解分布 1 提案手法 0.4 0.5 0 0.2 推定 1 2 3 4 5 0 0.4 1 2 3 4 5 0.2 推定結果と正解分布とを比較 0 1 2 3 4 5
  • 11. 結果 あるゴルフ場の推定評価値と正解評価値 ゴルフ場20施設の推定平均値と正解平均値との誤差 0.7 12 0.6 10 0.5 8 0.4 推定 6 0.3 正解 4 0.2 0.1 2 0 0 ~0.5 1 2 3 4 5 1 2 3 4 5 ・推定平均値と正解平均値との誤差は全て1.0以下 ・誤差の平均は0.43 あるゴルフ場集合に対する推定手法適用例 0.6 コメント 0.5 久し振りに行きました。距離は長くはありませんが面白いコー スです。 0.4 カートにナビがついてより快適になりました。今の値段でオー 0.3 ルシーズンやっていただけると助かるのですが。 0.2 ナビゲーションも付いていて楽にプレーが出来ました。また行き 0.1 たいと思います。 0 ・・・ 1 2 3 4 5