ＱＡサイトにおける最適な回答者提示

電気系　　山本研究室
10502489　堀江将隆
QAサイトにおける
最適な回答者提示

2
研究動機
Yahoo!知恵袋等で知られるQAサイトの
需要が高くなってきている
最適な回答を投稿できる回答者を提示
質問を閲覧したユーザが回答
完璧な回答ができるとは限らない

3
目的
● 質問に対し最適な回答者を全ユーザから探し
て提示し回答してもらうこと
● 目的達成のため以下の条件設定
●
Yahoo!知恵袋を対象
● 全ユーザ：対象の質問に回答したユーザ
●
最適な回答者：ベストアンサー回答ユーザ
対象の質問の回答者からベストアンサーを投
稿した回答者を選択する評価実験を行う

4
質問に対する最適な回答者
対象の質問に関する知識(専門用語)
を多く持っている
専門用語：質問の分野を表現
対象の質問の難易度に対応した回答
が得意

5
専門用語を用いた手法

6
知識の表現方法
内容語（名詞，動詞，形容詞）
単語単体で知識として意味を持たない
ものがある
専門用語（特定分野に存在する単語）
単語単体で分野を想像できる
専門用語を知識として使用

7
回答者選択手法
●
質問文から回答する為に必要な知識
(専門用語)を抽出
● 複数の回答ユーザの中から
必要な知識を最も多く持つユーザを探す

8
手法の流れ1
質問文専門用語抽出
専門用語
リスト
〈プロダクトキー〉の〈入力〉〈なし〉で〈リカバリ〉
〈でき〉ないものでしょうか？
専門用語リスト:リカバリ,プロダクトキー
質問の一文
内容語リスト:リカバリ,プロダクトキー,入力,なし,でき

9
手法の流れ2
専門用語の
異なり数をカウント
専門用語
リスト
ユーザの
回答履歴
過去に回答した
質問文と回答文
・・・・・・・リカバリ・・・・・・
･･・・・・・・・・・・・・・・・・・・
･･・・・・・・・・・・・・・・・・・・
プロダクトキー・・・・・・・・
･･・・・・・・・・リカバリ・・・
リカバリ
プロダクトキー
異なり数　：　2
スコア＝2/2
＝1
ユーザAの回答履歴専門用語リストユーザAの知識スコア
各ユーザの
知識スコア

10
手法の流れ3
スコアが最大の
ユーザを選択
最適な
回答者
各ユーザの
知識スコア
ユーザBのスコア：1
ユーザAのスコア：0.7
ユーザCのスコア：0.2
各ユーザの知識スコア出力するユーザ
ユーザBユーザAのスコア：0.7
ユーザBのスコア：1
ユーザCのスコア：0.2
知識スコアでランキング

11
質問難易度を用いた手法

12
質問難易度
●
質問への回答のしやすさを表す
難しい質問
易しい質問
難しい質問
易しい質問
難易度が一致
難しい質問に多く
回答してきたユーザ
易しい質問に多く
回答してきたユーザ
難易度が不一致
難易度が一致
質問者は難易度が合った回答を求めている
回答者は得意な難易度がある
質問者回答者
難易度が一致していれば良い回答が可能

13
質問難易度を決定する要素
●
質問者が求めている回答の抽象度
● 回答が1つに決まっている質問は答えやすい
● 回答候補が複数ある質問は答えにくい
●
質問に必要な知識
● 周知の事実に関する話題であれば答えやすい
● 専門性の高い話題は答えにくい
● 質問文の情報の不十分さ
●
詳細な設定や条件があると回答を導きやすい
● 単純で曖昧な質問は答えにくい

14
回答者選択手法
1.質問の抽象度(難易度情報)を推定
2.複数の回答者の中から抽象度(難易
度情報)が一致するユーザを探す

15
抽象度の定義
● 抽象度1：回答候補が1種類
事象の定義、説明、客観的な理由
例：TVゲーム「テトリス」を考えたのはどこの国の人？
● 抽象度2：回答候補が複数
経験を必要とする回答、手法、解決方法
例：MDに入った曲をCDに録音する方法はありますか？
● 抽象度3：回答候補が複数
情報提供、主観的な回答、推測
例：今年4月から開始されるアニメでどれが一番お勧めですか？

16
予備調査
実際の質問と抽象度に関係があるか
● 5カテゴリからそれぞれ２人選択
● 回答者が過去に回答した質問100件
●
1000件の質問文に対し人手で抽象度を判断
● 各ユーザの質問を抽象度ごとに分類
● それぞれの質問数、ベストアンサー率を算出

17
予備調査の結果
● ユーザの質問が属する抽象度が偏っている
● 質問数の割合が高い抽象度に回答した場合
＝高いベストアンサー率
● 質問数の割合が低い抽象度に回答した場合
＝低いベストアンサー率
多く回答している抽象度に属する質問は得意
抽象度が一致していれば、良い回答が可能

18
抽象度推定手法
質問文を3段階の抽象度に分類する
● 抽象度別の出現割合リストを作成
● 出現割合リストを参照し、質問の各抽象度スコア
を計算
●
各抽象度スコアで重みを設定
● 割合が閾値以上なら割合に出現頻度を掛ける
● ３つの抽象度スコアのうち、最大の抽象度を付与

19
出現割合リスト作成の流れ
質問文
抽象度
ごとに分類
単語の
出現頻度計算
抽象度1
質問文
抽象度2
質問文
抽象度3
質問文
抽象度1
出現頻度
抽象度2
出現頻度
抽象度3
出現頻度
単語の
出現頻度
単語の
出現割合計算
出現割合
リスト

20
出現割合リストの例
● 割合が高いほど、その抽象度に属する確率
が高い
抽象度1 抽象度2 抽象度3
出現頻度割合出現頻度割合出現頻度割合
名前 28 0.81 1 0.04 4 0.14
対処 1 0.03 16 0.88 2 0.09
好き 4 0.05 3 0.06 53 0.88
例：閾値＝0.8　なら　0.81×28=22.68　とする

21
抽象度推定手法の流れ
抽象度
スコア
抽象度1 抽象度2 抽象度3
アニメ＋0.29 ＋0 ＋0.71
どれが＋0.4 ＋0.3 ＋0.3
一番＋0.32 ＋0.23 ＋0.45
勧め＋0.05 ＋0 ＋0.95
スコア
の合計
＝1.06 ＝0.53 ＝2.41
質問：アニメでどれが一番お勧めですか？
出力：抽象度3
質問
抽象度判定出現割合リスト
単語
出現割合
参照
質問の抽象度
例：抽象度1の重み＝1.5
　　抽象度1スコア＝1.59

22
抽象度推定実験
● 使用データ：Yahoo!知恵袋の質問1900件
● 準備の為のデータセットA(950件)
● 実験の為のデータセットB(950件)
● データセットAを用いて、
●
追加条件の為の閾値と重みを決定
● 人手で付与した抽象度と出力した抽象度が
一致したら正解

23
抽象度推定実験結果
●
重み・閾値を設定することにより、
精度が12ポイント向上
● 各抽象度スコアの差が大きい質問は精度が高い
抽象度は特徴の大きい語によって推定可能
出現割合出現割合
＋閾値・重み
正解率 48.2% 60.3%

24
回答者選択手法の流れ１
● 回答者の過去の回答した全ての質問に対して、抽象
度を付与
●
回答者の抽象度スコアを計算
質問の抽象度の割合
●
質問文に対しても同様に抽象度を付与
質問と回答者の抽象度判定
出現割合リスト
単語
参照
出現割合
対象の
質問文
回答者A
の質問文
回答者B
の質問文
回答者C
の質問文
質問文
の抽象度
回答者Cの
抽象度スコア
回答者Aの
抽象度スコア
回答者Bの
抽象度スコア

25
回答者選択手法の流れ２
●
質問文の抽象度と一致する回答者の抽象度スコア
が最大の回答者を出力する
最大のスコアを持つユーザを出力
質問文
の抽象度
回答者Cの
抽象度スコア
回答者B
抽象度：3
回答者Aの
抽象度スコア
回答者Bの
抽象度スコア
抽象度1：0.3
抽象度2：0.6
抽象度3：0.1
抽象度1：0.1
抽象度2：0.1
抽象度3：0.8
抽象度1：0.5
抽象度2：0.3
抽象度3：0.2

26
専門用語と質問難易度を
組み合わせた手法
● それぞれの手法での専門用語スコアと、抽象度スコ
アを加算し、最大のスコアを持つユーザを出力
最大のスコアを持つユーザを出力
質問文
の抽象度
回答者Cの
抽象度スコア
回答者B
抽象度：3
回答者Aの
抽象度スコア
回答者Bの
抽象度スコア
専門用語：0.4
抽象度3：0.1
合計：0.5
専門用語：0.7
抽象度3：0.8
合計：1.5
専門用語：0.2
抽象度3：0.1
合計：0.3

27
回答者選択実験
実験方法
● それぞれの手法を用いて、最適な回答者を選択
● 比較のために、ベストアンサー率が最大のユー
ザを出力する手法で実験
実験データ
● Yahoo!知恵袋の全てのカテゴリを対象
● 回答者が3人から5人の質問1000件
評価方法
● ベストアンサーを回答したユーザを正解

28
回答者選択実験結果
● 専門用語手法：高い精度
複数の回答者候補が存在する場合も正解と
している
● 抽象度手法：低い精度
質問と正解回答者の最大抽象度一致：478件
→　抽象度は有効
● 組み合わせ手法の結果：低い精度
●
ベストアンサー率：高い精度
ランダムベストアン
サー率
専門用語抽象度
(質問難易度)
組み合わせ
正解率 27.8% 46.4% 40.0% 28.5% 28.6%

29
まとめ
● 最適な回答者の提示手法を提案
● 最適なユーザを探す手がかり
専門用語情報
– 質問の分野が一致するユーザ
難易度情報
– 質問者と対応できるユーザ
両手法とも回答者選択手法として高い精度で
はなかった
最適なユーザを探す為に有益な情報である

30
課題
● 組み合わせ手法の検討により精度の向上が
期待できる
● それぞれで正解している質問を合わせると7割
ほどが正解
● 各手法において有効な質問を分析し、それ
ぞれに合った手法を適用する手法を構築

31
ご清聴ありがとうございました

32
専門用語の拡張方法
Yahoo!APIの関連検索ワード検索を使用
入力したキーワードとよく組み合わせて検索される単語
各専門用語１つに対し、最大で50語を収集
「メモリ」の関連検索ワードの例
「ＰＣ」の関連検索ワードの例
メモリ増設,仮想メモリ,バッファロー,ＵＳＢメモリ,
物理メモリ,増設メモリ,ガイアメモリ,エルピーダメ
モリ,フラッシュメモリ,パソコン
ＤＥＰＯＴ,ＰＣゲーム,ＰＣボンバー,自作ＰＣ,ＰＣ
工房,１００円ＰＣ,Ｗａｔｃｈ,タブレットｐｃ,ｐｃ
マックス,モバイルＰＣ

33
専門用語手法結果の詳細
● 各手法でのみ正解がそれぞれ4件あった
　内容語で「当初」や「イマイチ」等の出　
現の差で正解となっているものがあった
● 正解はユーザの回答数に依存していない
● 正解と定義したユーザの回答履歴数が少な
いケースが4件
● 不正解の出力ユーザの回答で
十分に満足できると思えるものが5件

34
文章表現辞書を用いた手法
対応する抽象度文章表現
抽象度1 はどういう意味でしょうか
は誰でしょうか
抽象度2 どうしたらいいのでしょうか
方法はありますか
抽象度3 どう思いますか
お勧めでしょうか
● 抽象度を決める基準となる質問内容を含む文
の文末表現・特定の表現を人手で抽出
● 文章表現辞書を作成
文章表現を含む文は対応する抽象度と判定

ＱＡサイトにおける最適な回答者提示

Recommended

Recommended

More Related Content

More from 長岡技術科学大学　自然言語処理研究室

More from 長岡技術科学大学　自然言語処理研究室 (20)

Recently uploaded

Recently uploaded (9)