SlideShare a Scribd company logo
1 of 34
Download to read offline
電気系  山本研究室
10502489 堀江 将隆
QAサイトにおける
最適な回答者提示
2
研究動機
Yahoo!知恵袋等で知られるQAサイトの
需要が高くなってきている
最適な回答を投稿できる回答者を提示
質問を閲覧したユーザが回答
完璧な回答ができるとは限らない
3
目的
● 質問に対し最適な回答者を全ユーザから探し
て提示し回答してもらうこと
● 目的達成のため以下の条件設定
●
Yahoo!知恵袋を対象
● 全ユーザ:対象の質問に回答したユーザ
●
最適な回答者:ベストアンサー回答ユーザ
対象の質問の回答者からベストアンサーを投
稿した回答者を選択する評価実験を行う
4
質問に対する最適な回答者
対象の質問に関する知識(専門用語)
を多く持っている
専門用語:質問の分野を表現
対象の質問の難易度に対応した回答
が得意
5
専門用語を用いた手法
6
知識の表現方法
内容語(名詞,動詞,形容詞)
単語単体で知識として意味を持たない
ものがある
専門用語(特定分野に存在する単語)
単語単体で分野を想像できる
専門用語を知識として使用
7
回答者選択手法
●
質問文から回答する為に必要な知識
(専門用語)を抽出
● 複数の回答ユーザの中から
必要な知識を最も多く持つユーザを探す
8
手法の流れ1
質問文 専門用語抽出
専門用語
リスト
〈プロダクトキー〉の〈入力〉〈なし〉で〈リカバリ〉
〈でき〉ないものでしょうか?
専門用語リスト:リカバリ,プロダクトキー
質問の一文
内容語リスト:リカバリ,プロダクトキー,入力,なし,でき
9
手法の流れ2
専門用語の
異なり数をカウント
専門用語
リスト
ユーザの
回答履歴
過去に回答した
質問文と回答文
・・・・・・・リカバリ・・・・・・
・・・・・・・・・・・・・・・・・・・・
・・・・・・・・・・・・・・・・・・・・
プロダクトキー・・・・・・・・
・・・・・・・・・・リカバリ・・・
リカバリ
プロダクトキー
異なり数  : 2
スコア=2/2
=1
ユーザAの回答履歴専門用語リスト ユーザAの知識スコア
各ユーザの
知識スコア
10
手法の流れ3
スコアが最大の
ユーザを選択
最適な
回答者
各ユーザの
知識スコア
ユーザBのスコア:1
ユーザAのスコア:0.7
ユーザCのスコア:0.2
各ユーザの知識スコア 出力するユーザ
ユーザBユーザAのスコア:0.7
ユーザBのスコア:1
ユーザCのスコア:0.2
知識スコアでランキング
11
質問難易度を用いた手法
12
質問難易度
●
質問への回答のしやすさを表す
難しい質問
易しい質問
難しい質問
易しい質問
難易度が一致
難しい質問に多く
回答してきたユーザ
易しい質問に多く
回答してきたユーザ
難易度が不一致
難易度が一致
質問者は難易度が合った回答を求めている
回答者は得意な難易度がある
質問者 回答者
難易度が一致していれば良い回答が可能
13
質問難易度を決定する要素
●
質問者が求めている回答の抽象度
● 回答が1つに決まっている質問は答えやすい
● 回答候補が複数ある質問は答えにくい
●
質問に必要な知識
● 周知の事実に関する話題であれば答えやすい
● 専門性の高い話題は答えにくい
● 質問文の情報の不十分さ
●
詳細な設定や条件があると回答を導きやすい
● 単純で曖昧な質問は答えにくい
14
回答者選択手法
1.質問の抽象度(難易度情報)を推定
2.複数の回答者の中から抽象度(難易
度情報)が一致するユーザを探す
15
抽象度の定義
● 抽象度1:回答候補が1種類
事象の定義、説明、客観的な理由
例:TVゲーム「テトリス」を考えたのはどこの国の人?
● 抽象度2:回答候補が複数
経験を必要とする回答、手法、解決方法
例:MDに入った曲をCDに録音する方法はありますか?
● 抽象度3:回答候補が複数
情報提供、主観的な回答、推測
例:今年4月から開始されるアニメでどれが一番お勧めですか?
16
予備調査
実際の質問と抽象度に関係があるか
● 5カテゴリからそれぞれ2人選択
● 回答者が過去に回答した質問100件
●
1000件の質問文に対し人手で抽象度を判断
● 各ユーザの質問を抽象度ごとに分類
● それぞれの質問数、ベストアンサー率を算出
17
予備調査の結果
● ユーザの質問が属する抽象度が偏っている
● 質問数の割合が高い抽象度に回答した場合
=高いベストアンサー率
● 質問数の割合が低い抽象度に回答した場合
=低いベストアンサー率
多く回答している抽象度に属する質問は得意
抽象度が一致していれば、良い回答が可能
18
抽象度推定手法
質問文を3段階の抽象度に分類する
● 抽象度別の出現割合リストを作成
● 出現割合リストを参照し、質問の各抽象度スコア
を計算
●
各抽象度スコアで重みを設定
● 割合が閾値以上なら割合に出現頻度を掛ける
● 3つの抽象度スコアのうち、最大の抽象度を付与
19
出現割合リスト作成の流れ
質問文
抽象度
ごとに分類
単語の
出現頻度計算
抽象度1
質問文
抽象度2
質問文
抽象度3
質問文
抽象度1
出現頻度
抽象度2
出現頻度
抽象度3
出現頻度
単語の
出現頻度
単語の
出現割合計算
出現割合
リスト
20
出現割合リストの例
● 割合が高いほど、その抽象度に属する確率
が高い
抽象度1 抽象度2 抽象度3
出現頻度 割合 出現頻度 割合 出現頻度 割合
名前 28 0.81 1 0.04 4 0.14
対処 1 0.03 16 0.88 2 0.09
好き 4 0.05 3 0.06 53 0.88
例:閾値=0.8 なら 0.81×28=22.68 とする
21
抽象度推定手法の流れ
抽象度
スコア
抽象度1 抽象度2 抽象度3
アニメ +0.29 +0 +0.71
どれが +0.4 +0.3 +0.3
一番 +0.32 +0.23 +0.45
勧め +0.05 +0 +0.95
スコア
の合計
=1.06 =0.53 =2.41
質問:アニメでどれが一番お勧めですか?
出力:抽象度3
質問
抽象度判定 出現割合リスト
単語
出現割合
参照
質問の抽象度
例:抽象度1の重み=1.5
   抽象度1スコア=1.59
22
抽象度推定実験
● 使用データ:Yahoo!知恵袋の質問1900件
● 準備の為のデータセットA(950件)
● 実験の為のデータセットB(950件)
● データセットAを用いて、
●
追加条件の為の閾値と重みを決定
● 人手で付与した抽象度と出力した抽象度が
一致したら正解
23
抽象度推定実験結果
●
重み・閾値を設定することにより、
精度が12ポイント向上
● 各抽象度スコアの差が大きい質問は精度が高い
抽象度は特徴の大きい語によって推定可能
出現割合 出現割合
+閾値・重み
正解率 48.2% 60.3%
24
回答者選択手法の流れ1
● 回答者の過去の回答した全ての質問に対して、抽象
度を付与
●
回答者の抽象度スコアを計算
質問の抽象度の割合
●
質問文に対しても同様に抽象度を付与
質問と回答者の抽象度判定
出現割合リスト
単語
参照
出現割合
対象の
質問文
回答者A
の質問文
回答者B
の質問文
回答者C
の質問文
質問文
の抽象度
回答者Cの
抽象度スコア
回答者Aの
抽象度スコア
回答者Bの
抽象度スコア
25
回答者選択手法の流れ2
●
質問文の抽象度と一致する回答者の抽象度スコア
が最大の回答者を出力する
最大のスコアを持つユーザを出力
質問文
の抽象度
回答者Cの
抽象度スコア
回答者B
抽象度:3
回答者Aの
抽象度スコア
回答者Bの
抽象度スコア
抽象度1:0.3
抽象度2:0.6
抽象度3:0.1
抽象度1:0.1
抽象度2:0.1
抽象度3:0.8
抽象度1:0.5
抽象度2:0.3
抽象度3:0.2
26
専門用語と質問難易度を
組み合わせた手法
● それぞれの手法での専門用語スコアと、抽象度スコ
アを加算し、最大のスコアを持つユーザを出力
最大のスコアを持つユーザを出力
質問文
の抽象度
回答者Cの
抽象度スコア
回答者B
抽象度:3
回答者Aの
抽象度スコア
回答者Bの
抽象度スコア
専門用語:0.4
抽象度3:0.1
合計:0.5
専門用語:0.7
抽象度3:0.8
合計:1.5
専門用語:0.2
抽象度3:0.1
合計:0.3
27
回答者選択実験
実験方法
● それぞれの手法を用いて、最適な回答者を選択
● 比較のために、ベストアンサー率が最大のユー
ザを出力する手法で実験
実験データ
● Yahoo!知恵袋の全てのカテゴリを対象
● 回答者が3人から5人の質問1000件
評価方法
● ベストアンサーを回答したユーザを正解
28
回答者選択実験結果
● 専門用語手法:高い精度
複数の回答者候補が存在する場合も正解と
している
● 抽象度手法:低い精度
質問と正解回答者の最大抽象度一致:478件
→ 抽象度は有効
● 組み合わせ手法の結果:低い精度
●
ベストアンサー率:高い精度
ランダム ベストアン
サー率
専門用語 抽象度
(質問難易度)
組み合わせ
正解率 27.8% 46.4% 40.0% 28.5% 28.6%
29
まとめ
● 最適な回答者の提示手法を提案
● 最適なユーザを探す手がかり
専門用語情報
– 質問の分野が一致するユーザ
難易度情報
– 質問者と対応できるユーザ
両手法とも回答者選択手法として高い精度で
はなかった
最適なユーザを探す為に有益な情報である
30
課題
● 組み合わせ手法の検討により精度の向上が
期待できる
● それぞれで正解している質問を合わせると7割
ほどが正解
● 各手法において有効な質問を分析し、それ
ぞれに合った手法を適用する手法を構築
31
ご清聴ありがとうございました
32
専門用語の拡張方法
Yahoo!APIの関連検索ワード検索を使用
入力したキーワードとよく組み合わせて検索される単語
各専門用語1つに対し、最大で50語を収集
「メモリ」の関連検索ワードの例
「PC」の関連検索ワードの例
メモリ増設,仮想メモリ,バッファロー,USBメモリ,
物理メモリ,増設メモリ,ガイアメモリ,エルピーダメ
モリ,フラッシュメモリ,パソコン
DEPOT,PCゲーム,PCボンバー,自作PC,PC
工房,100円PC,Watch,タブレットpc,pc
マックス,モバイルPC
33
専門用語手法結果の詳細
● 各手法でのみ正解がそれぞれ4件あった
 内容語で「当初」や「イマイチ」等の出 
現の差で正解となっているものがあった
● 正解はユーザの回答数に依存していない
● 正解と定義したユーザの回答履歴数が少な
いケースが4件
● 不正解の出力ユーザの回答で
十分に満足できると思えるものが5件
34
文章表現辞書を用いた手法
対応する抽象度 文章表現
抽象度1 はどういう意味でしょうか
は誰でしょうか
抽象度2 どうしたらいいのでしょうか
方法はありますか
抽象度3 どう思いますか
お勧めでしょうか
● 抽象度を決める基準となる質問内容を含む文
の文末表現・特定の表現を人手で抽出
● 文章表現辞書を作成
文章表現を含む文は対応する抽象度と判定

More Related Content

More from 長岡技術科学大学 自然言語処理研究室

More from 長岡技術科学大学 自然言語処理研究室 (20)

小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
小学生の読解支援に向けた複数の換言知識を併用した語彙平易化と評価
 
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
小学生の読解支援に向けた語釈文から語彙的換言を選択する手法
 
Selecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for ChildrenSelecting Proper Lexical Paraphrase for Children
Selecting Proper Lexical Paraphrase for Children
 
Automatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge ExpressionAutomatic Selection of Predicates for Common Sense Knowledge Expression
Automatic Selection of Predicates for Common Sense Knowledge Expression
 
用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察用言等換言辞書を用いた換言結果の考察
用言等換言辞書を用いた換言結果の考察
 
用言等換言辞書の構築
用言等換言辞書の構築用言等換言辞書の構築
用言等換言辞書の構築
 
質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類質問意図によるQAサイト質問文の自動分類
質問意図によるQAサイト質問文の自動分類
 
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築役所からの公的文書に対する「やさしい日本語」への変換システムの構築
役所からの公的文書に対する「やさしい日本語」への変換システムの構築
 
対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳対訳コーパスから生成したワードグラフによる部分的機械翻訳
対訳コーパスから生成したワードグラフによる部分的機械翻訳
 
用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました用言等換言辞書を人手で作りました
用言等換言辞書を人手で作りました
 
文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得文字列の出現頻度情報を用いた分かち書き単位の自動取得
文字列の出現頻度情報を用いた分かち書き単位の自動取得
 
「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作「やさしい日本語」変換システムの試作
「やさしい日本語」変換システムの試作
 
常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討常識表現となり得る用言の自動選定の検討
常識表現となり得る用言の自動選定の検討
 
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
動詞意味類型の曖昧性解消に向けた格フレーム情報との関連調査
 
二格深層格の定量的分析
二格深層格の定量的分析二格深層格の定量的分析
二格深層格の定量的分析
 
大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得大規模常識知識ベース構築のための常識表現の自動獲得
大規模常識知識ベース構築のための常識表現の自動獲得
 
文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案文脈の多様性に基づく名詞換言の提案
文脈の多様性に基づく名詞換言の提案
 
保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出保険関連文書を対象とした文章校正支援のための変換誤り検出
保険関連文書を対象とした文章校正支援のための変換誤り検出
 
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text AnalyzerDeveloping User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
 
普通名詞換言辞書の構築
普通名詞換言辞書の構築普通名詞換言辞書の構築
普通名詞換言辞書の構築
 

Recently uploaded

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 

Recently uploaded (9)

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 

QAサイトにおける最適な回答者提示