Beliefs and Biases in Web Search (SIGIR'13 Best paper）読んだ

Beliefs and Biases in Web Search
（SIGIR’13 Best paper）

背景
• 人々の信念、また信念から発生する無意識のバイアスは判
断や決断、行動に影響する重要な要素
→検索エンジンの設計にも考慮すべき
• 検索におけるバイアスを解明し、下記のような質問に答える
– 人々は検索の結果として信念を変えるのか
– 検索エンジンの結果には、どの程度特定の結果を返しやすいといっ
たバイアスがあるのか
– 検索時の行動にバイアスはどの程度現れるのか
– これらの要素は検索結果の精度にどのような影響をあたえるのか

背景
• 人々の信念、また信念から発生する無意識のバイアスは判
断や決断、行動に影響する重要な要素
→検索エンジンの設計にも考慮すべき
• 検索におけるバイアスを解明し、下記のような質問に答える
– 人々は検索の結果として信念を変えるのか
変えない
– 検索エンジンの結果には、どの程度特定の結果を返しやすいといっ
たバイアスがあるのか
肯定的な結果ばっかり返す
– 検索時の行動にバイアスはどの程度現れるのか
都合の良い結果ばっかり見る
– これらの要素は検索結果の精度にどのような影響をあたえるのか
そういうユーザの行動に適合して正解かどうかは二の次

調査方法
• Microsoftの従業員にメールでサンプリング
• Yes-no質問をウェブ検索で行った人を対象
– “Does chocolate contain caffeine?”
– “Are shingles contagious?”
• Yes/no質問は2つの対立する結果しかないの
で、信念の度合いを素早く図れる
• 198人（23.1%）の回答者が何かしらの検索エ
ンジンに2週間以内にyes-no質問をしていた

調査方法
• 前向き研究（prospective study）
• 後ろ向き研究（retrospective study）←こっち
– 既に検索を行った人に、その時のことを思い出し
て貰って質問に回答してもらう
– 回想に依存するが、yes-no質問をサーベイ時に
作成するような調査は現実的ではない
– 既存のクエリで他の人に検索させるのも、検索者
の真の信念や動機を考慮できない

3.1 Belief Dynamics
• 検索によって信念がどのように変化したかに焦点を
当てる
• 検索の前後で信念のレベルを測る
– Rate your relative prior belief about the likelihood of each
outcome before you used the search engine
– Rate your relative posterior belief about the likelihood of
each outcome once you finished searching
• 回答は9段階、集計は5段階
NoYes EqualLean yes Lean no

3.1 Belief Dynamics
• 検索前に、検索結果が
yesと思っている人の割
合が58%（←noは21%）
• ややyes, noの状態で検
索した人の47%は彼らの
信念の確認のために検
索をしていると明言
58% 21%

3.1 Belief Dynamics
• Yesとnoの割合が増加し、
確信がない人の割合が
減少（77%→48%）
• Yesの割合が他のどのレ
ベルよりも倍以上多く
なっており、ややyesから
yesへ
77%
48%

3.1 Belief Dynamics
• 検索前の信念レベルがどのように変わったかを調査
• 検索者が確信を持っている場合は検索によって信念が変わらない
• 心理学におけるヒューリスティクス
– 係留と調整（anchoring and adjustment）
– 最初に与えられた情報を基準として、それに調整を加えることで判断
し、最初の情報に現れた特定の特徴を極端に重視しやすい意思決
定プロセス
100%

3.1 Belief Dynamics
• ①ややyes、noだった回答者は引き続きその信念を維
持するがより確信へと変わる
• 最初にyesかno（やや含む）の信念だった場合、逆の
信念に変化することはあまりない
• Equalだった場合、equalに留まるか（44%）、yes側に変
わる（23%＋13%）事が多い←no側に変わるのは21%
（15%＋5%）

この結果を説明する仮説
• 検索者は、元の信念を支持する情報に引き
ずられ、その信念と逆の情報を見ようとせず、
元の信念を変えようとしない
• 検索エンジンが、検索者がより検索結果を見
るように誘導するため、yesの結果を上位に
持ってきている
• 検索エンジンに投げられるyes/no質問に対す
る答えの事前確率がyesに偏っている

3.2 Answer Perceptions and Follow-on
Search
• 検索エンジンで得られた答えは実世界の行
動に影響をあたえるため、人々がそもそも答
えを得られたのか、その答えをどの程度確信
しているのかを調査
• 85%の回答者が検索で答えを見つけており、
その92%がその答えを確信している

3.2 Answer Perceptions and Follow-on
Search
• 検索者は頻繁に複数の結果を確認するためその動
機を調査
– If you found an answer early in your search, did you still
consider multiple results before settling on your final
answer?
– 49%がyes
– そのモチベーションは最初の答えの確認
最初の答えを、反対
の答えから検証

4.1 Searcher Questions
• Sep. 2012から2週間の間に230万人の米国内のBing
ユーザからのクエリをサンプルし、yes-no質問を自動抽
出
– user identifiers, timestamps, queries, result clicks, and the captions
(titles, snippets, URLs) of each of the top 10 results
– Be, have, do, 助動詞が利用されている疑問文を抽出
– 340万のyes-no質問を抽出された（サンプルの2%）
– Yes-no質問に対する信頼性の高い正解が得られる医療分野に限定、
専門家（内科医）に正解を求めた
• クエリは下記の条件を満たすようにフィルタ
– Top-10の検索結果が2週間の間で変わっていない
– セッション中唯一の検索クエリ、またはセッション中最後の検索
クエリで、それより前の検索で同じ単語が利用されていない

4.1 Searcher Questions
• Yes-no質問に対する信頼性の高い正解が得られ
る医療分野に限定、Bingのクエリ分類器を用い、
医療分野の質問を抽出（2.5%）、そこからランダ
ムに1000個の質問をサンプル
• 信頼性担保のため少なくとも10ユーザから発行
された質問に限定
– Do food allergies make you tired?
食物アレルギーは疲労を引き起こすか
– Is congestive heart failure a heart attack?
うっ血性心不全は心臓麻痺か
– Can aspirin cause blood in urine?
アスピリンは血尿の原因となるか

4.2 Physician Answers
• 2人の内科医が回答をyes, 50/50, noにラベル付け
• 一般的なシナリオでyes, noどちらもありうる場合または、判
定には追加の情報が必要である場合のみ50/50
• Don’t know, n/a（医療関係のyes-no質問でない）の回答も可
能→全体の4%
• 70.2%の質問に対し、yesかnoで回答が一致（30%くらいで意
見が別れるという文献もある）
• Κ統計量は0.63（かなりの一致）

4.2 Physician Answers
• Canで始まる質問は49.3%で合意なし、34.0%で合意
• 55.2%がyesで合意、noが44.8%（yes/noに限定）
• Yes-no質問の正解の事前確率には偏りがある（が前
の章の結果ほどではない）
• 検索エンジンやユーザがyes/noにこの比率より偏れ
ば、それらにもbiasがあると言える

4.3 Crowdsourced Judgments
• 検索結果の解析
• 検索結果のキャプションが
与えられ、それらを4種類に
分類するタスク
• 3～5人が6,740キャプション
を分類
• 3人が同じ分類をした場合
を合意とする（96%）
• 85%は3人のみの合意
• ランディングページにも同
様の解析を行った
• 専門家にも同様のタスクを
依頼、κ>0.886で合意
• 専門家とクラウドソーシン
グもκ>0.853で合意
• キャプションとランディング
ページの食い違いは6%
このデータを利用して以降で分析

5.1 Answer Presence and Result
Distributions
• 検索結果に含まれるyes-no回答の割合
（Result＝ランディングページ）
• キャプション/ランディングページのyes-no回答の割合
– Yesに偏っている
– 専門家の正解で条件付けをしてもあまり違いはない
＝検索エンジンは正解によって上記の割合が変化しない

5.2 Distribution of Highest-Ranked Answers
5.3 Relative Ordering of Yes and No
• 検索結果の上位10件での統計
– Yesの回答が上位ランクにくる
– ランディングページのほうが顕著にその傾向

6.1 SERP Behaviors
• 検索者のバイアスが行動に与える影響の調
査
• 最低1回のクリックがある検索を抽出（674の
うち496）
• 検索時の学習の影響を取り除くため最初のク
リックにフォーカス

6.1.1 Result Clicks
• SERPx：検索結果にxが含まれる
• Captionx：キャプションにxが含まれる
• Yesの結果がクリックされやすい
• Rank1に絞っても同様の影響（ランキングの影響がないケース）
（Ground truth）

6.2 Answer Accuracy
• 検索エンジンはyes-no質問に正しい答えを返すの
か？（検索者が正しい答えを得られたのか）
• 下記の情報を元に解析
– Top-1の結果
– First satisfied click（滞在時間30秒以上）
– Last satisfied click
• ほとんどのケースではユーザは1クリックしかしてい
ないのでfirstとlastが同じになるケースが多い

6.2.2 Answer Correctness
6.2.3 Answer Transitions
• Top-1の精度は45%<50%
• 正解がNoの質問では23-29%の精度
• 検索者が選択した結果は精度が向上
• Isやdoesで始まる質問は精度が高く（61%, 59%）、canで始ま
る質問は精度が低い（38%）
• Yes/noをクリックした後、逆
の結果をクリックしない

7. DISCUSSION AND IMPLICATIONS
• 検索時のバイアスに関するエビデンスを示した
• 検索エンジンは誤った答えへと導くこともある
• 質問の種類で大きく精度が違う（可能性に関する質問は精度が低い）
• 制限事項として、データセットが小さい（特定の質問タイプ、yes/no質問の
み等の選定）←それでもクラウドソーシングで2000人日の労力
• 検索エンジンの設計を改良するための示唆
• 事実にかかわらずyesの回答をしてしまう
• 検索エンジンがユーザのバイアスを学習した結果かも
• ユーザのクエリの作成方法にも関連があるかも←ユーザはあまり否定疑
問文でクエリを作成しない
• 検索結果は真実を反映していないが、サイト作成者や検索者の支配的
な意見は反映しているかもしれない←平均的に見るとみんな満足
• パーソナライゼーションにおいては、ユーザの視点と合わない情報がフィ
ルタアウトされることが指摘されているが、似たような示唆がある
• …

Beliefs and Biases in Web Search (SIGIR'13 Best paper）読んだ

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (17)

More from Yusuke Uchida

More from Yusuke Uchida (20)

Recently uploaded

Recently uploaded (16)

Beliefs and Biases in Web Search (SIGIR'13 Best paper）読んだ