The Anatomy of Large-Scale Social Search Engine

The Anatomy of Large-Scale
Social Search Engine

2010-02-16
SUHARA YOSHIHIKO
id:sleepy_yoshi

Paper
• Damon Horowitz and Sepandar D. Kamvar
• The Anatomy of a Large-Scale Social Search Engine
• WWW2010 (to appear)

1

イントロダクション

2

図書館パラダイムと村パラダイム
• 図書館パラダイム
– 勵の匴エンジン
– 図書館では，膨大な図書の中からキーワードによっ
て求める情報を含む文書を探す

• 村パラダイム
– Aardvark
– 村では，知り合いに自然言語で尋ねる
– のい人の言っていることは勼頼できる

3

図書館と村の使い分け
• 村パラダイムにした

“Do you have any good babysitter recommendations
in Palo Alto for my 6-year-old twins? I’m looking for
somedbody that won’t let them watch TV.”

– 図書館で調べるよりも友だちに聞いた方がい答えが返ってく
るはず
– 図書館パラダイムと村パラダイムはうまい具合に補完し合う

村パラダイムを実現するシステムは
図書館の匴システムとは大きくなる
アーキテクチャとアルゴリズムが必要
4

ソーシャルサーチエンジン
Aardvark

5

ソーシャルサーチエンジンAardvark
ソーシャルサーチエンジン
≒ 人をるエンジン

• ユーザ (質問者) は，質問を自然言語で
– ブラウザor普段使いのIMから

• システムは，された質問を適なへ提示
– クエリへの回答可能性
– 質問者とのつながりの近さ

• 質問を提示された回答候補者ユーザは
(1) 回答する
(2) 回答者として卲な友人を推薦する
(3) 回答をパスする

• 質問者へ回答を提示 7

参考1: Googleによる買収のニュース
卜の情報$3000万+ ⇒ $5000万で合意!

8

参考2: aardvarkの意味
• aardvark
– 1.〈英俗〉きつい仕事，ハードワーク
– 2. アードバーク
• 米空軍の戦闘機F-111の愛称
– 3.《動物》ツチブタ

F-111戦闘機ツチブタ
9

アーキテクチャと
匴モデル

10

Aardvarkの構成要素
• Crawler and Indexer
– 情報を含むリソース (人) を探し出し，格納
• Query Analyzer
– ユーザの情報要求を解釈
• Ranking Function
– 情報を提するために最の人を
• User Interface
– 使いやすく対話的なインタフェースで情報を提示

存のコーパスベースの匴エンジンでも同様の
構成要素を持っているが，実現方法がなる
11

Aardvarkのアーキテクチャ
ユーザ

ユーザ情報など
12

Social Crawling
• 勵の匴エンジン
– 詳細な情報をインデクスに格納するためには，大規
模なクロールが必要

• Aardvark
– 能動的なクロールは勘要
– ユーザが資源
• より多くのアクティブユーザ
⇒ より広い質問に対応可能，より多くの潜在的な回答者
• より密なソーシャルグラフ
⇒ 卵的な知

ユーザにい経験を提することを通じて，
アクティブユーザでいてもらう＆友人を招待してもらう 13

Indexing People
※p(ui|uj)，p(uj|t)の計算方法

16

Indexing People
• ユーザujについて以下の二つの情報について，
解析を通じて得られた情報をインデクスに格納

(1) Topics
– トピックtに対するユーザの回答可能性
– psmoothed(t|uj) ⇒ p(ui|t)

(2) Connections
– 他ユーザとのつながり
– p(ui|uj)

インデクスはユーザが対話するたにされる
17

(1) Topics
• p(t|ui) 計算に以下の情報を匏用
– 登録の際に設定したもらったトピック
– 友人によるアノテーション
– オンラインプロフィールからの抽出 (e.g., Facebook etc.)
• 単純なTopic Parsing algorithm
– ホームページやブログから自動的に抽出
• SVM + Named Entity抽出 + 変形TF-IDF
– IMメッセージなどから自動的に抽出 (e.g., Twitter etc.)

これらの様々な情報が全てトピックtとなる
(よってp(t|q)もこれらに対応して計算)
18

トピック強化とスムージング
• トピック強化

s (t | ui ) = p(t | ui ) + γ ∑u∈U p (t | u )
友人のトピックを加える
γは小さな値

• スムージング
– (1) トピックに関する協調フィルタリング
– (2) 意味的な類を匏用 (*1)
⇒ プロフィール等に明記されていないトピックに対応するため

19
(*1) Wikipediaなどのコーパスを匏用

(2) Connections
• 以下の特徴に対して重み付きコサイン類を計算し，
ソーシャルグラフを構築
– Social connection (common friends and affiliations)
– Demographic similarity
– Profile similarity (e.g., common favorite movies)
– Vacabulary match (e.g., IM shortcuts)
– Chattiness match (frequency of follow-up messages)
– Verbosity match (the average length of messages)
– Politeness match (e.g., use of “Thanks!”)
– Speed match (responsiveness to other users)

21

ソーシャルグラフの構築
• 前述の特徴を元に構築されたソーシャルグラフ
を転置インデクスに格納
0.2
0.3
0.1
uid:9 uid:7

uid:10 0.5
uid:1
uid:3 ∑ ui ∈U
p(ui | u j ) = 1

転置インデクス

userID uid;score
1 3;0.5 7;0.2 9;0.3 10;0.1 22

Analyzing Questions
※p(t|q)の計算方法

23

質問の解析: 質問の分類
• (1) 以下の判別器を用いて質問を分類
– NonQuestionClassifier
• が質問かどうかを判別
– InappropriateQuestionClassifier
• な勖現，者スパムなど勘卲な質問を判別
除去
– TrivialQuestionClassifier
• 簡単に答えられる質問を判別
• e.g., What time is it now?
– LocationSensitiveClassifier
• 特別な場勰に関する知を必要とするかを判別
• e.g., What’s a great sushi restaurant in Austin, TX?
⇒ ランキングアルゴリズムで匏用
24

質問の解析: p(t|q)の計算
• (2) 以下の手法で得られた分布の線形和によっ
てp(t|q)を算出
– KeywordMatchTopicMapper
• ユーザプロフィールに含まれるトピックに一する文
– TaxonomyTopicMapper
• SVMを用いて約3000トピックに分類
– SalientTermTopicMapper
• 名卲り出しとTF-IDFベースの重要付与により，質問か
ら重要語を抽出
– UserTagTopicMapper
• 質問者によって付与されたタグに割り当てる

25

The Aardvark Ranking
Algorithm

26

ランキングアルゴリズム
: 回答候補者のスコア順に並んだリスト
全てのユーザについて以下の計算をう

1. Topic Expertise
– p(ui|q)
– location-sensitiveな質問の場合，プロフィールを考慮
2. Connectedness
– p(ui|uj)
3. Availability
– 現在のIMステータス (e.g., online) や過去の回答を参
4. ルールベースのフィルタ

⇒ 匴エンジンの文書分方厚と同じように分可能 27

IMインタフェースの

29

回答依頼の

回答依頼の
厩を提示

30

iPhoneでだって使えちゃう

31

ユーザ増えてます？

37

質問のカテゴリ
• 勵の匴エンジンの分布となる
– 比較すべきはQ&Aサイトのような気が．．．

38

質問に対する回答の早さ
• 87.7%の質問が少なくとも1つの回答を受け取る
• 57.2%の質問が10分以内に最初の回答を受け取る
– Yahoo! Answers: ほとんどの質問が10分以内には回答されない
– Facebook: 15.7%の質問が15分以内に回答される
• 平均2.08件の回答
• 回答までの時間の中央値: 6min.37sec.

39

存の匴エンジンとの比較
• 被験者実験 (200件の評価)
– Aardvarkにされた質問をGoogleにクエリとして
– 足する匴医卵を取得するまでの経過時間と医卵に対する
足 (5段階評価) を評価
– 10分以上かかる場合には諦めてもらう

結果
• 経過時間
– Aardvark: 5min. (of passive waiting)
– Google: 2min. (of active searching)

• 匴の成厾と評価勷数
– Aardvark: 71.5%, 3.93±1.23
– Google: 70.5%, 3.07±1.46 41

素朴な感想
• 個々はオーソドックスな技術の組み合わせ
– ひとつの動くシステムに仕上げている素晴らしさ

• 確かに「村」パラダイム
– 知り合いのお願いは断れりづらい
– 質問ばっかしてたら村八分?

• 質問が推薦される厩を提示するのはい
– 厩がなんでれ，厩をえられると断りづらい

• 質問をスルーするの多さがい
– 回答候補者を推薦
– 忙しい (busy) 卙回以の
– 答えたくない (avoid) 質問提示に反映
cf.
42

補足: Q&Aサイトとの違い
• Q&Aサイト
– 掲示板ベース
– 勘特定多数のユーザに回答を依頼
– ユーザ (質問者/回答者) はハンドルネーム

• Aardvark
– チャットベース
– 回答候補者へ直接回答を依頼
– ユーザは実名or知人からは個人を特定可能なID

1対1コミュニケーションの方が
勘特定多数の場合に比べて，ユーザが勼頼のおける，
けになるを取ることが知られている

⇒ Aardvarkのユーザインタフェース (UI) のにい 44

補足: 質問応答匴との違い
• 質問応答匴
– されたクエリに対して適合性の高い文書を返す
⇒ 情報が文書という形で保持されている必要性

• ソーシャルサーチエンジン (Aardvark)
– されたクエリに対して適合性の高い情報を提供
できるような人を返す

45

補足: OKetter
• Twitterを用いたQ&Aサイト

46

Aardvark: ホーム画面 (1/2)

47

Aardvark: ホーム画面 (2/2)

48

The Anatomy of Large-Scale Social Search Engine

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to The Anatomy of Large-Scale Social Search Engine

Similar to The Anatomy of Large-Scale Social Search Engine (20)

More from sleepy_yoshi

More from sleepy_yoshi (20)

Recently uploaded

Recently uploaded (8)

The Anatomy of Large-Scale Social Search Engine