SlideShare a Scribd company logo
1 of 49
Download to read offline
The Anatomy of Large-Scale
   Social Search Engine

          2010-02-16
      SUHARA YOSHIHIKO
        id:sleepy_yoshi
Paper
• Damon Horowitz and Sepandar D. Kamvar
• The Anatomy of a Large-Scale Social Search Engine
• WWW2010 (to appear)




                                                  1
イントロダクション




            2
図書館パラダイムと村パラダイム
• 図書館パラダイム
 – 勵の匴 エンジン
 – 図書館では,膨大な図書の中からキーワードによっ
   て求める情報を含む文書を探す


• 村パラダイム
 – Aardvark
 – 村では,知り合いに自然言語で尋ねる
 – の い人の言っていることは勼頼できる


                             3
図書館と村の使い分け
• 村パラダイムに した

    “Do you have any good babysitter recommendations
    in Palo Alto for my 6-year-old twins? I’m looking for
    somedbody that won’t let them watch TV.”


 – 図書館で調べるよりも友だちに聞いた方が い答えが返ってく
   るはず
 – 図書館パラダイムと村パラダイムはうまい具合に補完し合う


     村パラダイムを実現するシステムは
    図書館の匴 システムとは大きく なる
     アーキテクチャとアルゴリズムが必要
                                                            4
ソーシャルサーチエンジン
    Aardvark



               5
Aardvark




           6
ソーシャルサーチエンジンAardvark
        ソーシャルサーチエンジン
        ≒ 人 を  るエンジン

• ユーザ (質問者) は,質問を自然言語で
 – ブラウザor普段使いのIMから

• システムは,   された質問を適 な     へ提示
 – クエリへの回答可能性
 – 質問者とのつながりの近さ

• 質問を提示された回答候補者ユーザは
 (1) 回答する
 (2) 回答者として 卲な友人を推薦する
 (3) 回答をパスする

• 質問者へ回答を提示                7
参考1: Googleによる買収のニュース
  卜   の情報$3000万+ ⇒ $5000万で合意!




                                8
参考2: aardvarkの意味
• aardvark
  – 1.〈英俗〉きつい仕事,ハードワーク
  – 2. アードバーク
    • 米空軍の戦闘機F-111の愛称
  – 3.《動物》ツチブタ




     F-111戦闘機           ツチブタ
                               9
アーキテクチャと
  匴 モデル



           10
Aardvarkの構成要素
• Crawler and Indexer
  – 情報を含むリソース (人) を探し出し,格納
• Query Analyzer
  – ユーザの情報要求を解釈
• Ranking Function
  – 情報を提 するために最 の人を
• User Interface
  – 使いやすく対話的なインタフェースで情報を提示

    存のコーパスベースの匴 エンジンでも同様の
    構成要素を持っているが,実現方法が なる
                             11
Aardvarkのアーキテクチャ
ユーザ




           ユーザ情報など
                     12
Social Crawling
•   勵の匴      エンジン
    – 詳細な情報をインデクスに格納するためには,大規
      模なクロールが必要

• Aardvark
    – 能動的なクロールは勘要
    – ユーザが資源
     • より多くのアクティブユーザ
     ⇒ より広い質問に対応可能,より多くの潜在的な回答者
     • より密なソーシャルグラフ
     ⇒ 卵的な知

      ユーザに い経験を提 することを通じて,
    アクティブユーザでいてもらう&友人を招待してもらう     13
匴 モデル
• 下記の回答スコアによって順序付けられたユー
  ザuiのリストを返す
           s (ui , u j , q ) = p(ui | u j ) p(ui | q)

    – p(ui|q): relevance score (クエリ依存) e.g., TF-IDF
    – p(ui|uj): quality score (クエリ非依存) e.g., PageRank


•     勵の匴       エンジンと なる勷
    – p(ui|uj): 「権威」ではなく「関係」
    – p(ui|q): 「関連性」ではなく「回答可能性」
                                                        14
回答スコアの計算方法
• トピックモデル (PLSI) を匏用
  – トピック の厬件付き確厾に分解                               トピック数
                                                   数収
     s (ui , u j , q ) = p(ui | u j ) p(ui | q)
                    = p(ui | u j )∑ p (ui | t ) p (t | q)
                                   t∈T
• 匏勷: 計算 厾がよい
 – ユーザ登録時など,オフラインでp(ui|uj),p(uj|t)を計算可能
 – p(t|q) のみクエリ叀 時に計算する必要

     p(t|q): 質問に対するトピックの割合
     p(uj|t): トピックにおけるユーザの回答可能性
     p(ui|uj): ユーザ同士のつながり
                                                            15
   ⇒ 計算方法を順番に解説
Indexing People
 ※p(ui|uj),p(uj|t)の計算方法




                          16
Indexing People
• ユーザujについて以下の二つの情報について,
  解析を通じて得られた情報をインデクスに格納

(1) Topics
  – トピックtに対するユーザの回答可能性
  – psmoothed(t|uj) ⇒ p(ui|t)


(2) Connections
  – 他ユーザとのつながり
  – p(ui|uj)

  インデクスはユーザが対話するた に             される
                                      17
(1) Topics
• p(t|ui) 計算に以下の情報を匏用
 – 登録の際に設定したもらったトピック
 – 友人によるアノテーション
 – オンラインプロフィールからの抽出 (e.g., Facebook etc.)
   • 単純なTopic Parsing algorithm
 – ホームページやブログから自動的に抽出
   • SVM + Named Entity抽出 + 変形TF-IDF
 – IMメッセージなどから自動的に抽出 (e.g., Twitter etc.)




     これらの様々な情報が全てトピックtとなる
      (よってp(t|q)もこれらに対応して計算)
                                            18
トピック強化とスムージング
 • トピック強化

       s (t | ui ) = p(t | ui ) + γ ∑u∈U p (t | u )
                                    友人のトピックを加える
                                         γは小さな値

 • スムージング
    – (1) トピックに関する協調フィルタリング
    – (2) 意味的な類  を匏用 (*1)
 ⇒ プロフィール等に明記されていないトピックに対応するため


                                                      19
(*1) Wikipediaなどのコーパスを匏用
p(ui|t)の計算
• ベイズの定 を匏用してp(t|ui) → p(ui|t)

                                          一様分布

                     p (t | ui ) p (ui )
        p(ui | t ) =
                            p(t )
                                トピックの

• 算出したp(ui|t)を転置インデクスに格納
        topic         userID;prob

          sport         1;0.2       ...

          tech          1;0.3       ...
           …




                                                 20
(2) Connections
• 以下の特徴に対して重み付きコサイン類                             を計算し,
  ソーシャルグラフを構築
 –   Social connection (common friends and affiliations)
 –   Demographic similarity
 –   Profile similarity (e.g., common favorite movies)
 –   Vacabulary match (e.g., IM shortcuts)
 –   Chattiness match (frequency of follow-up messages)
 –   Verbosity match (the average length of messages)
 –   Politeness match (e.g., use of “Thanks!”)
 –   Speed match (responsiveness to other users)




                                                           21
ソーシャルグラフの構築
 • 前述の特徴を元に構築されたソーシャルグラフ
   を転置インデクスに格納
                                           0.2
              0.3
   0.1
                uid:9                   uid:7

    uid:10                                 0.5
                          uid:1
                                        uid:3    ∑ ui ∈U
                                                           p(ui | u j ) = 1

転置インデクス

     userID         uid;score
         1              3;0.5   7;0.2     9;0.3 10;0.1               22
Analyzing Questions
         ※p(t|q)の計算方法




                        23
質問の解析: 質問の分類
• (1) 以下の判別器を用いて質問を分類
 – NonQuestionClassifier
    •     が質問かどうかを判別
 – InappropriateQuestionClassifier
    •     な勖現, 者スパムなど勘 卲な質問を判別
                                                         除去
 – TrivialQuestionClassifier
    • 簡単に答えられる質問を判別
    • e.g., What time is it now?
 – LocationSensitiveClassifier
    • 特別な場勰に関する知 を必要とするかを判別
    • e.g., What’s a great sushi restaurant in Austin, TX?
    ⇒ ランキングアルゴリズムで匏用
                                                             24
質問の解析: p(t|q)の計算
• (2) 以下の手法で得られた分布の線形和によっ
  てp(t|q)を算出
 – KeywordMatchTopicMapper
   • ユーザプロフィールに含まれるトピックに一 する文
 – TaxonomyTopicMapper
   • SVMを用いて約3000トピックに分類
 – SalientTermTopicMapper
   • 名 卲り出しとTF-IDFベースの重要 付与により,質問か
     ら重要語を抽出
 – UserTagTopicMapper
   • 質問者によって付与されたタグに割り当てる


                                     25
The Aardvark Ranking
     Algorithm




                       26
ランキングアルゴリズム
    : 回答候補者のスコア順に並んだリスト
全てのユーザについて以下の計算を う

1. Topic Expertise
   – p(ui|q)
   – location-sensitiveな質問の場合,プロフィールを考慮
2. Connectedness
   – p(ui|uj)
3. Availability
   – 現在のIMステータス (e.g., online) や過去の回答   を参
4. ルールベースのフィルタ

⇒ 匴 エンジンの文書分 方厚と同じように分 可能                    27
User Interface




                 28
IMインタフェースの




             29
回答依頼の



        回答依頼の
         厩を提示




            30
iPhoneでだって使えちゃう




                  31
4. Examples




              32
1




    33
2




    34
3




    35
5. Analysis




              36
ユーザ増えてます   ?




               37
質問のカテゴリ
•   勵の匴   エンジンの分布と なる
    – 比較すべきはQ&Aサイトのような気が...




                              38
質問に対する回答の早さ
• 87.7%の質問が少なくとも1つの回答を受け取る
• 57.2%の質問が10分以内に最初の回答を受け取る
  – Yahoo! Answers: ほとんどの質問が10分以内には回答されない
  – Facebook: 15.7%の質問が15分以内に回答される
• 平均2.08件の回答
• 回答までの時間の中央値: 6min.37sec.




                                        39
6. Evaluation




                40
存の匴 エンジンとの比較
• 被験者実験 (200件の評価)
 – Aardvarkに された質問をGoogleにクエリとして
 –   足する匴 医卵を取得するまでの経過時間と医卵に対する
   足 (5段階評価) を評価
 – 10分以上かかる場合には諦めてもらう

 結果
      • 経過時間
       – Aardvark: 5min. (of passive waiting)
       – Google: 2min. (of active searching)


      • 匴 の成 厾と評価勷数
       – Aardvark: 71.5%, 3.93±1.23
       – Google: 70.5%, 3.07±1.46               41
素朴な感想
• 個々はオーソドックスな技術の組み合わせ
 – ひとつの動くシステムに仕上げている素晴らしさ

• 確かに「村」パラダイム
 – 知り合いのお願いは断れりづらい
 – 質問ばっかしてたら村八分?

• 質問が推薦される 厩を提示するのは い
 –   厩がなんで れ, 厩を えられると断りづらい

• 質問をスルーする          の多さが い
 – 回答候補者を推薦
 – 忙しい (busy)         卙回以 の
 – 答えたくない (avoid)    質問提示に反映
                             cf.
                                   42
補足資厄




       43
補足: Q&Aサイトとの違い
• Q&Aサイト
   – 掲示板ベース
   – 勘特定多数のユーザに回答を依頼
   – ユーザ (質問者/回答者) はハンドルネーム


• Aardvark
   – チャットベース
   – 回答候補者へ直接回答を依頼
   – ユーザは実名or知人からは個人を特定可能なID

          1対1コミュニケーションの方が
     勘特定多数の場合に比べて,ユーザが勼頼のおける,
         けになる  を取ることが知られている

⇒ Aardvarkのユーザインタフェース (UI)   の   に   い   44
補足: 質問応答匴 との違い
• 質問応答匴
 –   されたクエリに対して適合性の高い文書を返す
 ⇒ 情報が文書という形で保持されている必要性



• ソーシャルサーチエンジン (Aardvark)
 –     されたクエリに対して適合性の高い情報を提供
     できるような人を返す




                               45
補足: OKetter
• Twitterを用いたQ&Aサイト




                       46
Aardvark: ホーム画面 (1/2)




                        47
Aardvark: ホーム画面 (2/2)




                        48

More Related Content

What's hot

Optimizing Search Engines using Clickthrough Data
Optimizing Search Engines using Clickthrough DataOptimizing Search Engines using Clickthrough Data
Optimizing Search Engines using Clickthrough DataKoji Yoshida
 
潜在ディリクレ配分法
潜在ディリクレ配分法潜在ディリクレ配分法
潜在ディリクレ配分法y-uti
 
AutoEncoderで特徴抽出
AutoEncoderで特徴抽出AutoEncoderで特徴抽出
AutoEncoderで特徴抽出Kai Sasaki
 
サブカルのためのWord2vec
サブカルのためのWord2vecサブカルのためのWord2vec
サブカルのためのWord2vecDeNA
 
質問応答システム入門
質問応答システム入門質問応答システム入門
質問応答システム入門Hiroyoshi Komatsu
 
トピックモデルの基礎と応用
トピックモデルの基礎と応用トピックモデルの基礎と応用
トピックモデルの基礎と応用Tomonari Masada
 
人工知能の技術で有名なニューラルネットワークのフレームワークである #Chainer を用いた対話botを使った俺の屍を越えてゆけ slide share
人工知能の技術で有名なニューラルネットワークのフレームワークである #Chainer を用いた対話botを使った俺の屍を越えてゆけ  slide share人工知能の技術で有名なニューラルネットワークのフレームワークである #Chainer を用いた対話botを使った俺の屍を越えてゆけ  slide share
人工知能の技術で有名なニューラルネットワークのフレームワークである #Chainer を用いた対話botを使った俺の屍を越えてゆけ slide shareOgushi Masaya
 
Wikipedia Entity VectorとWordNetで
対話内容を選定し Chainer を用いたAttentionモデルで 発話内の重要な単語...
Wikipedia Entity VectorとWordNetで
対話内容を選定し Chainer を用いたAttentionモデルで 発話内の重要な単語...Wikipedia Entity VectorとWordNetで
対話内容を選定し Chainer を用いたAttentionモデルで 発話内の重要な単語...
Wikipedia Entity VectorとWordNetで
対話内容を選定し Chainer を用いたAttentionモデルで 発話内の重要な単語...Ogushi Masaya
 
DATUM STUDIO PyCon2016 Turorial
DATUM STUDIO PyCon2016 TurorialDATUM STUDIO PyCon2016 Turorial
DATUM STUDIO PyCon2016 TurorialTatsuya Tojima
 
[DL輪読会]Learning to Retrieve Reasoning Paths over Wikipedia Graph for Question...
[DL輪読会]Learning to Retrieve Reasoning Paths over Wikipedia Graph for Question...[DL輪読会]Learning to Retrieve Reasoning Paths over Wikipedia Graph for Question...
[DL輪読会]Learning to Retrieve Reasoning Paths over Wikipedia Graph for Question...Deep Learning JP
 
機械学習を利用したちょっとリッチな検索
機械学習を利用したちょっとリッチな検索機械学習を利用したちょっとリッチな検索
機械学習を利用したちょっとリッチな検索nobu_k
 
Step by Stepで学ぶ自然言語処理における深層学習の勘所
Step by Stepで学ぶ自然言語処理における深層学習の勘所Step by Stepで学ぶ自然言語処理における深層学習の勘所
Step by Stepで学ぶ自然言語処理における深層学習の勘所Ogushi Masaya
 
AlphaGo Zero 解説
AlphaGo Zero 解説AlphaGo Zero 解説
AlphaGo Zero 解説suckgeun lee
 
Learning to Ask Good Questions: Ranking Clarification Questions using Neura...
Learning to Ask Good Questions:  Ranking Clarification Questions  using Neura...Learning to Ask Good Questions:  Ranking Clarification Questions  using Neura...
Learning to Ask Good Questions: Ranking Clarification Questions using Neura...ryoma yoshimura
 
Introduction to Recommender Systems 2012.1.30 Zansa #3
Introduction to Recommender Systems 2012.1.30 Zansa #3Introduction to Recommender Systems 2012.1.30 Zansa #3
Introduction to Recommender Systems 2012.1.30 Zansa #3Atsushi KOMIYA
 
ChainerでDeep Learningを試すために必要なこと
ChainerでDeep Learningを試すために必要なことChainerでDeep Learningを試すために必要なこと
ChainerでDeep Learningを試すために必要なことRetrieva inc.
 
深層学習を用いたコンピュータビジョン技術とスマートショップの実現
深層学習を用いたコンピュータビジョン技術とスマートショップの実現深層学習を用いたコンピュータビジョン技術とスマートショップの実現
深層学習を用いたコンピュータビジョン技術とスマートショップの実現DeNA
 
Jubatus Casual Talks #2: 大量映像・画像のための異常値検知とクラス分類
Jubatus Casual Talks #2: 大量映像・画像のための異常値検知とクラス分類Jubatus Casual Talks #2: 大量映像・画像のための異常値検知とクラス分類
Jubatus Casual Talks #2: 大量映像・画像のための異常値検知とクラス分類Hirotaka Ogawa
 
ChainerでDeep Learningを試す為に必要なこと
ChainerでDeep Learningを試す為に必要なことChainerでDeep Learningを試す為に必要なこと
ChainerでDeep Learningを試す為に必要なことJiro Nishitoba
 

What's hot (20)

Optimizing Search Engines using Clickthrough Data
Optimizing Search Engines using Clickthrough DataOptimizing Search Engines using Clickthrough Data
Optimizing Search Engines using Clickthrough Data
 
潜在ディリクレ配分法
潜在ディリクレ配分法潜在ディリクレ配分法
潜在ディリクレ配分法
 
AutoEncoderで特徴抽出
AutoEncoderで特徴抽出AutoEncoderで特徴抽出
AutoEncoderで特徴抽出
 
サブカルのためのWord2vec
サブカルのためのWord2vecサブカルのためのWord2vec
サブカルのためのWord2vec
 
質問応答システム入門
質問応答システム入門質問応答システム入門
質問応答システム入門
 
トピックモデルの基礎と応用
トピックモデルの基礎と応用トピックモデルの基礎と応用
トピックモデルの基礎と応用
 
人工知能の技術で有名なニューラルネットワークのフレームワークである #Chainer を用いた対話botを使った俺の屍を越えてゆけ slide share
人工知能の技術で有名なニューラルネットワークのフレームワークである #Chainer を用いた対話botを使った俺の屍を越えてゆけ  slide share人工知能の技術で有名なニューラルネットワークのフレームワークである #Chainer を用いた対話botを使った俺の屍を越えてゆけ  slide share
人工知能の技術で有名なニューラルネットワークのフレームワークである #Chainer を用いた対話botを使った俺の屍を越えてゆけ slide share
 
Wikipedia Entity VectorとWordNetで
対話内容を選定し Chainer を用いたAttentionモデルで 発話内の重要な単語...
Wikipedia Entity VectorとWordNetで
対話内容を選定し Chainer を用いたAttentionモデルで 発話内の重要な単語...Wikipedia Entity VectorとWordNetで
対話内容を選定し Chainer を用いたAttentionモデルで 発話内の重要な単語...
Wikipedia Entity VectorとWordNetで
対話内容を選定し Chainer を用いたAttentionモデルで 発話内の重要な単語...
 
DATUM STUDIO PyCon2016 Turorial
DATUM STUDIO PyCon2016 TurorialDATUM STUDIO PyCon2016 Turorial
DATUM STUDIO PyCon2016 Turorial
 
[DL輪読会]Learning to Retrieve Reasoning Paths over Wikipedia Graph for Question...
[DL輪読会]Learning to Retrieve Reasoning Paths over Wikipedia Graph for Question...[DL輪読会]Learning to Retrieve Reasoning Paths over Wikipedia Graph for Question...
[DL輪読会]Learning to Retrieve Reasoning Paths over Wikipedia Graph for Question...
 
機械学習を利用したちょっとリッチな検索
機械学習を利用したちょっとリッチな検索機械学習を利用したちょっとリッチな検索
機械学習を利用したちょっとリッチな検索
 
Step by Stepで学ぶ自然言語処理における深層学習の勘所
Step by Stepで学ぶ自然言語処理における深層学習の勘所Step by Stepで学ぶ自然言語処理における深層学習の勘所
Step by Stepで学ぶ自然言語処理における深層学習の勘所
 
R seminar on igraph
R seminar on igraphR seminar on igraph
R seminar on igraph
 
AlphaGo Zero 解説
AlphaGo Zero 解説AlphaGo Zero 解説
AlphaGo Zero 解説
 
Learning to Ask Good Questions: Ranking Clarification Questions using Neura...
Learning to Ask Good Questions:  Ranking Clarification Questions  using Neura...Learning to Ask Good Questions:  Ranking Clarification Questions  using Neura...
Learning to Ask Good Questions: Ranking Clarification Questions using Neura...
 
Introduction to Recommender Systems 2012.1.30 Zansa #3
Introduction to Recommender Systems 2012.1.30 Zansa #3Introduction to Recommender Systems 2012.1.30 Zansa #3
Introduction to Recommender Systems 2012.1.30 Zansa #3
 
ChainerでDeep Learningを試すために必要なこと
ChainerでDeep Learningを試すために必要なことChainerでDeep Learningを試すために必要なこと
ChainerでDeep Learningを試すために必要なこと
 
深層学習を用いたコンピュータビジョン技術とスマートショップの実現
深層学習を用いたコンピュータビジョン技術とスマートショップの実現深層学習を用いたコンピュータビジョン技術とスマートショップの実現
深層学習を用いたコンピュータビジョン技術とスマートショップの実現
 
Jubatus Casual Talks #2: 大量映像・画像のための異常値検知とクラス分類
Jubatus Casual Talks #2: 大量映像・画像のための異常値検知とクラス分類Jubatus Casual Talks #2: 大量映像・画像のための異常値検知とクラス分類
Jubatus Casual Talks #2: 大量映像・画像のための異常値検知とクラス分類
 
ChainerでDeep Learningを試す為に必要なこと
ChainerでDeep Learningを試す為に必要なことChainerでDeep Learningを試す為に必要なこと
ChainerでDeep Learningを試す為に必要なこと
 

Similar to The Anatomy of Large-Scale Social Search Engine

ソーシャルゲームにレコメンドエンジンを導入した話
ソーシャルゲームにレコメンドエンジンを導入した話ソーシャルゲームにレコメンドエンジンを導入した話
ソーシャルゲームにレコメンドエンジンを導入した話Tokoroten Nakayama
 
Information retrieval model
Information retrieval modelInformation retrieval model
Information retrieval modelYuku Takahashi
 
マイニング探検会#09 情報レコメンデーションとは
マイニング探検会#09 情報レコメンデーションとはマイニング探検会#09 情報レコメンデーションとは
マイニング探検会#09 情報レコメンデーションとはYoji Kiyota
 
情報検索における質問者の プライバシー保護 :Private Information Retrieval
情報検索における質問者のプライバシー保護 :Private Information Retrieval情報検索における質問者のプライバシー保護 :Private Information Retrieval
情報検索における質問者の プライバシー保護 :Private Information RetrievalHiroshi Nakagawa
 
information discovery based on social bookmarks
information discovery based on social bookmarksinformation discovery based on social bookmarks
information discovery based on social bookmarksmomota
 
協調フィルタリング with Mahout
協調フィルタリング with Mahout協調フィルタリング with Mahout
協調フィルタリング with MahoutKatsuhiro Takata
 
楽天におけるビッグデータとその活用について
楽天におけるビッグデータとその活用について楽天におけるビッグデータとその活用について
楽天におけるビッグデータとその活用についてRakuten Group, Inc.
 
コンピューターの整列処理におけるデータ操作の時間的共起分析
コンピューターの整列処理におけるデータ操作の時間的共起分析コンピューターの整列処理におけるデータ操作の時間的共起分析
コンピューターの整列処理におけるデータ操作の時間的共起分析yamahige
 
ライフエンジンを支える検索エンジンの作り方
ライフエンジンを支える検索エンジンの作り方ライフエンジンを支える検索エンジンの作り方
ライフエンジンを支える検索エンジンの作り方Chiaki Hatanaka
 
Shared Questionnaire System Development Project
Shared Questionnaire System Development ProjectShared Questionnaire System Development Project
Shared Questionnaire System Development Projecthiroya
 
20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピ...
20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピ...20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピ...
20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピ...kulibrarians
 
Cloud principles and paradigms kimtea-2010-04-24
Cloud principles and paradigms kimtea-2010-04-24Cloud principles and paradigms kimtea-2010-04-24
Cloud principles and paradigms kimtea-2010-04-24Kazuki Aranami
 
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎Insight Technology, Inc.
 
2008 電子情報通信学会論文誌-ユースケースポイント計測におけるアクタとユースケースの自動分類の試みと支援ツールの試作
2008 電子情報通信学会論文誌-ユースケースポイント計測におけるアクタとユースケースの自動分類の試みと支援ツールの試作2008 電子情報通信学会論文誌-ユースケースポイント計測におけるアクタとユースケースの自動分類の試みと支援ツールの試作
2008 電子情報通信学会論文誌-ユースケースポイント計測におけるアクタとユースケースの自動分類の試みと支援ツールの試作n-yuki
 
Elasticsearchと機械学習を実際に連携させる
Elasticsearchと機械学習を実際に連携させるElasticsearchと機械学習を実際に連携させる
Elasticsearchと機械学習を実際に連携させるnobu_k
 
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoPrestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoTreasure Data, Inc.
 
性能測定道 事始め編
性能測定道 事始め編性能測定道 事始め編
性能測定道 事始め編Yuto Hayamizu
 

Similar to The Anatomy of Large-Scale Social Search Engine (20)

ソーシャルゲームにレコメンドエンジンを導入した話
ソーシャルゲームにレコメンドエンジンを導入した話ソーシャルゲームにレコメンドエンジンを導入した話
ソーシャルゲームにレコメンドエンジンを導入した話
 
Information retrieval model
Information retrieval modelInformation retrieval model
Information retrieval model
 
マイニング探検会#09 情報レコメンデーションとは
マイニング探検会#09 情報レコメンデーションとはマイニング探検会#09 情報レコメンデーションとは
マイニング探検会#09 情報レコメンデーションとは
 
情報検索における質問者の プライバシー保護 :Private Information Retrieval
情報検索における質問者のプライバシー保護 :Private Information Retrieval情報検索における質問者のプライバシー保護 :Private Information Retrieval
情報検索における質問者の プライバシー保護 :Private Information Retrieval
 
information discovery based on social bookmarks
information discovery based on social bookmarksinformation discovery based on social bookmarks
information discovery based on social bookmarks
 
Katayama m
Katayama mKatayama m
Katayama m
 
NLP2012
NLP2012NLP2012
NLP2012
 
協調フィルタリング with Mahout
協調フィルタリング with Mahout協調フィルタリング with Mahout
協調フィルタリング with Mahout
 
ipsjifat201909
ipsjifat201909ipsjifat201909
ipsjifat201909
 
楽天におけるビッグデータとその活用について
楽天におけるビッグデータとその活用について楽天におけるビッグデータとその活用について
楽天におけるビッグデータとその活用について
 
コンピューターの整列処理におけるデータ操作の時間的共起分析
コンピューターの整列処理におけるデータ操作の時間的共起分析コンピューターの整列処理におけるデータ操作の時間的共起分析
コンピューターの整列処理におけるデータ操作の時間的共起分析
 
ライフエンジンを支える検索エンジンの作り方
ライフエンジンを支える検索エンジンの作り方ライフエンジンを支える検索エンジンの作り方
ライフエンジンを支える検索エンジンの作り方
 
Shared Questionnaire System Development Project
Shared Questionnaire System Development ProjectShared Questionnaire System Development Project
Shared Questionnaire System Development Project
 
20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピ...
20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピ...20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピ...
20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピ...
 
Cloud principles and paradigms kimtea-2010-04-24
Cloud principles and paradigms kimtea-2010-04-24Cloud principles and paradigms kimtea-2010-04-24
Cloud principles and paradigms kimtea-2010-04-24
 
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
 
2008 電子情報通信学会論文誌-ユースケースポイント計測におけるアクタとユースケースの自動分類の試みと支援ツールの試作
2008 電子情報通信学会論文誌-ユースケースポイント計測におけるアクタとユースケースの自動分類の試みと支援ツールの試作2008 電子情報通信学会論文誌-ユースケースポイント計測におけるアクタとユースケースの自動分類の試みと支援ツールの試作
2008 電子情報通信学会論文誌-ユースケースポイント計測におけるアクタとユースケースの自動分類の試みと支援ツールの試作
 
Elasticsearchと機械学習を実際に連携させる
Elasticsearchと機械学習を実際に連携させるElasticsearchと機械学習を実際に連携させる
Elasticsearchと機械学習を実際に連携させる
 
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoPrestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
 
性能測定道 事始め編
性能測定道 事始め編性能測定道 事始め編
性能測定道 事始め編
 

More from sleepy_yoshi

KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on TwitterKDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twittersleepy_yoshi
 
KDD2013読み会: Direct Optimization of Ranking Measures
KDD2013読み会: Direct Optimization of Ranking MeasuresKDD2013読み会: Direct Optimization of Ranking Measures
KDD2013読み会: Direct Optimization of Ranking Measuressleepy_yoshi
 
PRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじPRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじsleepy_yoshi
 
PRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじPRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじsleepy_yoshi
 
PRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじPRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじsleepy_yoshi
 
PRML復々習レーン#12 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじPRML復々習レーン#12 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじsleepy_yoshi
 
ICML2013読み会: Distributed training of Large-scale Logistic models
ICML2013読み会: Distributed training of Large-scale Logistic modelsICML2013読み会: Distributed training of Large-scale Logistic models
ICML2013読み会: Distributed training of Large-scale Logistic modelssleepy_yoshi
 
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and RecommendationSEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and Recommendationsleepy_yoshi
 
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-sleepy_yoshi
 
PRML復々習レーン#11 前回までのあらすじ
PRML復々習レーン#11 前回までのあらすじPRML復々習レーン#11 前回までのあらすじ
PRML復々習レーン#11 前回までのあらすじsleepy_yoshi
 
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するSMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するsleepy_yoshi
 
PRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 前回までのあらすじPRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 前回までのあらすじsleepy_yoshi
 
PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5sleepy_yoshi
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1sleepy_yoshi
 
PRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじPRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじsleepy_yoshi
 
PRML復々習レーン#7 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじPRML復々習レーン#7 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじsleepy_yoshi
 
SIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to RankSIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to Ranksleepy_yoshi
 
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5sleepy_yoshi
 
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...sleepy_yoshi
 
PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5sleepy_yoshi
 

More from sleepy_yoshi (20)

KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on TwitterKDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
 
KDD2013読み会: Direct Optimization of Ranking Measures
KDD2013読み会: Direct Optimization of Ranking MeasuresKDD2013読み会: Direct Optimization of Ranking Measures
KDD2013読み会: Direct Optimization of Ranking Measures
 
PRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじPRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじ
 
PRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじPRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじ
 
PRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじPRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじ
 
PRML復々習レーン#12 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじPRML復々習レーン#12 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじ
 
ICML2013読み会: Distributed training of Large-scale Logistic models
ICML2013読み会: Distributed training of Large-scale Logistic modelsICML2013読み会: Distributed training of Large-scale Logistic models
ICML2013読み会: Distributed training of Large-scale Logistic models
 
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and RecommendationSEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
 
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
 
PRML復々習レーン#11 前回までのあらすじ
PRML復々習レーン#11 前回までのあらすじPRML復々習レーン#11 前回までのあらすじ
PRML復々習レーン#11 前回までのあらすじ
 
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するSMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装する
 
PRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 前回までのあらすじPRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 前回までのあらすじ
 
PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1
 
PRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじPRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじ
 
PRML復々習レーン#7 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじPRML復々習レーン#7 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじ
 
SIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to RankSIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to Rank
 
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
 
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
 
PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5
 

Recently uploaded

【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 

Recently uploaded (8)

【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 

The Anatomy of Large-Scale Social Search Engine

  • 1. The Anatomy of Large-Scale Social Search Engine 2010-02-16 SUHARA YOSHIHIKO id:sleepy_yoshi
  • 2. Paper • Damon Horowitz and Sepandar D. Kamvar • The Anatomy of a Large-Scale Social Search Engine • WWW2010 (to appear) 1
  • 4. 図書館パラダイムと村パラダイム • 図書館パラダイム – 勵の匴 エンジン – 図書館では,膨大な図書の中からキーワードによっ て求める情報を含む文書を探す • 村パラダイム – Aardvark – 村では,知り合いに自然言語で尋ねる – の い人の言っていることは勼頼できる 3
  • 5. 図書館と村の使い分け • 村パラダイムに した “Do you have any good babysitter recommendations in Palo Alto for my 6-year-old twins? I’m looking for somedbody that won’t let them watch TV.” – 図書館で調べるよりも友だちに聞いた方が い答えが返ってく るはず – 図書館パラダイムと村パラダイムはうまい具合に補完し合う 村パラダイムを実現するシステムは 図書館の匴 システムとは大きく なる アーキテクチャとアルゴリズムが必要 4
  • 8. ソーシャルサーチエンジンAardvark ソーシャルサーチエンジン ≒ 人 を るエンジン • ユーザ (質問者) は,質問を自然言語で – ブラウザor普段使いのIMから • システムは, された質問を適 な へ提示 – クエリへの回答可能性 – 質問者とのつながりの近さ • 質問を提示された回答候補者ユーザは (1) 回答する (2) 回答者として 卲な友人を推薦する (3) 回答をパスする • 質問者へ回答を提示 7
  • 9. 参考1: Googleによる買収のニュース 卜 の情報$3000万+ ⇒ $5000万で合意! 8
  • 10. 参考2: aardvarkの意味 • aardvark – 1.〈英俗〉きつい仕事,ハードワーク – 2. アードバーク • 米空軍の戦闘機F-111の愛称 – 3.《動物》ツチブタ F-111戦闘機 ツチブタ 9
  • 12. Aardvarkの構成要素 • Crawler and Indexer – 情報を含むリソース (人) を探し出し,格納 • Query Analyzer – ユーザの情報要求を解釈 • Ranking Function – 情報を提 するために最 の人を • User Interface – 使いやすく対話的なインタフェースで情報を提示 存のコーパスベースの匴 エンジンでも同様の 構成要素を持っているが,実現方法が なる 11
  • 13. Aardvarkのアーキテクチャ ユーザ ユーザ情報など 12
  • 14. Social Crawling • 勵の匴 エンジン – 詳細な情報をインデクスに格納するためには,大規 模なクロールが必要 • Aardvark – 能動的なクロールは勘要 – ユーザが資源 • より多くのアクティブユーザ ⇒ より広い質問に対応可能,より多くの潜在的な回答者 • より密なソーシャルグラフ ⇒ 卵的な知 ユーザに い経験を提 することを通じて, アクティブユーザでいてもらう&友人を招待してもらう 13
  • 15. 匴 モデル • 下記の回答スコアによって順序付けられたユー ザuiのリストを返す s (ui , u j , q ) = p(ui | u j ) p(ui | q) – p(ui|q): relevance score (クエリ依存) e.g., TF-IDF – p(ui|uj): quality score (クエリ非依存) e.g., PageRank • 勵の匴 エンジンと なる勷 – p(ui|uj): 「権威」ではなく「関係」 – p(ui|q): 「関連性」ではなく「回答可能性」 14
  • 16. 回答スコアの計算方法 • トピックモデル (PLSI) を匏用 – トピック の厬件付き確厾に分解 トピック数 数収 s (ui , u j , q ) = p(ui | u j ) p(ui | q) = p(ui | u j )∑ p (ui | t ) p (t | q) t∈T • 匏勷: 計算 厾がよい – ユーザ登録時など,オフラインでp(ui|uj),p(uj|t)を計算可能 – p(t|q) のみクエリ叀 時に計算する必要 p(t|q): 質問に対するトピックの割合 p(uj|t): トピックにおけるユーザの回答可能性 p(ui|uj): ユーザ同士のつながり 15 ⇒ 計算方法を順番に解説
  • 18. Indexing People • ユーザujについて以下の二つの情報について, 解析を通じて得られた情報をインデクスに格納 (1) Topics – トピックtに対するユーザの回答可能性 – psmoothed(t|uj) ⇒ p(ui|t) (2) Connections – 他ユーザとのつながり – p(ui|uj) インデクスはユーザが対話するた に される 17
  • 19. (1) Topics • p(t|ui) 計算に以下の情報を匏用 – 登録の際に設定したもらったトピック – 友人によるアノテーション – オンラインプロフィールからの抽出 (e.g., Facebook etc.) • 単純なTopic Parsing algorithm – ホームページやブログから自動的に抽出 • SVM + Named Entity抽出 + 変形TF-IDF – IMメッセージなどから自動的に抽出 (e.g., Twitter etc.) これらの様々な情報が全てトピックtとなる (よってp(t|q)もこれらに対応して計算) 18
  • 20. トピック強化とスムージング • トピック強化 s (t | ui ) = p(t | ui ) + γ ∑u∈U p (t | u ) 友人のトピックを加える γは小さな値 • スムージング – (1) トピックに関する協調フィルタリング – (2) 意味的な類 を匏用 (*1) ⇒ プロフィール等に明記されていないトピックに対応するため 19 (*1) Wikipediaなどのコーパスを匏用
  • 21. p(ui|t)の計算 • ベイズの定 を匏用してp(t|ui) → p(ui|t) 一様分布 p (t | ui ) p (ui ) p(ui | t ) = p(t ) トピックの • 算出したp(ui|t)を転置インデクスに格納 topic userID;prob sport 1;0.2 ... tech 1;0.3 ... … 20
  • 22. (2) Connections • 以下の特徴に対して重み付きコサイン類 を計算し, ソーシャルグラフを構築 – Social connection (common friends and affiliations) – Demographic similarity – Profile similarity (e.g., common favorite movies) – Vacabulary match (e.g., IM shortcuts) – Chattiness match (frequency of follow-up messages) – Verbosity match (the average length of messages) – Politeness match (e.g., use of “Thanks!”) – Speed match (responsiveness to other users) 21
  • 23. ソーシャルグラフの構築 • 前述の特徴を元に構築されたソーシャルグラフ を転置インデクスに格納 0.2 0.3 0.1 uid:9 uid:7 uid:10 0.5 uid:1 uid:3 ∑ ui ∈U p(ui | u j ) = 1 転置インデクス userID uid;score 1 3;0.5 7;0.2 9;0.3 10;0.1 22
  • 24. Analyzing Questions ※p(t|q)の計算方法 23
  • 25. 質問の解析: 質問の分類 • (1) 以下の判別器を用いて質問を分類 – NonQuestionClassifier • が質問かどうかを判別 – InappropriateQuestionClassifier • な勖現, 者スパムなど勘 卲な質問を判別 除去 – TrivialQuestionClassifier • 簡単に答えられる質問を判別 • e.g., What time is it now? – LocationSensitiveClassifier • 特別な場勰に関する知 を必要とするかを判別 • e.g., What’s a great sushi restaurant in Austin, TX? ⇒ ランキングアルゴリズムで匏用 24
  • 26. 質問の解析: p(t|q)の計算 • (2) 以下の手法で得られた分布の線形和によっ てp(t|q)を算出 – KeywordMatchTopicMapper • ユーザプロフィールに含まれるトピックに一 する文 – TaxonomyTopicMapper • SVMを用いて約3000トピックに分類 – SalientTermTopicMapper • 名 卲り出しとTF-IDFベースの重要 付与により,質問か ら重要語を抽出 – UserTagTopicMapper • 質問者によって付与されたタグに割り当てる 25
  • 27. The Aardvark Ranking Algorithm 26
  • 28. ランキングアルゴリズム : 回答候補者のスコア順に並んだリスト 全てのユーザについて以下の計算を う 1. Topic Expertise – p(ui|q) – location-sensitiveな質問の場合,プロフィールを考慮 2. Connectedness – p(ui|uj) 3. Availability – 現在のIMステータス (e.g., online) や過去の回答 を参 4. ルールベースのフィルタ ⇒ 匴 エンジンの文書分 方厚と同じように分 可能 27
  • 31. 回答依頼の 回答依頼の 厩を提示 30
  • 34. 1 33
  • 35. 2 34
  • 36. 3 35
  • 39. 質問のカテゴリ • 勵の匴 エンジンの分布と なる – 比較すべきはQ&Aサイトのような気が... 38
  • 40. 質問に対する回答の早さ • 87.7%の質問が少なくとも1つの回答を受け取る • 57.2%の質問が10分以内に最初の回答を受け取る – Yahoo! Answers: ほとんどの質問が10分以内には回答されない – Facebook: 15.7%の質問が15分以内に回答される • 平均2.08件の回答 • 回答までの時間の中央値: 6min.37sec. 39
  • 42. 存の匴 エンジンとの比較 • 被験者実験 (200件の評価) – Aardvarkに された質問をGoogleにクエリとして – 足する匴 医卵を取得するまでの経過時間と医卵に対する 足 (5段階評価) を評価 – 10分以上かかる場合には諦めてもらう 結果 • 経過時間 – Aardvark: 5min. (of passive waiting) – Google: 2min. (of active searching) • 匴 の成 厾と評価勷数 – Aardvark: 71.5%, 3.93±1.23 – Google: 70.5%, 3.07±1.46 41
  • 43. 素朴な感想 • 個々はオーソドックスな技術の組み合わせ – ひとつの動くシステムに仕上げている素晴らしさ • 確かに「村」パラダイム – 知り合いのお願いは断れりづらい – 質問ばっかしてたら村八分? • 質問が推薦される 厩を提示するのは い – 厩がなんで れ, 厩を えられると断りづらい • 質問をスルーする の多さが い – 回答候補者を推薦 – 忙しい (busy) 卙回以 の – 答えたくない (avoid) 質問提示に反映 cf. 42
  • 45. 補足: Q&Aサイトとの違い • Q&Aサイト – 掲示板ベース – 勘特定多数のユーザに回答を依頼 – ユーザ (質問者/回答者) はハンドルネーム • Aardvark – チャットベース – 回答候補者へ直接回答を依頼 – ユーザは実名or知人からは個人を特定可能なID 1対1コミュニケーションの方が 勘特定多数の場合に比べて,ユーザが勼頼のおける, けになる を取ることが知られている ⇒ Aardvarkのユーザインタフェース (UI) の に い 44
  • 46. 補足: 質問応答匴 との違い • 質問応答匴 – されたクエリに対して適合性の高い文書を返す ⇒ 情報が文書という形で保持されている必要性 • ソーシャルサーチエンジン (Aardvark) – されたクエリに対して適合性の高い情報を提供 できるような人を返す 45