SlideShare a Scribd company logo
1 of 12
Download to read offline
1 Search Engines and
Information Retrieval

  SUHARA YOSHIHIKO
   (id:sleepy_yoshi)
本書の紹介
• Search Engines: Information Retrieval in
  Practice
  – W. B. Croft, D. Metzler, and T. Strohman
• IR分野の大御所らによる教科書




         U.S. edition    international edition   2
本書の特長
• 著者はIRの大御所なので安心!
• 最新のトピックを網羅
 – 10 Social Search, 11 Beyond Bag of Wordsあたり
• 検索エンジンの実装を考慮した内容
 – 具体的な実装テクニックが書いてあるわけではない
• 各章末に文献案内と演習問題がある
• 読みやすい!!
 – IIR並に読みやすい英語



                                             3
本書で扱う検索エンジン
• Galago (http://www.galagosearch.org/)
  – Indri (下記) のJava実装
  – Indriにできることはできる(はず)



• 参考:Indri (http://www.lemurproject.org/indri/)
  – IR研究の業界スタンダード(らしい)
  – C++実装.Java, PHP, C++ API
  – (特に研究に)嬉しい機能
     • 言語モデル検索が容易に可能
     • TRECフォーマットに対応



                                                  4
情報検索とは?
• G. Salton (1968)


   Information retrieval is a field concerned with
   the structure, analysis, organization, storage,
      searching, and retrieval of information.




           基本的には40年変わっていない

                                                     5
情報検索の例
• コンテンツ
 – テキスト,画像,動画,文書画像,音声,音楽

• アプリケーション
 –   ウェブ検索
 –   バーティカル検索
 –   企業向け検索
 –   デスクトップ検索
 –   Peer-to-peer検索

• 課題
 –   アドホック検索
 –   フィルタリング
 –   分類
 –   質問応答 (QA)
                           6
情報検索の主要な課題
• 適合性 (relevance)
  –   ユーザが探している情報を含む文書を検索できるか
  –   vocabulary mismatch problem
  –   topical relevance vs. user relevance
  –   検索モデルとランキングアルゴリズム

• 評価 (evaluation)
  – どのように適合性を評価するか
  – 適合率 (precision) と再現率 (recall)
  – クリックスルーデータの活用

• 情報要求 (information need)
  – クエリに隠れたユーザの情報要求に答えられるか
       • クエリサジェスション,クエリ拡張,適合性フィードバック


                                             7
検索エンジン (search engine)
• 情報検索技術のアプリケーション
 – 大規模なテキスト群に対する検索を実現
 – 元来は「テキスト検索」を表現
 – ‘80年頃から「情報検索システム」の意味で使われる




                               8
検索エンジンの種類
• ウェブ検索エンジン
  – 例)Google, Yahoo!, MSN, 百度, goo, ...
  – ウェブページをクロールする必要がある

• 企業向け検索エンジン
  – 例)Autonomy, FAST, Google, ...
  – 企業内の多様な情報源を扱う
  – データマイニングのように知識発見的な機能が求められる

• デスクトップ検索
  – 例)Windows, Spotlight (MacOS), Google Desktop, ...
  – 文書やE-mailなど多様なコンテンツを扱う
  – 使いやすいインタフェースが求められる

• オープンソース検索エンジン
  – 例)Lucene, Indri, Galago, ...
  – Luceneは商用に使われることもある
  – 比較的単純な機能が実装されている


                                                        9
検索エンジンの課題
   情報検索                   検索エンジン
• 適合性                  • パフォーマンス
  – 効果的なランキング            – 効果的な検索とインデクス作成
• 評価                   • 新規データの追加
  – 評価と測定                – 網羅性と新鮮さ
• 情報要求                 • スケーラビリティ
  – User interaction     – 増加するデータとユーザ
                       • 適応性
                         – アプリケーションへの適応
                       • 特有の問題
                         – スパムなど




                                          10
サーチエンジニアのために
• サーチエンジニア (search engineer)
  – 検索エンジンの開発,最適化,保守,運用など
  – 様々なバックグラウンドの人がいる
    • 例)計算機科学,情報科学,数学,社会科学,計算言語学など
  – データベース分野出身のエンジニアですら検索エンジ
    ンのことをあまり知らないことが多い


• 本書はサーチエンジニアのための本
  – コンピュータ産業におけるサーチエンジニアの重要性
  – 検索エンジンを理解するための本

                                11
文献案内
• 古典的文献(’70年代のIR黎明期)
  – Salton (1968; 1983)
  – van Rijsbergen (1979) (ウェブで公開)
       • http://www.dcs.gla.ac.uk/Keith/Preface.html
• 最近の文献
  – Baeza-Yates (1999) Modern Information Retrieval
  – Manning et al. (2008) Introduction to Information Retrieval

• 論文
  – IR系
       • SIGIR, ECIR, CIKM, WSDM, WWW, TREC
  – データベース系
       • VLDB, SIGMOD
  – 自然言語処理系
       • ACL, HLT


                                                                  12

More Related Content

What's hot

[Regional Scrum Gathering Tokyo 2021] Scrum with OODA loop
[Regional Scrum Gathering Tokyo 2021] Scrum with OODA loop[Regional Scrum Gathering Tokyo 2021] Scrum with OODA loop
[Regional Scrum Gathering Tokyo 2021] Scrum with OODA loopWoohyeok Kim
 
網路、設計、使用者經驗
網路、設計、使用者經驗網路、設計、使用者經驗
網路、設計、使用者經驗Charles (XXC) Chen
 
RSGT2021 Bilingual cross-cultural discussion 日本人と外国人のディスカッション: How to acceler...
RSGT2021 Bilingual cross-cultural discussion 日本人と外国人のディスカッション: How to acceler...RSGT2021 Bilingual cross-cultural discussion 日本人と外国人のディスカッション: How to acceler...
RSGT2021 Bilingual cross-cultural discussion 日本人と外国人のディスカッション: How to acceler...Rochelle Kopp
 
セキュリティとアジャイル開発のいい関係について考える
セキュリティとアジャイル開発のいい関係について考えるセキュリティとアジャイル開発のいい関係について考える
セキュリティとアジャイル開発のいい関係について考えるMakoto Iguchi
 
秩序从哪里来?
秩序从哪里来?秩序从哪里来?
秩序从哪里来?guest8430ea2
 
アジャイル事例紹介 —夜のおしごと編—
アジャイル事例紹介 —夜のおしごと編—アジャイル事例紹介 —夜のおしごと編—
アジャイル事例紹介 —夜のおしごと編—Fumihiko Kinoshita
 
自作言語でお絵描き
自作言語でお絵描き自作言語でお絵描き
自作言語でお絵描きuchan_nos
 
Apology Of Socrates
Apology Of SocratesApology Of Socrates
Apology Of Socrateshuquanwei
 
テーブルトピックススピーチの枠組み
テーブルトピックススピーチの枠組みテーブルトピックススピーチの枠組み
テーブルトピックススピーチの枠組みfantasistaVppr
 
Old Saudi Pics
Old Saudi PicsOld Saudi Pics
Old Saudi Picsair
 
俄罗斯Gost标准,进出口购买商品目录№RG 3751
俄罗斯Gost标准,进出口购买商品目录№RG 3751俄罗斯Gost标准,进出口购买商品目录№RG 3751
俄罗斯Gost标准,进出口购买商品目录№RG 3751Turkmenistan Laws
 
Kintone 導入サービス キャンペーン_20140903-1
Kintone 導入サービス キャンペーン_20140903-1Kintone 導入サービス キャンペーン_20140903-1
Kintone 導入サービス キャンペーン_20140903-1denet_tech_tokyo
 
Ar To Eng General Sample
Ar To Eng General SampleAr To Eng General Sample
Ar To Eng General Sampleguest719aad
 
挖好屬於自己的井
挖好屬於自己的井挖好屬於自己的井
挖好屬於自己的井Chui-Wen Chiu
 
Fengshan Pri Presentation Slides Cl
Fengshan Pri Presentation Slides ClFengshan Pri Presentation Slides Cl
Fengshan Pri Presentation Slides Cltllmsg
 
CSS Nite In Ginza, Vol.36
CSS Nite In Ginza, Vol.36CSS Nite In Ginza, Vol.36
CSS Nite In Ginza, Vol.36Nobuya Sato
 

What's hot (20)

[Regional Scrum Gathering Tokyo 2021] Scrum with OODA loop
[Regional Scrum Gathering Tokyo 2021] Scrum with OODA loop[Regional Scrum Gathering Tokyo 2021] Scrum with OODA loop
[Regional Scrum Gathering Tokyo 2021] Scrum with OODA loop
 
XS Japan 2008 Citrix Japanese
XS Japan 2008 Citrix JapaneseXS Japan 2008 Citrix Japanese
XS Japan 2008 Citrix Japanese
 
網路、設計、使用者經驗
網路、設計、使用者經驗網路、設計、使用者經驗
網路、設計、使用者經驗
 
RSGT2021 Bilingual cross-cultural discussion 日本人と外国人のディスカッション: How to acceler...
RSGT2021 Bilingual cross-cultural discussion 日本人と外国人のディスカッション: How to acceler...RSGT2021 Bilingual cross-cultural discussion 日本人と外国人のディスカッション: How to acceler...
RSGT2021 Bilingual cross-cultural discussion 日本人と外国人のディスカッション: How to acceler...
 
セキュリティとアジャイル開発のいい関係について考える
セキュリティとアジャイル開発のいい関係について考えるセキュリティとアジャイル開発のいい関係について考える
セキュリティとアジャイル開発のいい関係について考える
 
秩序从哪里来?
秩序从哪里来?秩序从哪里来?
秩序从哪里来?
 
アジャイル事例紹介 —夜のおしごと編—
アジャイル事例紹介 —夜のおしごと編—アジャイル事例紹介 —夜のおしごと編—
アジャイル事例紹介 —夜のおしごと編—
 
ICT4KMT-20081225
ICT4KMT-20081225ICT4KMT-20081225
ICT4KMT-20081225
 
自作言語でお絵描き
自作言語でお絵描き自作言語でお絵描き
自作言語でお絵描き
 
Apology Of Socrates
Apology Of SocratesApology Of Socrates
Apology Of Socrates
 
テーブルトピックススピーチの枠組み
テーブルトピックススピーチの枠組みテーブルトピックススピーチの枠組み
テーブルトピックススピーチの枠組み
 
Old Saudi Pics
Old Saudi PicsOld Saudi Pics
Old Saudi Pics
 
cool pics
cool picscool pics
cool pics
 
俄罗斯Gost标准,进出口购买商品目录№RG 3751
俄罗斯Gost标准,进出口购买商品目录№RG 3751俄罗斯Gost标准,进出口购买商品目录№RG 3751
俄罗斯Gost标准,进出口购买商品目录№RG 3751
 
Kintone 導入サービス キャンペーン_20140903-1
Kintone 導入サービス キャンペーン_20140903-1Kintone 導入サービス キャンペーン_20140903-1
Kintone 導入サービス キャンペーン_20140903-1
 
Ar To Eng General Sample
Ar To Eng General SampleAr To Eng General Sample
Ar To Eng General Sample
 
Adabiate Esfahani
Adabiate EsfahaniAdabiate Esfahani
Adabiate Esfahani
 
挖好屬於自己的井
挖好屬於自己的井挖好屬於自己的井
挖好屬於自己的井
 
Fengshan Pri Presentation Slides Cl
Fengshan Pri Presentation Slides ClFengshan Pri Presentation Slides Cl
Fengshan Pri Presentation Slides Cl
 
CSS Nite In Ginza, Vol.36
CSS Nite In Ginza, Vol.36CSS Nite In Ginza, Vol.36
CSS Nite In Ginza, Vol.36
 

Viewers also liked

Chap12 4 appendix_suhara
Chap12 4 appendix_suharaChap12 4 appendix_suhara
Chap12 4 appendix_suharasleepy_yoshi
 
8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論sleepy_yoshi
 
Chap12 4 appendix_suhara
Chap12 4 appendix_suharaChap12 4 appendix_suhara
Chap12 4 appendix_suharasleepy_yoshi
 
SIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to RankSIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to Ranksleepy_yoshi
 
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-sleepy_yoshi
 
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on TwitterKDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twittersleepy_yoshi
 
Overview of Modern Graph Analysis Tools
Overview of Modern Graph Analysis ToolsOverview of Modern Graph Analysis Tools
Overview of Modern Graph Analysis ToolsKeiichiro Ono
 
パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」
パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」
パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」Koichi Hamada
 
『繋がり』を見る: Cytoscapeと周辺ツールを使ったグラフデータ可視化入門
『繋がり』を見る: Cytoscapeと周辺ツールを使ったグラフデータ可視化入門『繋がり』を見る: Cytoscapeと周辺ツールを使ったグラフデータ可視化入門
『繋がり』を見る: Cytoscapeと周辺ツールを使ったグラフデータ可視化入門Keiichiro Ono
 
機械学習とその理論 (情報オリンピック2015春合宿講義資料)
機械学習とその理論 (情報オリンピック2015春合宿講義資料)機械学習とその理論 (情報オリンピック2015春合宿講義資料)
機械学習とその理論 (情報オリンピック2015春合宿講義資料)irrrrr
 

Viewers also liked (10)

Chap12 4 appendix_suhara
Chap12 4 appendix_suharaChap12 4 appendix_suhara
Chap12 4 appendix_suhara
 
8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論
 
Chap12 4 appendix_suhara
Chap12 4 appendix_suharaChap12 4 appendix_suhara
Chap12 4 appendix_suhara
 
SIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to RankSIGIR2012勉強会 23 Learning to Rank
SIGIR2012勉強会 23 Learning to Rank
 
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
 
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on TwitterKDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
 
Overview of Modern Graph Analysis Tools
Overview of Modern Graph Analysis ToolsOverview of Modern Graph Analysis Tools
Overview of Modern Graph Analysis Tools
 
パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」
パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」
パターン認識と機械学習 (PRML) 第1章-「多項式曲線フィッティング」「確率論」
 
『繋がり』を見る: Cytoscapeと周辺ツールを使ったグラフデータ可視化入門
『繋がり』を見る: Cytoscapeと周辺ツールを使ったグラフデータ可視化入門『繋がり』を見る: Cytoscapeと周辺ツールを使ったグラフデータ可視化入門
『繋がり』を見る: Cytoscapeと周辺ツールを使ったグラフデータ可視化入門
 
機械学習とその理論 (情報オリンピック2015春合宿講義資料)
機械学習とその理論 (情報オリンピック2015春合宿講義資料)機械学習とその理論 (情報オリンピック2015春合宿講義資料)
機械学習とその理論 (情報オリンピック2015春合宿講義資料)
 

Similar to Search Engines Chapter 1 Summary

AI&medical imaging in japan 2018
AI&medical imaging in japan 2018AI&medical imaging in japan 2018
AI&medical imaging in japan 2018yoshihiro todoroki
 
英語ブログのスヽメ - 1000スピーカープロジェクト#5
英語ブログのスヽメ - 1000スピーカープロジェクト#5英語ブログのスヽメ - 1000スピーカープロジェクト#5
英語ブログのスヽメ - 1000スピーカープロジェクト#5Yusuke Kawasaki
 
081210 Idcon 04 Itoh Peopleservice
081210 Idcon 04 Itoh Peopleservice081210 Idcon 04 Itoh Peopleservice
081210 Idcon 04 Itoh PeopleserviceHiroki Itoh
 
20090612 実践Redmine @ Redmine勉強会
20090612 実践Redmine @ Redmine勉強会20090612 実践Redmine @ Redmine勉強会
20090612 実践Redmine @ Redmine勉強会Yusuke Ando
 
20090522 Candycane
20090522 Candycane20090522 Candycane
20090522 CandycaneYusuke Ando
 
Webken 03: Project Design for Optimaizing User Experience
Webken 03: Project Design for Optimaizing User ExperienceWebken 03: Project Design for Optimaizing User Experience
Webken 03: Project Design for Optimaizing User ExperienceNobuya Sato
 
Cloud era -『クラウド時代』マッシュアップ技術による地方からの世界発信
Cloud era -『クラウド時代』マッシュアップ技術による地方からの世界発信Cloud era -『クラウド時代』マッシュアップ技術による地方からの世界発信
Cloud era -『クラウド時代』マッシュアップ技術による地方からの世界発信Yusuke Kawasaki
 
【13-C-4】 「もう業務はとまらない!オフライン機能を使った業務アプリケーションの実例と最新 Curl 情報」
【13-C-4】 「もう業務はとまらない!オフライン機能を使った業務アプリケーションの実例と最新 Curl 情報」【13-C-4】 「もう業務はとまらない!オフライン機能を使った業務アプリケーションの実例と最新 Curl 情報」
【13-C-4】 「もう業務はとまらない!オフライン機能を使った業務アプリケーションの実例と最新 Curl 情報」devsumi2009
 
QM-078-企業導入六標準差之個案探討
QM-078-企業導入六標準差之個案探討QM-078-企業導入六標準差之個案探討
QM-078-企業導入六標準差之個案探討handbook
 
Cop",!@#%$%&*()*()
Cop",!@#%$%&*()*()Cop",!@#%$%&*()*()
Cop",!@#%$%&*()*()hehe123456
 
Republic 3 4
Republic 3 4Republic 3 4
Republic 3 4huquanwei
 
Cloud Computing - クラウドコンピューティング(会津産学懇話会)
Cloud Computing - クラウドコンピューティング(会津産学懇話会)Cloud Computing - クラウドコンピューティング(会津産学懇話会)
Cloud Computing - クラウドコンピューティング(会津産学懇話会)Yusuke Kawasaki
 
maple, part1
maple, part1 maple, part1
maple, part1 ahamidp
 
Where20 2009report
Where20 2009reportWhere20 2009report
Where20 2009reportToru Mori
 

Similar to Search Engines Chapter 1 Summary (20)

Green IT
Green ITGreen IT
Green IT
 
AI&medical imaging in japan 2018
AI&medical imaging in japan 2018AI&medical imaging in japan 2018
AI&medical imaging in japan 2018
 
英語ブログのスヽメ - 1000スピーカープロジェクト#5
英語ブログのスヽメ - 1000スピーカープロジェクト#5英語ブログのスヽメ - 1000スピーカープロジェクト#5
英語ブログのスヽメ - 1000スピーカープロジェクト#5
 
081210 Idcon 04 Itoh Peopleservice
081210 Idcon 04 Itoh Peopleservice081210 Idcon 04 Itoh Peopleservice
081210 Idcon 04 Itoh Peopleservice
 
20090612 実践Redmine @ Redmine勉強会
20090612 実践Redmine @ Redmine勉強会20090612 実践Redmine @ Redmine勉強会
20090612 実践Redmine @ Redmine勉強会
 
sigfpai73-kaji
sigfpai73-kajisigfpai73-kaji
sigfpai73-kaji
 
20090522 Candycane
20090522 Candycane20090522 Candycane
20090522 Candycane
 
Webken 03: Project Design for Optimaizing User Experience
Webken 03: Project Design for Optimaizing User ExperienceWebken 03: Project Design for Optimaizing User Experience
Webken 03: Project Design for Optimaizing User Experience
 
Cloud era -『クラウド時代』マッシュアップ技術による地方からの世界発信
Cloud era -『クラウド時代』マッシュアップ技術による地方からの世界発信Cloud era -『クラウド時代』マッシュアップ技術による地方からの世界発信
Cloud era -『クラウド時代』マッシュアップ技術による地方からの世界発信
 
【13-C-4】 「もう業務はとまらない!オフライン機能を使った業務アプリケーションの実例と最新 Curl 情報」
【13-C-4】 「もう業務はとまらない!オフライン機能を使った業務アプリケーションの実例と最新 Curl 情報」【13-C-4】 「もう業務はとまらない!オフライン機能を使った業務アプリケーションの実例と最新 Curl 情報」
【13-C-4】 「もう業務はとまらない!オフライン機能を使った業務アプリケーションの実例と最新 Curl 情報」
 
QM-078-企業導入六標準差之個案探討
QM-078-企業導入六標準差之個案探討QM-078-企業導入六標準差之個案探討
QM-078-企業導入六標準差之個案探討
 
Cop",!@#%$%&*()*()
Cop",!@#%$%&*()*()Cop",!@#%$%&*()*()
Cop",!@#%$%&*()*()
 
Republic 3 4
Republic 3 4Republic 3 4
Republic 3 4
 
Cloud Computing - クラウドコンピューティング(会津産学懇話会)
Cloud Computing - クラウドコンピューティング(会津産学懇話会)Cloud Computing - クラウドコンピューティング(会津産学懇話会)
Cloud Computing - クラウドコンピューティング(会津産学懇話会)
 
maple, part1
maple, part1 maple, part1
maple, part1
 
Practices of an Agile Team
Practices of an Agile TeamPractices of an Agile Team
Practices of an Agile Team
 
Iir 08 ver.1.0
Iir 08 ver.1.0Iir 08 ver.1.0
Iir 08 ver.1.0
 
PHP超入門@LL温泉
PHP超入門@LL温泉PHP超入門@LL温泉
PHP超入門@LL温泉
 
Hafezipoor
HafezipoorHafezipoor
Hafezipoor
 
Where20 2009report
Where20 2009reportWhere20 2009report
Where20 2009report
 

More from sleepy_yoshi

KDD2013読み会: Direct Optimization of Ranking Measures
KDD2013読み会: Direct Optimization of Ranking MeasuresKDD2013読み会: Direct Optimization of Ranking Measures
KDD2013読み会: Direct Optimization of Ranking Measuressleepy_yoshi
 
PRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじPRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじsleepy_yoshi
 
PRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじPRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじsleepy_yoshi
 
PRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじPRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじsleepy_yoshi
 
PRML復々習レーン#12 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじPRML復々習レーン#12 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじsleepy_yoshi
 
ICML2013読み会: Distributed training of Large-scale Logistic models
ICML2013読み会: Distributed training of Large-scale Logistic modelsICML2013読み会: Distributed training of Large-scale Logistic models
ICML2013読み会: Distributed training of Large-scale Logistic modelssleepy_yoshi
 
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and RecommendationSEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and Recommendationsleepy_yoshi
 
PRML復々習レーン#11 前回までのあらすじ
PRML復々習レーン#11 前回までのあらすじPRML復々習レーン#11 前回までのあらすじ
PRML復々習レーン#11 前回までのあらすじsleepy_yoshi
 
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するSMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するsleepy_yoshi
 
PRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 前回までのあらすじPRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 前回までのあらすじsleepy_yoshi
 
PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5sleepy_yoshi
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1sleepy_yoshi
 
PRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじPRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじsleepy_yoshi
 
PRML復々習レーン#7 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじPRML復々習レーン#7 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじsleepy_yoshi
 
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5sleepy_yoshi
 
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...sleepy_yoshi
 
PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5sleepy_yoshi
 
PRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじPRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじsleepy_yoshi
 
SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)sleepy_yoshi
 
PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7sleepy_yoshi
 

More from sleepy_yoshi (20)

KDD2013読み会: Direct Optimization of Ranking Measures
KDD2013読み会: Direct Optimization of Ranking MeasuresKDD2013読み会: Direct Optimization of Ranking Measures
KDD2013読み会: Direct Optimization of Ranking Measures
 
PRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじPRML復々習レーン#15 前回までのあらすじ
PRML復々習レーン#15 前回までのあらすじ
 
PRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじPRML復々習レーン#14 前回までのあらすじ
PRML復々習レーン#14 前回までのあらすじ
 
PRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじPRML復々習レーン#13 前回までのあらすじ
PRML復々習レーン#13 前回までのあらすじ
 
PRML復々習レーン#12 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじPRML復々習レーン#12 前回までのあらすじ
PRML復々習レーン#12 前回までのあらすじ
 
ICML2013読み会: Distributed training of Large-scale Logistic models
ICML2013読み会: Distributed training of Large-scale Logistic modelsICML2013読み会: Distributed training of Large-scale Logistic models
ICML2013読み会: Distributed training of Large-scale Logistic models
 
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and RecommendationSEXI2013読み会: Adult Query Classification for Web Search and Recommendation
SEXI2013読み会: Adult Query Classification for Web Search and Recommendation
 
PRML復々習レーン#11 前回までのあらすじ
PRML復々習レーン#11 前回までのあらすじPRML復々習レーン#11 前回までのあらすじ
PRML復々習レーン#11 前回までのあらすじ
 
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するSMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装する
 
PRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 前回までのあらすじPRML復々習レーン#10 前回までのあらすじ
PRML復々習レーン#10 前回までのあらすじ
 
PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1
 
PRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじPRML復々習レーン#9 前回までのあらすじ
PRML復々習レーン#9 前回までのあらすじ
 
PRML復々習レーン#7 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじPRML復々習レーン#7 前回までのあらすじ
PRML復々習レーン#7 前回までのあらすじ
 
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
DSIRNLP#3 LT: 辞書挟み込み型転置インデクスFIg4.5
 
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
ICML2012読み会 Scaling Up Coordinate Descent Algorithms for Large L1 regularizat...
 
PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5PRML復々習レーン#3 3.1.3-3.1.5
PRML復々習レーン#3 3.1.3-3.1.5
 
PRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじPRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじ
 
SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)SVM実践ガイド (A Practical Guide to Support Vector Classification)
SVM実践ガイド (A Practical Guide to Support Vector Classification)
 
PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7
 

Recently uploaded

Presentation on how to chat with PDF using ChatGPT code interpreter
Presentation on how to chat with PDF using ChatGPT code interpreterPresentation on how to chat with PDF using ChatGPT code interpreter
Presentation on how to chat with PDF using ChatGPT code interpreternaman860154
 
Handwritten Text Recognition for manuscripts and early printed texts
Handwritten Text Recognition for manuscripts and early printed textsHandwritten Text Recognition for manuscripts and early printed texts
Handwritten Text Recognition for manuscripts and early printed textsMaria Levchenko
 
08448380779 Call Girls In Greater Kailash - I Women Seeking Men
08448380779 Call Girls In Greater Kailash - I Women Seeking Men08448380779 Call Girls In Greater Kailash - I Women Seeking Men
08448380779 Call Girls In Greater Kailash - I Women Seeking MenDelhi Call girls
 
Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...
Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...
Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...Igalia
 
Advantages of Hiring UIUX Design Service Providers for Your Business
Advantages of Hiring UIUX Design Service Providers for Your BusinessAdvantages of Hiring UIUX Design Service Providers for Your Business
Advantages of Hiring UIUX Design Service Providers for Your BusinessPixlogix Infotech
 
Boost PC performance: How more available memory can improve productivity
Boost PC performance: How more available memory can improve productivityBoost PC performance: How more available memory can improve productivity
Boost PC performance: How more available memory can improve productivityPrincipled Technologies
 
Strategies for Unlocking Knowledge Management in Microsoft 365 in the Copilot...
Strategies for Unlocking Knowledge Management in Microsoft 365 in the Copilot...Strategies for Unlocking Knowledge Management in Microsoft 365 in the Copilot...
Strategies for Unlocking Knowledge Management in Microsoft 365 in the Copilot...Drew Madelung
 
08448380779 Call Girls In Friends Colony Women Seeking Men
08448380779 Call Girls In Friends Colony Women Seeking Men08448380779 Call Girls In Friends Colony Women Seeking Men
08448380779 Call Girls In Friends Colony Women Seeking MenDelhi Call girls
 
08448380779 Call Girls In Diplomatic Enclave Women Seeking Men
08448380779 Call Girls In Diplomatic Enclave Women Seeking Men08448380779 Call Girls In Diplomatic Enclave Women Seeking Men
08448380779 Call Girls In Diplomatic Enclave Women Seeking MenDelhi Call girls
 
How to convert PDF to text with Nanonets
How to convert PDF to text with NanonetsHow to convert PDF to text with Nanonets
How to convert PDF to text with Nanonetsnaman860154
 
Axa Assurance Maroc - Insurer Innovation Award 2024
Axa Assurance Maroc - Insurer Innovation Award 2024Axa Assurance Maroc - Insurer Innovation Award 2024
Axa Assurance Maroc - Insurer Innovation Award 2024The Digital Insurer
 
Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...
Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...
Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...apidays
 
Exploring the Future Potential of AI-Enabled Smartphone Processors
Exploring the Future Potential of AI-Enabled Smartphone ProcessorsExploring the Future Potential of AI-Enabled Smartphone Processors
Exploring the Future Potential of AI-Enabled Smartphone Processorsdebabhi2
 
Driving Behavioral Change for Information Management through Data-Driven Gree...
Driving Behavioral Change for Information Management through Data-Driven Gree...Driving Behavioral Change for Information Management through Data-Driven Gree...
Driving Behavioral Change for Information Management through Data-Driven Gree...Enterprise Knowledge
 
Understanding Discord NSFW Servers A Guide for Responsible Users.pdf
Understanding Discord NSFW Servers A Guide for Responsible Users.pdfUnderstanding Discord NSFW Servers A Guide for Responsible Users.pdf
Understanding Discord NSFW Servers A Guide for Responsible Users.pdfUK Journal
 
Scaling API-first – The story of a global engineering organization
Scaling API-first – The story of a global engineering organizationScaling API-first – The story of a global engineering organization
Scaling API-first – The story of a global engineering organizationRadu Cotescu
 
Boost Fertility New Invention Ups Success Rates.pdf
Boost Fertility New Invention Ups Success Rates.pdfBoost Fertility New Invention Ups Success Rates.pdf
Boost Fertility New Invention Ups Success Rates.pdfsudhanshuwaghmare1
 
GenCyber Cyber Security Day Presentation
GenCyber Cyber Security Day PresentationGenCyber Cyber Security Day Presentation
GenCyber Cyber Security Day PresentationMichael W. Hawkins
 
Powerful Google developer tools for immediate impact! (2023-24 C)
Powerful Google developer tools for immediate impact! (2023-24 C)Powerful Google developer tools for immediate impact! (2023-24 C)
Powerful Google developer tools for immediate impact! (2023-24 C)wesley chun
 
Real Time Object Detection Using Open CV
Real Time Object Detection Using Open CVReal Time Object Detection Using Open CV
Real Time Object Detection Using Open CVKhem
 

Recently uploaded (20)

Presentation on how to chat with PDF using ChatGPT code interpreter
Presentation on how to chat with PDF using ChatGPT code interpreterPresentation on how to chat with PDF using ChatGPT code interpreter
Presentation on how to chat with PDF using ChatGPT code interpreter
 
Handwritten Text Recognition for manuscripts and early printed texts
Handwritten Text Recognition for manuscripts and early printed textsHandwritten Text Recognition for manuscripts and early printed texts
Handwritten Text Recognition for manuscripts and early printed texts
 
08448380779 Call Girls In Greater Kailash - I Women Seeking Men
08448380779 Call Girls In Greater Kailash - I Women Seeking Men08448380779 Call Girls In Greater Kailash - I Women Seeking Men
08448380779 Call Girls In Greater Kailash - I Women Seeking Men
 
Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...
Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...
Raspberry Pi 5: Challenges and Solutions in Bringing up an OpenGL/Vulkan Driv...
 
Advantages of Hiring UIUX Design Service Providers for Your Business
Advantages of Hiring UIUX Design Service Providers for Your BusinessAdvantages of Hiring UIUX Design Service Providers for Your Business
Advantages of Hiring UIUX Design Service Providers for Your Business
 
Boost PC performance: How more available memory can improve productivity
Boost PC performance: How more available memory can improve productivityBoost PC performance: How more available memory can improve productivity
Boost PC performance: How more available memory can improve productivity
 
Strategies for Unlocking Knowledge Management in Microsoft 365 in the Copilot...
Strategies for Unlocking Knowledge Management in Microsoft 365 in the Copilot...Strategies for Unlocking Knowledge Management in Microsoft 365 in the Copilot...
Strategies for Unlocking Knowledge Management in Microsoft 365 in the Copilot...
 
08448380779 Call Girls In Friends Colony Women Seeking Men
08448380779 Call Girls In Friends Colony Women Seeking Men08448380779 Call Girls In Friends Colony Women Seeking Men
08448380779 Call Girls In Friends Colony Women Seeking Men
 
08448380779 Call Girls In Diplomatic Enclave Women Seeking Men
08448380779 Call Girls In Diplomatic Enclave Women Seeking Men08448380779 Call Girls In Diplomatic Enclave Women Seeking Men
08448380779 Call Girls In Diplomatic Enclave Women Seeking Men
 
How to convert PDF to text with Nanonets
How to convert PDF to text with NanonetsHow to convert PDF to text with Nanonets
How to convert PDF to text with Nanonets
 
Axa Assurance Maroc - Insurer Innovation Award 2024
Axa Assurance Maroc - Insurer Innovation Award 2024Axa Assurance Maroc - Insurer Innovation Award 2024
Axa Assurance Maroc - Insurer Innovation Award 2024
 
Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...
Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...
Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...
 
Exploring the Future Potential of AI-Enabled Smartphone Processors
Exploring the Future Potential of AI-Enabled Smartphone ProcessorsExploring the Future Potential of AI-Enabled Smartphone Processors
Exploring the Future Potential of AI-Enabled Smartphone Processors
 
Driving Behavioral Change for Information Management through Data-Driven Gree...
Driving Behavioral Change for Information Management through Data-Driven Gree...Driving Behavioral Change for Information Management through Data-Driven Gree...
Driving Behavioral Change for Information Management through Data-Driven Gree...
 
Understanding Discord NSFW Servers A Guide for Responsible Users.pdf
Understanding Discord NSFW Servers A Guide for Responsible Users.pdfUnderstanding Discord NSFW Servers A Guide for Responsible Users.pdf
Understanding Discord NSFW Servers A Guide for Responsible Users.pdf
 
Scaling API-first – The story of a global engineering organization
Scaling API-first – The story of a global engineering organizationScaling API-first – The story of a global engineering organization
Scaling API-first – The story of a global engineering organization
 
Boost Fertility New Invention Ups Success Rates.pdf
Boost Fertility New Invention Ups Success Rates.pdfBoost Fertility New Invention Ups Success Rates.pdf
Boost Fertility New Invention Ups Success Rates.pdf
 
GenCyber Cyber Security Day Presentation
GenCyber Cyber Security Day PresentationGenCyber Cyber Security Day Presentation
GenCyber Cyber Security Day Presentation
 
Powerful Google developer tools for immediate impact! (2023-24 C)
Powerful Google developer tools for immediate impact! (2023-24 C)Powerful Google developer tools for immediate impact! (2023-24 C)
Powerful Google developer tools for immediate impact! (2023-24 C)
 
Real Time Object Detection Using Open CV
Real Time Object Detection Using Open CVReal Time Object Detection Using Open CV
Real Time Object Detection Using Open CV
 

Search Engines Chapter 1 Summary

  • 1. 1 Search Engines and Information Retrieval SUHARA YOSHIHIKO (id:sleepy_yoshi)
  • 2. 本書の紹介 • Search Engines: Information Retrieval in Practice – W. B. Croft, D. Metzler, and T. Strohman • IR分野の大御所らによる教科書 U.S. edition international edition 2
  • 3. 本書の特長 • 著者はIRの大御所なので安心! • 最新のトピックを網羅 – 10 Social Search, 11 Beyond Bag of Wordsあたり • 検索エンジンの実装を考慮した内容 – 具体的な実装テクニックが書いてあるわけではない • 各章末に文献案内と演習問題がある • 読みやすい!! – IIR並に読みやすい英語 3
  • 4. 本書で扱う検索エンジン • Galago (http://www.galagosearch.org/) – Indri (下記) のJava実装 – Indriにできることはできる(はず) • 参考:Indri (http://www.lemurproject.org/indri/) – IR研究の業界スタンダード(らしい) – C++実装.Java, PHP, C++ API – (特に研究に)嬉しい機能 • 言語モデル検索が容易に可能 • TRECフォーマットに対応 4
  • 5. 情報検索とは? • G. Salton (1968) Information retrieval is a field concerned with the structure, analysis, organization, storage, searching, and retrieval of information. 基本的には40年変わっていない 5
  • 6. 情報検索の例 • コンテンツ – テキスト,画像,動画,文書画像,音声,音楽 • アプリケーション – ウェブ検索 – バーティカル検索 – 企業向け検索 – デスクトップ検索 – Peer-to-peer検索 • 課題 – アドホック検索 – フィルタリング – 分類 – 質問応答 (QA) 6
  • 7. 情報検索の主要な課題 • 適合性 (relevance) – ユーザが探している情報を含む文書を検索できるか – vocabulary mismatch problem – topical relevance vs. user relevance – 検索モデルとランキングアルゴリズム • 評価 (evaluation) – どのように適合性を評価するか – 適合率 (precision) と再現率 (recall) – クリックスルーデータの活用 • 情報要求 (information need) – クエリに隠れたユーザの情報要求に答えられるか • クエリサジェスション,クエリ拡張,適合性フィードバック 7
  • 8. 検索エンジン (search engine) • 情報検索技術のアプリケーション – 大規模なテキスト群に対する検索を実現 – 元来は「テキスト検索」を表現 – ‘80年頃から「情報検索システム」の意味で使われる 8
  • 9. 検索エンジンの種類 • ウェブ検索エンジン – 例)Google, Yahoo!, MSN, 百度, goo, ... – ウェブページをクロールする必要がある • 企業向け検索エンジン – 例)Autonomy, FAST, Google, ... – 企業内の多様な情報源を扱う – データマイニングのように知識発見的な機能が求められる • デスクトップ検索 – 例)Windows, Spotlight (MacOS), Google Desktop, ... – 文書やE-mailなど多様なコンテンツを扱う – 使いやすいインタフェースが求められる • オープンソース検索エンジン – 例)Lucene, Indri, Galago, ... – Luceneは商用に使われることもある – 比較的単純な機能が実装されている 9
  • 10. 検索エンジンの課題 情報検索 検索エンジン • 適合性 • パフォーマンス – 効果的なランキング – 効果的な検索とインデクス作成 • 評価 • 新規データの追加 – 評価と測定 – 網羅性と新鮮さ • 情報要求 • スケーラビリティ – User interaction – 増加するデータとユーザ • 適応性 – アプリケーションへの適応 • 特有の問題 – スパムなど 10
  • 11. サーチエンジニアのために • サーチエンジニア (search engineer) – 検索エンジンの開発,最適化,保守,運用など – 様々なバックグラウンドの人がいる • 例)計算機科学,情報科学,数学,社会科学,計算言語学など – データベース分野出身のエンジニアですら検索エンジ ンのことをあまり知らないことが多い • 本書はサーチエンジニアのための本 – コンピュータ産業におけるサーチエンジニアの重要性 – 検索エンジンを理解するための本 11
  • 12. 文献案内 • 古典的文献(’70年代のIR黎明期) – Salton (1968; 1983) – van Rijsbergen (1979) (ウェブで公開) • http://www.dcs.gla.ac.uk/Keith/Preface.html • 最近の文献 – Baeza-Yates (1999) Modern Information Retrieval – Manning et al. (2008) Introduction to Information Retrieval • 論文 – IR系 • SIGIR, ECIR, CIKM, WSDM, WWW, TREC – データベース系 • VLDB, SIGMOD – 自然言語処理系 • ACL, HLT 12