Silent Running Side A

835 views

Published on

Talk about Google and Yahoo! , Microsoft. also Search Engine.

This Materials For Study meeting series of our department is latter part. (First Part is the " Revolutions".)

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
835
On SlideShare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
2
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Silent Running Side A

  1. 1. Silent running KAZUHirO FUJIE
  2. 2. Silent Running Crying In The Rain Kazuhiro Fujie ITOCHU TECHNO-SCIENCE Corporation 2006/06/21
  3. 3. Silent Running • 「Web2.0と呼称される周辺について」 – 後編。 • エジソンさんからの質問。検索エンジンに ついて。 • 「はじめのおわり」最近の様子。 • Yahoo!, eBay, Amazon, Google … – トーナメントを勝ち抜いた猛者達。 • 決勝戦はMicrosoftと。
  4. 4. Crying In The Rain • Search Engine • Interesting Site • Google v.s. Yahoo! • Search Economy • Microsoft • Latest News
  5. 5. Edison’s Question • Googleでのサービスに対抗出来る様な、 サービスはどのようなものでしょうか? • 例えば、特化したジャンルでの検索エンジ ンを創ってサービスするのは如何? • もっと正確な検索が出来るのでは? • 回答の際、前提知識に理解の食い違いが あった様に思えます。なので、まず検索エ ンジンについて説明します。
  6. 6. Search Engine • インターネットで公開されている情報をキー ワードなどを使って検索できるWebサイト のこと。 • ユーザーからの検索要求に対してリアルタ イムにWebを巡回してキーワードを含んだ Webページを探しているわけではない。
  7. 7. Composition Elements of Search Engine • Crawl, Crawler (or Spider) – Searchbot • Index – and Indexer • Runtime System – or Query Processor
  8. 8. Mr. Crowley • Crawler, Spider, Bot … – 出不精で自分のサーバーに胡坐をかき膨大 なリクエストをインターネットのページに送りつ けている。 – 持ち帰ったウェブページを、胡坐をかいたまま インデックス作成プログラム(インデクサー)に 送りつける。 – 見つけたウェブページをリクエストの待ち行列 に加え続ける。それの繰り返し。
  9. 9. The Crawler Transporter
  10. 10. The Crawler Transporter
  11. 11. Saturn V
  12. 12. Morphology of Spider
  13. 13. Internal Anatomy of Spider
  14. 14. Lycosidae
  15. 15. Spider-man
  16. 16. Mr. Crawler • Crawler, Spider, Bot … – ウェブページ全体の情報をインデックス化する。 – Crawlerは、Indexと呼ばれる巨大なデータ ベースに収集したデータを送り込む。 – URLと関連する単語をリスト化する。
  17. 17. Index • Index, Huge Database – ウェブサイトに関する巨大なデータベース。 – 統計的なパターンやアルゴリズムを駆使して クエリーに適切な結果を提供するのが目的。 – 分析過程はタグで構成され、それはメタデータ である。 – インデックス化するとランタイムインデックスに 出力する。
  18. 18. Runtime System • Query Server, SERP – ユーザのインターフェースからユーザの検索 クエリを取得する。 – 検索クエリをランタイムインデックスに運ぶ。 – 検索結果(SERP)をユーザのインターフェース に送り返す。
  19. 19. Search Engine Result Page • SERPとは、検索エンジンによる検索結果が表示された Webページのことである。検索ツールバーなどに表示さ れた検索用フォームにキーワードを入力し、検索ボタンを クリックするなどして検索を実行すると、結果として返って きたSERPが表示される。 • SERPでは検索条件に合致するWebページへのリンクが 関連度の高い順に列挙される。その関連度の算出には、 検索キーワードの含まれる数や密度、リンクされている 数の多さなどが主となるが、根底的には各エンジン独自 のアルゴリズムがはたらいている。検索結果の他にも、 SERPの多くには、検索条件に関連するとされた広告や、 新たに検索を行なうための入力フォームなどが備えられ ている。
  20. 20. Query Box in Google
  21. 21. SERP in Google
  22. 22. SERP in Ask.com
  23. 23. Mechanism of Search Engine • Back End. – Crawler, Index • Intermediate. – Runtime Index. – Memory Dump – Search Results Database • Front End. – Query Server, User Interface
  24. 24. Island Internet World is Virtual
  25. 25. Island
  26. 26. Infinite Space
  27. 27. Existence • link – 誰からもリンクされていなければ孤島。 – 検索されなければ、存在していないのと同じ。 • infinite space – 際限なく増え続ける空間は、まるで宇宙。 – 膨大な空間の中から検索され見てもらえなけ れば意味がない。
  28. 28. Along Comes A Spider
  29. 29. AltaVista • Alpha Processor – Web全体のIndexを作成するためには、並 列に動作するCrawlerを作成し一挙に作成す る必要がある。 – Alpha Processor 64 bit memoryのお陰 で1000個のCrawlerを解き放つという離れ 業で今まで見たこともない何十億という単語 の1000万ものドキュメントからなる完全な Web Indexが出来た。
  30. 30. Googlebot • Deepbot – 月に1回程度Webサイトに訪れるGooglebot – PageRank更新 • Freshbot – ニュースサイトや日記など更新頻度の高いWebペー ジにほぼ毎日訪れるGooglebot – PageRank更新はなし。 • New Freshbot – ページ収集とPageRank更新
  31. 31. My Answer Tentative My Thoughts
  32. 32. Quality of Search Engine • Crawler – Advanced Crawler – Many many spider • Huge Index – Innovation Algorithm and Statistical pattern – Huge Databases. • Query – Tag, Accurate Metadata. – Google has over 100 factors.
  33. 33. Essential point • (2003年12月時点で)33億を超えるWeb ページをほぼ0.5秒以下の時間で検索で きる。 • (2003年12月時点で) Googleは33億 のWebページを対象に,インデックスおよ びPageRank値をほぼ毎日更新している。
  34. 34. Essential point • (予測では)Googleは現在推定20万台の サーバを保有している。 – 2006年3月現在での予想。 – 写真は2006年後半に採用が予定されているDELL製の Google Search Appliance 「GB-1001」
  35. 35. Digression • (2005.09.21付け資料より)170台+5台 /月らしいので現在は200台強と推測。 • 「はてな」は2006年6月15日、日本自然エ ネルギーと契約し、年間30万kWhの電力 を風力で発電するよう委託すると発表した。
  36. 36. Answer to Edison’s Question • 現在からGoogleと検索エンジンで争うの は、無駄かもしれません。頑張ってクダサイ。 • 特化したジャンルでの情報提供は、サーチ の外側に存在し特定ジャンルに専科した SNSなどを創るのが得策かもしれません。 • 正確な検索に関しては、それを可能にする 仕組みがインターネットに必要です。セマ ンティックWebに期待しましょう。
  37. 37. Silent Running Continue to The Next Pages

×