Silent Running Side A
Upcoming SlideShare
Loading in...5
×
 

Silent Running Side A

on

  • 1,054 views

Talk about Google and Yahoo! , Microsoft. also Search Engine.

Talk about Google and Yahoo! , Microsoft. also Search Engine.

This Materials For Study meeting series of our department is latter part. (First Part is the " Revolutions".)

Statistics

Views

Total Views
1,054
Views on SlideShare
1,054
Embed Views
0

Actions

Likes
0
Downloads
0
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

CC Attribution-NonCommercial LicenseCC Attribution-NonCommercial License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Silent Running Side A Silent Running Side A Presentation Transcript

  • Silent running KAZUHirO FUJIE
  • Silent Running Crying In The Rain Kazuhiro Fujie ITOCHU TECHNO-SCIENCE Corporation 2006/06/21
  • Silent Running • 「Web2.0と呼称される周辺について」 – 後編。 • エジソンさんからの質問。検索エンジンに ついて。 • 「はじめのおわり」最近の様子。 • Yahoo!, eBay, Amazon, Google … – トーナメントを勝ち抜いた猛者達。 • 決勝戦はMicrosoftと。
  • Crying In The Rain • Search Engine • Interesting Site • Google v.s. Yahoo! • Search Economy • Microsoft • Latest News
  • Edison’s Question • Googleでのサービスに対抗出来る様な、 サービスはどのようなものでしょうか? • 例えば、特化したジャンルでの検索エンジ ンを創ってサービスするのは如何? • もっと正確な検索が出来るのでは? • 回答の際、前提知識に理解の食い違いが あった様に思えます。なので、まず検索エ ンジンについて説明します。
  • Search Engine • インターネットで公開されている情報をキー ワードなどを使って検索できるWebサイト のこと。 • ユーザーからの検索要求に対してリアルタ イムにWebを巡回してキーワードを含んだ Webページを探しているわけではない。
  • Composition Elements of Search Engine • Crawl, Crawler (or Spider) – Searchbot • Index – and Indexer • Runtime System – or Query Processor
  • Mr. Crowley • Crawler, Spider, Bot … – 出不精で自分のサーバーに胡坐をかき膨大 なリクエストをインターネットのページに送りつ けている。 – 持ち帰ったウェブページを、胡坐をかいたまま インデックス作成プログラム(インデクサー)に 送りつける。 – 見つけたウェブページをリクエストの待ち行列 に加え続ける。それの繰り返し。
  • The Crawler Transporter
  • The Crawler Transporter
  • Saturn V
  • Morphology of Spider
  • Internal Anatomy of Spider
  • Lycosidae
  • Spider-man
  • Mr. Crawler • Crawler, Spider, Bot … – ウェブページ全体の情報をインデックス化する。 – Crawlerは、Indexと呼ばれる巨大なデータ ベースに収集したデータを送り込む。 – URLと関連する単語をリスト化する。
  • Index • Index, Huge Database – ウェブサイトに関する巨大なデータベース。 – 統計的なパターンやアルゴリズムを駆使して クエリーに適切な結果を提供するのが目的。 – 分析過程はタグで構成され、それはメタデータ である。 – インデックス化するとランタイムインデックスに 出力する。
  • Runtime System • Query Server, SERP – ユーザのインターフェースからユーザの検索 クエリを取得する。 – 検索クエリをランタイムインデックスに運ぶ。 – 検索結果(SERP)をユーザのインターフェース に送り返す。
  • Search Engine Result Page • SERPとは、検索エンジンによる検索結果が表示された Webページのことである。検索ツールバーなどに表示さ れた検索用フォームにキーワードを入力し、検索ボタンを クリックするなどして検索を実行すると、結果として返って きたSERPが表示される。 • SERPでは検索条件に合致するWebページへのリンクが 関連度の高い順に列挙される。その関連度の算出には、 検索キーワードの含まれる数や密度、リンクされている 数の多さなどが主となるが、根底的には各エンジン独自 のアルゴリズムがはたらいている。検索結果の他にも、 SERPの多くには、検索条件に関連するとされた広告や、 新たに検索を行なうための入力フォームなどが備えられ ている。
  • Query Box in Google
  • SERP in Google
  • SERP in Ask.com
  • Mechanism of Search Engine • Back End. – Crawler, Index • Intermediate. – Runtime Index. – Memory Dump – Search Results Database • Front End. – Query Server, User Interface
  • Island Internet World is Virtual
  • Island
  • Infinite Space
  • Existence • link – 誰からもリンクされていなければ孤島。 – 検索されなければ、存在していないのと同じ。 • infinite space – 際限なく増え続ける空間は、まるで宇宙。 – 膨大な空間の中から検索され見てもらえなけ れば意味がない。
  • Along Comes A Spider
  • AltaVista • Alpha Processor – Web全体のIndexを作成するためには、並 列に動作するCrawlerを作成し一挙に作成す る必要がある。 – Alpha Processor 64 bit memoryのお陰 で1000個のCrawlerを解き放つという離れ 業で今まで見たこともない何十億という単語 の1000万ものドキュメントからなる完全な Web Indexが出来た。
  • Googlebot • Deepbot – 月に1回程度Webサイトに訪れるGooglebot – PageRank更新 • Freshbot – ニュースサイトや日記など更新頻度の高いWebペー ジにほぼ毎日訪れるGooglebot – PageRank更新はなし。 • New Freshbot – ページ収集とPageRank更新
  • My Answer Tentative My Thoughts
  • Quality of Search Engine • Crawler – Advanced Crawler – Many many spider • Huge Index – Innovation Algorithm and Statistical pattern – Huge Databases. • Query – Tag, Accurate Metadata. – Google has over 100 factors.
  • Essential point • (2003年12月時点で)33億を超えるWeb ページをほぼ0.5秒以下の時間で検索で きる。 • (2003年12月時点で) Googleは33億 のWebページを対象に,インデックスおよ びPageRank値をほぼ毎日更新している。
  • Essential point • (予測では)Googleは現在推定20万台の サーバを保有している。 – 2006年3月現在での予想。 – 写真は2006年後半に採用が予定されているDELL製の Google Search Appliance 「GB-1001」
  • Digression • (2005.09.21付け資料より)170台+5台 /月らしいので現在は200台強と推測。 • 「はてな」は2006年6月15日、日本自然エ ネルギーと契約し、年間30万kWhの電力 を風力で発電するよう委託すると発表した。
  • Answer to Edison’s Question • 現在からGoogleと検索エンジンで争うの は、無駄かもしれません。頑張ってクダサイ。 • 特化したジャンルでの情報提供は、サーチ の外側に存在し特定ジャンルに専科した SNSなどを創るのが得策かもしれません。 • 正確な検索に関しては、それを可能にする 仕組みがインターネットに必要です。セマ ンティックWebに期待しましょう。
  • Silent Running Continue to The Next Pages