網頁排名

720 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
720
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

網頁排名

  1. 1. 網頁排名 ��.1以連結投票 ��.2搜索引擎優化(Search Engine Optimization, SEO) ��.3演算因素 網頁排名譯自 PageRank,又譯為網頁級別、Google 左側排名或佩奇排名,它的值從 0 到 10。Google 的創始人拉里·佩奇和謝爾蓋·布林 1998 年在史丹福大學發明了這項技術。 PageRank™是以 Google 公司創辦人拉里·佩奇(Larry Page)命名,根據網頁之間相互的超連結計 算的網頁排名。它經常和搜索引擎優化有關。PageRank 系統被 Google 用來體現網頁的相關性 和重要性。 以連結投票 如果一個網頁被很多其它網頁所鏈接,說明它受到普遍的承認和信賴,那麼它的排名就高。 这 就是 Page Rank 的核心思想。這就是 Page Rank 的核心思想。 PageRank 通過網路浩瀚的超連結來往來確定一個頁面的等級。Google 把從 A 頁面到 B 頁面的 連結解釋為 A 頁面給 B 頁面投票 Google 根據投票來源(甚至來源的來源,即連結到 A 頁面的頁 面)和投票目標的等級來決定新的等級,簡單的說,一個高等級的頁面可以使其他低等級頁面的 等級提升。
  2. 2. PageRank 概念圖。 (引自 Page et al.(1998) Figure 2 'Simplified Page Calculation') 一個頁面的「得票數」由所有鏈向它的頁面的重要性決定。到一個頁面的超連結相當於對該頁 投一票。一個頁面的 PageRank 是由所有鏈向它的頁面(「鏈入頁面」)的重要性經過遞歸演 算法得到的。一個有很多鏈入的頁面會有很高的等級,相反如果一個頁面沒有任何鏈入頁面, 那麼它沒有等級。 2005 年初,Google 為網頁連結推出一項新屬性 nofollow,令網站管理員和網誌作者可以做出一 些 Google 不會計算為投票的連結;這些連結不算作"投票"。nofollow 的設置可以抵制評論垃 圾。 重要、優質的網站會得到較高的 PageRank,同時 Google 會記住每次所處理的查詢情況。當 然,如果查詢出來的網頁結果並不符合您的需求,重要的網頁對您也不具任何意義。因 此,Google 將 PageRank 和精密的內文比對技術結合,來找出重要並且與您的查詢相關的網
  3. 3. 頁。Google 會將出現於網頁上的字詞顯示出來,並且檢查所有的網頁內容﹝及連結到此網頁的其 他網頁內容﹞以決定這樣的查詢結果是否最符合您的需求。 Google 這種複雜、自動的方法,使有心篡改搜尋結果的人很難去篡改。然而儘管我們將相關的 廣告放置在搜尋結果的附近,Google 是不會介入販賣廣告內的任何商品﹝換言之,沒有人可以買 到較高的 PageRank 結果﹞。Google 搜尋是以簡單、誠實且客觀的方法,來找出與您的搜尋相關 的優質網站。 如果一個網頁被很多其它網頁所鏈接,說明它受到普遍的承認和信賴,那麼它的排名就高。 这 就是 Page Rank 的核心思想。這就是 Page Rank 的核心思想。 演算因素 大多數搜尋引擎對於它們的如何評等網頁的演算法都是最高機密,Google 當然也不例 外,PageRank 至少使用上百因素在排列目錄,每個因素本身和因素所佔比重可能不斷的在改 變。儘管如此,以 Google 的專利清單大家或許可以猜出許多端倪! ��.1網站的年齡 (除了有歷史的網站較佳外,剛上線的新網頁也有幾週時間會有較佳排 序,換句話說剛上線網站若能抓緊蜜月期來經營,後續就會有較佳的排序) ��.2自該網域註冊後過多久 ��.3內容的年齡 ��.4新內容增加的規律性 (內容更新不佳,會被認定該網站如一灘死水) ��.5鏈接的年齡、連接站點的名譽和其相關程度 ��.6一般站內因素 (例如原始碼結構性是否良好、靜態網頁優於動態網頁等) ��.7負面站內因素 (例如,太多關鍵字匯標(meta tag),很顯然被優化過,會對站點造成傷 害) ��.8內容的獨特性 ��.9使用於內容的相關術語 (搜尋引擎關聯到的術語的方式視同如何關聯到網頁的主要內 容) ��.10Google 網頁級別 (只被使用在 Google 的算法) ��.11外在鏈接、外部鏈接的鏈結文字、在那些和在網頁包含的那些鏈接 ��.12引證和研究來源(表明內容是研究性質) ��.13在搜索引擎資料庫裡列舉的詞根與其相關的術語(如 finance/financing) ��.14導入的逆向鏈結,以及該鏈結的文字 ��.15一些導入鏈結的負面計分 (那些來自低價值頁、被交換或情色網站的逆向鏈結等) ��.16逆向鏈結取得速率:太多太快意味著「不自然」的鏈結購買活動 ��.17圍繞在導出鏈結、導入的逆向鏈結周圍的文字。例如一個鏈結如果被 "Sponsored Links" (贊助商連結) 包圍,該鏈結可能會被忽略。 ��.18用 "rel=nofollow" 建議搜尋引擎忽略該鏈接 ��.19在站點該文件的結構深度 ��.20從其他資源收集的網格表,譬如監視當搜尋結果導引用戶到某頁後,用戶有多頻繁 按瀏覽器的返回鈕 ��.21從來源像:Google AdWords/Adsense、Google 工具條等程序收集的網格表 ��.22從第三方資料分享協議收集的網格資料 (譬如監測站點流量的統計程式提供商) ��.23刪除導入鏈結的速率 ��.24使用子網域、在子網使用關鍵字和內容質量等等,以及從這些活動來的負面計分 ��.25和主文件語意上的連結
  4. 4. ��.26文件增加或改動的速率 ��.27主機服務商 IP 和該 IP 旗下其它站點的數量/質量 ��.28其他鏈結站會員 (link farm / link affiliation) 與被鏈結的站 (他們分享 IP 嗎? 有一個共 同的郵遞地址在"聯絡我們 (Contact Us)" 頁嗎?) ��.29技術細節像利用 301 重定向被移除的網頁、對不存在網頁顯示 404 伺服器標頭而非 200 伺服器標頭、適當的利用 robots.txt ��.30主機服務商正常運行時間 ��.31網站是否對不同類的用戶顯示不同的內容 (掩飾 (cloaking)) ��.32未即時矯正、無效的導出的鏈結 ��.33不安全或非法內容 ��.34HTML 代碼品質,以及錯誤出現數 ��.35由搜尋引擎自他們搜尋結果觀察到的實際點擊通過率評等 ��.36由最常存取搜尋結果的人手動評等 最近,搜索引擎 Google (http://www.google.com/)非常引人注目。 Google 是基於現擔任 CEO 的 Larry Page 和擔任總經理的 Sergey Brin (2001 年 2 月)在就讀於美斯坦福大學研究生院時所開發 的搜索引擎的一種檢索服務。 Google 從 1998 年 9 月開始服務,但 Netscape Communications 在 Google 的測試階段就開始與其合作,美國 Yahoo!公司也從 2000 年 6 月起將默認搜索引擎(美國 Yahoo!不能 檢索時作為增補的搜索引擎)由原先合作的 Inktomi 轉換為了 Google。日語版 Google 在 2000 年 9 月正式登場,現已被 BIGLOBE (NEC)所採用。 (注:2001 年 4 月 Yahoo! JAPAN 和 @NIFTY,7 月索尼,2002 年 1 月 Excite 也相繼與 Google 建立了協作關係)。 Google 被評價的優點不僅僅在於去除無用的(廣告)標語構成單一頁面的功能、獨自的 Cache 系 統、動態製成摘要信息、為實現高速檢索而設置的分散系 統(數千台規模的 Linux 群集器)等, 而其中最大的優點正是它檢索結果的正確性。一種能夠自動判斷網頁重要性的技術「PageRank 是(網頁等級)」 就是為此而設計的一種技術。本文的目的就是以盡可能淺顯易懂的語言來說明 PageRank 系統的概要和原理。 以下是 PageRank 的一篇基礎文章。 Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd, 'The PageRank Citation Ranking: Bringing Order to the Web', 1998, http://www-db.stanford.edu/~backrub/pageranksub.ps 為了更高效地計算 PageRank,以下是改良以後的一篇論文。 Taher H. Haveliwala, 'Efficient Computation of PageRank', Stanford Technical Report, 1999, http://dbpubs.stanford.edu:8090/pub/1999-31 另外,以下是 PageRank 的演示用資料(PowerPoint)。 Larry Page, 'PageRank: Bringing Order to the Web', http://hci.stanford.edu/~page/papers/pagerank/ (已失效) 接 下來就對這兩篇文章(另加一篇資料)進行基本說明。首先,用簡單的例子來解說 PageRank 的 概念,再歸結到使用超鏈接關係的排序系統來解決大規模疏鬆 疏矩陣的特性值的問題。然後我 們會接觸一些在現實世界中應用基本模型時出現的問題和對應方法。接下來,為了探討是否能 夠作為「個人化 PageRank」使 用,進行對免費全文檢索系統 Namazu 的安裝實驗並對其結果進 行闡述。最後發表我對 PageRank 的個人見解。
  5. 5. 另外,為了 能夠理解以下的說明內容,需要大學基礎課程程度的數學知識(尤其是線形代數)。 然而為使文科生也能夠順利讀下去,盡可能地不用算式來說明問題,同時,為了 加入筆者個人 的見解,沒有加入像原文那麼多的算法和數字,也存在許多不夠嚴密和欠正確的地方,事先在 次聲明。具體內容請參照原文。 PageRank 是基於「從許多優質的網頁鏈接過來的網頁,必定還是優質網頁」的回歸關係,來判 定所有網頁的重要性。 在以下冗長 的說明中,許多部分大量地使用了專業用語,會造成理解上的困難。這一章雖然準 備集中於定性而簡單的解說,但是,即使如此也會有怎麼也不明白的時候,此時只 要能夠理解 「從許多優質的網頁鏈接過來的網頁,必定還是優質網頁」這一思考方法也就非常得可貴了。 因為在所有幾個要點中,這個是最重要的思考方法。 來自於 Google 自己的介紹「Google 的受歡迎的秘密 (http://www.google.co.jp/intl/ja/why_use.html)」是像以下一樣解說的。 關於 PageRank PageRank,有效地利用了 Web 所擁有的龐大鍊接構造的特性。從網頁 A 導向網頁 B 的鏈 接被看作是對頁面 A 對頁面 B 的支持投票,Google 根據這個 投票數來判斷頁面的重要性。可 是 Google 不單單只看投票數(即鏈接數),對投票的頁面也進行分析。 「重要性」高的頁面所投 的票的評價會更高,因為接受這個投票頁面會被理解為「重要的物品」。 根據這樣的分析,得到了高評價的 重要頁面會被給予較高的 Page Rank(網頁等級),在檢索 結果內的名次也會提高。 PageRank 是 Google 中表示網頁重要性的綜合性指標,而且不會受到 各種檢索(引擎)的影響。倒不如說,PageRank 就是基於對"使用複雜的 算法而得到的鏈接構 造"的分析,從而得出的各網頁本身的特性。 當然,重要性高的頁面如果和檢索詞句沒有關聯同樣也沒有任何意義。為此 Google 使用了 精練後的文本匹配技術,使得能夠檢索出重要而且正確的頁面。 通過下面的圖我們來具體地看一下剛才所闡述的算法。具體的算法是,將某個頁面的 PageRank 除以存在於這個頁面的正向鏈接,由此得到的值分別和正向鏈接所指向的頁面的 PageRank 相 加,即得到了被鏈接的頁面的 PageRank。 PageRank 概念圖。 (引自 Page et al.(1998) Figure 2 'Simplified Page Calculation') 讓我們詳細地看一下。提高 PageRank 的要點,大致有 3 個。 *反向鏈接數(單純的意義上的受歡迎度指標) *反向鏈接是否來自推薦度高的頁面(有根據的受歡迎指標) *反向鏈接源頁面的鏈接數(被選中的機率指標) 首 先最基本的是,被許多頁面鏈接會使得推薦度提高。也就是說「(被許多頁面鏈接的)受歡迎 的頁面,必定是優質的頁面」。所以以反向鏈接數作為受歡迎度的一個 指標是很自然的想法。 這是因為,“鏈接”是一種被看作「可以看看這個頁面/這個頁會有用」的推薦行為。但是,值得 驕傲的是 PageRank 的思考方法並沒 有停留在這個地方。
  6. 6. 也就是說,不僅僅是通過反向鏈接數的多少,還給推薦度較高頁面的反向鏈接以較高的評價。 同時,對來自總鏈接 數少頁面的鏈接給予較高的評價,而來自總鏈接數多的頁面的鏈接給予較 低的評價。換句話說「(匯集著許多推薦的)好的頁面所推薦的頁面,必定也是同樣好的頁 面」 和「與感覺在被胡亂鏈接的鏈接相比,被少數挑選出的鏈接肯定是優質的鏈接」這兩種判斷同 時進行著。一方面,來自他人高水平網頁的正規鏈接將會被明確重 視,另一方面,來自張貼有 完全沒有關聯性的類似於書籤的網頁的鏈接會作為「幾乎沒有什麼價值(雖然比起不被鏈接來說 好一些)」而被輕視。 因 此,如果從類似於 Yahoo!那樣的 PageRank 非常高的站點被鏈接的話,僅此網頁的 PageRank 也會一下子上升;相反地,無論有多少反向鏈接 數,如果全都是從那些沒有多大意義的頁面鏈 接過來的話,PageRank 也不會輕易上升。不僅是 Yahoo!,在某個領域中可以被稱為是有權威的 (或者說 固定的)頁面來的反向鏈接是非常有益的。但是,只是一個勁地在自己一些同伴之間製 作的鏈接,比如像「單純的內部照顧」這樣的做法很難看出有什麼價值。也就 是說,從注目於 全世界所有網頁的視點來判斷(你的網頁)是否真正具有價值。 綜合性地分析這些指標,最終形成了將評價較高的頁面顯示在檢索結果的相對靠前處的搜索結 構。 以 往的做法只是單純地使用反向鏈接數來評價頁面的重要性,但 PageRank 所採用方式的優點 是能夠不受機械生成的鏈接的影響。也就是說,為了提高 PageRank 需要有優質頁面的反向鏈 接。譬如如果委託 Yahoo!登陸自己的網站,就會使得 PageRank 驟然上升。但是為此必須致力 於製作(網頁 的)充實的內容。這樣一來,就使得基本上沒有提高 PageRank 的近路(或後門)。不 只限於 PageRank (Clever 和 HITS 等也同樣),在利用鏈接構造的排序系統中,以前單純的 SPAM 手法將不再通用。這是最大的一個優點,也是 Google 方便於使用 的最大理由。 (雖然是 最大的理由,但並不是唯一的理由。) 在這裡請注意,PageRank 自身是由 Google 定量,而與用戶檢索內容的表達式完全無關。就像 後邊即將闡述的一樣,檢索語句不會呈現在 PageRank 自己的計算式上。不管得到多少的檢索語 句,PageRank 也是一定的、文件固有的評分量。 PageRank 的定性說明大致就是這樣一些。但是,為了實際計算排列次序、比較等級,需要更定 量性的討論。以下一章將做詳細的說明。 ---> Hajime BABA / 馬場 肇 <baba@kusastro.kyoto-u.ac.jp> Copyright (C) 2001-2003 Hajime BABA. All rights reserved.保留所有權利。 $Id: pagerank.html,v 1.9 2006/01/26 09:16:47 baba Exp $ 原著: Google の秘密 - PageRank 徹底解説 Hajime BABA / 馬場 肇 翻译: Kreny / 袁 黄琳 E-mail 译文创作于:2003/12 最后更新: 2007 年 4 月 17 日 21:53 翻译说明: 一些语句的翻译上使用了意译,使得尽可能得符合中文的理解和说明思路。 版权声明:本译文可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及 本声明 http://www.kreny.com/pagerank_cn.htm

×