2008 Chinese Sns Application Development Annual Report
搜索引擎与网站间网络结构:基于能见指数的分析 Wuhan liao and zhang 海峡两岸
1. 搜索引擎与网站间网络结构:基于能见指数的分析 *
廖汉腾
1
,张斌
2
( 1. 牛津大学 互联网研究所,英国 牛津 OX1 3JS
2. 武汉大学 信息资源研究中心,湖北 武汉 430072)
摘 要 本文提出了一种量化搜索引擎结果页面排名的方法,以较先前类似研究更为广泛的资料,揭示不同地区的本
地化中文搜索引擎搜索结果页面特征。研究结果展现了百度百科和中文维基百科搜索引擎的能见与否,在不同地区本
地化搜索引擎之明显差异。涵盖 3000 条中文搜索词条,中国大陆、新加坡、香港和台湾四个主要的华语地区的引擎
结果页面排名,本研究证实了主流的用户生成百科全书能见指数较高,并受到地区因素影响。同时,百度百科和中文
维基百科等百科全书网站也揭示了中文搜索环境的构建方式。
关键词 能见指数;搜素引擎;网站;二模网络;结构分析
中图分类号 G350
Network Structure Analysis between Search Engine and Website Based on Visibility Scores
Liao Hanteng1
,ZHANG Bin2
(1. Oxford Internet Institute, University of Oxford, Oxford OX1 3PG, United Kingdom;
2. Center for the Studies of Information Resources, Wuhan University, Wuhan 430072, China)
Abstract This paper puts forward a method to quantify the rankings of search engine result page (SERP) and presents by far
the most comprehensive findings on the Chinese-language SERP. The findings should answer whether and how Baidu Baike
and Chinese Wikipedia are visible across different local search engine variants (SEv). The results are based on 3,000 main-
ly-Chinese-language search queries across four Chinese-speaking regions (mainland China, Singapore, Hong Kong and Tai-
wan) and demonstrate that major user-generated encyclopaedias are indeed among the most visible and that localization factors
matter. Thus, encyclopedia websites such as Baidu Baike and Chinese Wikipedia provide leading indicators about how the
Chinese-language search environment is structured.
Key words visibility scores; search engine; website; 2-mode network; structure analysis
* 基金项目:国家自然科学基金()。
通信作者:张斌,武汉大学信息管理学院,博士研究生,e-mail:zb0205@126.com。
使用搜索引擎已经为互联网用户最普遍行为之一。全球搜索引擎巨头 Google 在其搜索引擎结果页面
(Search engine result pages,本文以下用 SERPs 代称)中频繁突出显示维基百科(Wikipedia)的相关页面,
有助维基百科的推广;而中国最大的搜索引擎百度也同样突出显示百度百科的相关页面。这种现象被臆测
是主要的网络搜索引擎在其搜索结果中对百科内容进行了有针对性地引导。维基媒体基金会(Wikimedia
Foundation)承认谷歌(Google)向维基百科引导流量(traffic),但同时也表明有半数的用户是专门搜索和
阅读维基百科的相关内容,而非由于谷歌的引导(Khanna,2011)。因此,作为用户关注和访问的主要网
站,搜索引擎和百科网站在引导用户方面具有优势。
2. 目前针对搜索引擎的研究主要集中在英文语言环境。上述关于谷歌和维基百科的特有现象是否也存在
于其他搜索引擎和用户生成百科全书(user-generated encyclopaedias)当中,还缺乏深入思考。Jiang 和 Akhtar
(2011)针对中国大陆的 SERPs 开展过相关研究,通过分析在中国大陆引起政治争议的 316 个互联网事件
的搜索结果发现,百度百科和中文维基百科在 SERPs 中排位较高。值得一提的是,这一研究结果仅限于中
国大陆的简体中文用户和特定的搜索词条。
而针对规模庞大的中文互联网,许多主流搜索引擎都推出了本地化的版本(local search engine variants,
本文以下用 SEv 代称),例如中国雅虎,谷歌香港和谷歌台湾版等。那么,在不考虑用户选择搜索引擎的
前提下,不同的搜索引擎能否将各个地区的用户引导到相同的网站?或者说 SERPs 是否产生分歧?基于上
述问题,本文提出了一种量化 SERPs 排名的方法,即能见指数(Visibility Scores),用以揭示当前中文搜索
引擎在搜索在线百科全书的特征;之后,基于能见指数构造了搜索引擎与网站间的二模网络,通过分析网
络结构来揭示诸如百度百科和中文维基百科等百科网站在不同地区的 SEv 中是否能见和能见方式。本文的
研究目的在于通过对搜索引擎与网站间网络结构分析,来揭示中文搜索环境的构建方式。
1 研究设计
1.1 能见指数
通常,人们会习惯性地从上往下浏览搜索结果。因此,如果一个网站在搜索结果中排名越高,它的能
见性(visibility)就越大。当然,在搜索结果中排名越高,获得的流量也会越大。能见性测试(visibility test)
是指根据不同网站在不同搜索引擎的 SERPs 中的排名所给出一个代表能见性的分数。多项市场研究
(Hotchkiss,2007)和社会科学研究(Bar-Ilan,2006;Escher 等,2006;Vaughan & Thelwall,2004)已经
结合搜索结果排名等网络计量数据测算了在线能见性的程度。
有五个在线广告平台(Chiticka,Slingshot,Optify,Enquiro 和 AOL)发布过基于网站流量数据的 SERPs
点击率(click-through rates,CTR)信息(Hearne,2006;Jones,2007;Young,2011)。利用这些数据,
能将搜索结果排名转化为流量的测量值。结合流量数据,可以得出排名第一和第二间的差异,第九和第十
间的差异,而不是假定它们产生了相同的影响(10-9=2-1)。根据五个在线广告平台所给出的数据,笔者得
出了一个函数,用以将排名转换为不同的分数值,即“能见指数”(如图 1所示)。
y = 0.2889x-1.078
R² = 0.9934
0%
10%
20%
30%
1 2 3 4 5 6 7 8 9 10
VisibilityScores:y
Ranking of the Search Engine Results Page: x
Unweighted: ranking does
not matter
Weighted: ranking matters
based on CTR values
Weighted: curve-fitting
trendline
图 1 转换函数
转换函数 y = 0.2889x-1.078
与行业平均值非常吻合(见 R 平方值)。SERPs 中的排名 x 经过函数转换,
就得相应的能见指数 y。实际上,能见指数是一个加权机制。对加权值和未加权值进行比较,搜索结果排
序中前三名的加权值明显高于未加权值。本文通过这一方法来量化 SERPs 排名造成的差异。
需要说明的是,能见指数并不适用于全部搜索引擎或者任意用户群体。能见指数只是分析 SERPs 中的
10. 显然,百度百科和中文维基百科是能见指数最高的网站。而在各个搜索引擎中都有至少一个百科全书网站
是能见的,因此任何用户都有可能点击进入百度百科或中文维基百科的相关页面。笔者认为,搜索引擎作
为广大中文互联网用户最主要的网络工具之一,用户对搜索引擎的选择在很大程度上会影响对百科全书网
站的选择。
区块建模分析表明:百度百科在 7 个搜索引擎中是较为能见的(除 Yahoo_TW 和 Yahoo_HK),而中文
维基百科也在 7 个搜索引擎中是能见的(除 Baidu_CN 和 Yahoo_CN)。所以,Baidu_CN 和 Yahoo_CN 的用
户很可能错失中文维基百科及其同类别的相关网站信息。考虑到百度百科的信息多样性和全面性目前暂时
还不如中文维基百科的这一事实,用户在使用百度搜索引擎时可能加深中国大陆内部和外部的信息鸿沟。
相反,台湾和香港地区的用户普遍使用谷歌,谷歌和维基百科为这部分用户提供来自中国大陆内部的相关
信息。因此,台湾和香港用户使用谷歌和维基百科可能在一定程度上克服信息鸿沟,获取一些来自中国大
陆内部的信息。
SERPs 有效地将网站信息推荐给用户,但不同的推荐策略会导致用户访问不同的网站信息。谷歌和中
文维基百科提供了各类中文互联网信息,在克服信息鸿沟方面作用会比较明显,而 Baidu 和 Yahoo 提供的
信息则会存在一定的局限。当然,各个搜索平台所选择的信息推荐模式有所不同,同时中文互联网世界中
各个地区的政治文化差异也依稀可见。在香港和台湾的信息鸿沟逐渐被克服的同时,中国大陆和香港的信
息鸿沟却在逐渐加深。中国大陆的互联网用户如果不使用谷歌中国,就有可能被限制在一个“大局域网”
中。相反,香港和台湾用户在使用 Google 或中文维基百科时,却在经历着“去本地化或跨地域化”现象。
值得注意的是,虽然香港在地理位置、政治体制和行政体制上更加接近中国大陆,但是香港地区的搜索引
擎的搜索结果与台湾地区的搜索引擎的搜索结果更为契合,而与中国大陆的搜索引擎相交甚少。
4 结语
本研究通过对中国大陆、新加坡、香港和台湾等四个主要的华语地区的约 3000 条中文搜索词条的研
究,证实了主流的用户生成百科全书能见指数较高,但会受到地区因素影响。基于能见指数,构造了搜索
引擎与网站间的二模网络,特别观察了百度百科和中文维基百科在中文搜索环境中的能见性,从而揭示了
整个中文搜索环境的构建方式。
当然,本研究也存在一些明显的局限性。第一,尽管搜索词条的选取较其他相关研究更为宽泛,但仍
显不足;第二,由于篇幅限制,并未详细分析不同领域的搜索词条产生的搜索结果间的差异;第三,由于
数据样本采用的是标准普通话词条,从而忽略了香港用户常用的广东话书写方式;第四,在对 SEv 的研究
中,研究仅考虑了默认设置状态下的搜索结果。在后续的研究中,笔者将进一步拓展能见指数在其它语言
系统中的应用,比如埃及地区(Egyptian)的阿拉伯语和马格里布地区(Maghrebi)的阿拉伯语。
参 考 文 献
[1] Bar-Ilan J. Web links and search engine ranking: The case of Google and the query “jew”[J]. Journal of the American Society for
Information Science and Technology, 2006, 57(12): 1581-1589.
[2] Escher T, Margetts H, Petricek V, et al. Governing from the centre? Comparing the nodality of digital governments[C]//Annual
Meeting of the American Political Science Association, 2006.
[3] Hearne R. SERP Click Through Rate of Google Search Results – AOL-data.tgz – Want to Know How Many Clicks The #1
Google Position Gets?[EB/OL]. [2006-08-12].
http://www.redcardinal.ie/search-engine-optimisation/12-08-2006/clickthrough-analysis-of-aol-datatgz/.
[4] Hotchkiss G. Chinese Eye Tracking Study: Baidu Vs Google[EB/OL]. [2007-06-15].
http://searchengineland.com/chinese-eye-tracking-study-baidu-vs-google-11477.
11. [5] Jiang M, Akhtar A. Peer into the black box of Chinese search engines: A comparative study of Baidu, Google, and Goso[C]//9th
Chinese Internet Research Conference, Georgetown University, Washington, D C, 2011.
[6] Jones R. 96.6% of Wikipedia Pages Rank in Google’s Top 10[EB/OL].
http://www.thegooglecache.com/white-hat-seo/966-of-wikipedia-pages-rank-in-googles-top-10/.
[7] Khanna A. Google drives traffic to Wikipedia, but half of readers look for Wikipedia content[EB/OL]. [2011-10-26].
http://blog.wikimedia.org/2011/10/26/search-and-wikipedia/.
[8] Vaughan L, Thelwall M. Search engine coverage bias: evidence and possible causes[J]. Information processing & management,
2004, 40(4): 693-707.
[9] Young R D. Top Google Ranking Captures 18.2% of Clicks[EB/OL]. [2011-08-10].
http://searchenginewatch.com/article/2100616/Top-Google-Ranking-Captures-18.2-of-Clicks-Study.
作者简介:
廖汉腾,男,牛津大学互联网研究中心博士研究生,研究方向为网络计量学、地理语言分析、中文互
联网、互联网治理丶开放资料 Email:hanteng@gmail.com。
张斌(1984-),男,武汉大学信息管理学院博士研究生,研究方向为信息系统与信息资源规划,Email:
zb0205@126.com。