SlideShare a Scribd company logo
1 of 11
Download to read offline
搜索引擎与网站间网络结构:基于能见指数的分析 *
廖汉腾
1
,张斌
2
( 1. 牛津大学 互联网研究所,英国 牛津 OX1 3JS
2. 武汉大学 信息资源研究中心,湖北 武汉 430072)
摘 要 本文提出了一种量化搜索引擎结果页面排名的方法,以较先前类似研究更为广泛的资料,揭示不同地区的本
地化中文搜索引擎搜索结果页面特征。研究结果展现了百度百科和中文维基百科搜索引擎的能见与否,在不同地区本
地化搜索引擎之明显差异。涵盖 3000 条中文搜索词条,中国大陆、新加坡、香港和台湾四个主要的华语地区的引擎
结果页面排名,本研究证实了主流的用户生成百科全书能见指数较高,并受到地区因素影响。同时,百度百科和中文
维基百科等百科全书网站也揭示了中文搜索环境的构建方式。
关键词 能见指数;搜素引擎;网站;二模网络;结构分析
中图分类号 G350
Network Structure Analysis between Search Engine and Website Based on Visibility Scores
Liao Hanteng1
,ZHANG Bin2
(1. Oxford Internet Institute, University of Oxford, Oxford OX1 3PG, United Kingdom;
2. Center for the Studies of Information Resources, Wuhan University, Wuhan 430072, China)
Abstract This paper puts forward a method to quantify the rankings of search engine result page (SERP) and presents by far
the most comprehensive findings on the Chinese-language SERP. The findings should answer whether and how Baidu Baike
and Chinese Wikipedia are visible across different local search engine variants (SEv). The results are based on 3,000 main-
ly-Chinese-language search queries across four Chinese-speaking regions (mainland China, Singapore, Hong Kong and Tai-
wan) and demonstrate that major user-generated encyclopaedias are indeed among the most visible and that localization factors
matter. Thus, encyclopedia websites such as Baidu Baike and Chinese Wikipedia provide leading indicators about how the
Chinese-language search environment is structured.
Key words visibility scores; search engine; website; 2-mode network; structure analysis
* 基金项目:国家自然科学基金()。
通信作者:张斌,武汉大学信息管理学院,博士研究生,e-mail:zb0205@126.com。
使用搜索引擎已经为互联网用户最普遍行为之一。全球搜索引擎巨头 Google 在其搜索引擎结果页面
(Search engine result pages,本文以下用 SERPs 代称)中频繁突出显示维基百科(Wikipedia)的相关页面,
有助维基百科的推广;而中国最大的搜索引擎百度也同样突出显示百度百科的相关页面。这种现象被臆测
是主要的网络搜索引擎在其搜索结果中对百科内容进行了有针对性地引导。维基媒体基金会(Wikimedia
Foundation)承认谷歌(Google)向维基百科引导流量(traffic),但同时也表明有半数的用户是专门搜索和
阅读维基百科的相关内容,而非由于谷歌的引导(Khanna,2011)。因此,作为用户关注和访问的主要网
站,搜索引擎和百科网站在引导用户方面具有优势。
目前针对搜索引擎的研究主要集中在英文语言环境。上述关于谷歌和维基百科的特有现象是否也存在
于其他搜索引擎和用户生成百科全书(user-generated encyclopaedias)当中,还缺乏深入思考。Jiang 和 Akhtar
(2011)针对中国大陆的 SERPs 开展过相关研究,通过分析在中国大陆引起政治争议的 316 个互联网事件
的搜索结果发现,百度百科和中文维基百科在 SERPs 中排位较高。值得一提的是,这一研究结果仅限于中
国大陆的简体中文用户和特定的搜索词条。
而针对规模庞大的中文互联网,许多主流搜索引擎都推出了本地化的版本(local search engine variants,
本文以下用 SEv 代称),例如中国雅虎,谷歌香港和谷歌台湾版等。那么,在不考虑用户选择搜索引擎的
前提下,不同的搜索引擎能否将各个地区的用户引导到相同的网站?或者说 SERPs 是否产生分歧?基于上
述问题,本文提出了一种量化 SERPs 排名的方法,即能见指数(Visibility Scores),用以揭示当前中文搜索
引擎在搜索在线百科全书的特征;之后,基于能见指数构造了搜索引擎与网站间的二模网络,通过分析网
络结构来揭示诸如百度百科和中文维基百科等百科网站在不同地区的 SEv 中是否能见和能见方式。本文的
研究目的在于通过对搜索引擎与网站间网络结构分析,来揭示中文搜索环境的构建方式。
1 研究设计
1.1 能见指数
通常,人们会习惯性地从上往下浏览搜索结果。因此,如果一个网站在搜索结果中排名越高,它的能
见性(visibility)就越大。当然,在搜索结果中排名越高,获得的流量也会越大。能见性测试(visibility test)
是指根据不同网站在不同搜索引擎的 SERPs 中的排名所给出一个代表能见性的分数。多项市场研究
(Hotchkiss,2007)和社会科学研究(Bar-Ilan,2006;Escher 等,2006;Vaughan & Thelwall,2004)已经
结合搜索结果排名等网络计量数据测算了在线能见性的程度。
有五个在线广告平台(Chiticka,Slingshot,Optify,Enquiro 和 AOL)发布过基于网站流量数据的 SERPs
点击率(click-through rates,CTR)信息(Hearne,2006;Jones,2007;Young,2011)。利用这些数据,
能将搜索结果排名转化为流量的测量值。结合流量数据,可以得出排名第一和第二间的差异,第九和第十
间的差异,而不是假定它们产生了相同的影响(10-9=2-1)。根据五个在线广告平台所给出的数据,笔者得
出了一个函数,用以将排名转换为不同的分数值,即“能见指数”(如图 1所示)。
y = 0.2889x-1.078
R² = 0.9934
0%
10%
20%
30%
1 2 3 4 5 6 7 8 9 10
VisibilityScores:y
Ranking of the Search Engine Results Page: x
Unweighted: ranking does
not matter
Weighted: ranking matters
based on CTR values
Weighted: curve-fitting
trendline
图 1 转换函数
转换函数 y = 0.2889x-1.078
与行业平均值非常吻合(见 R 平方值)。SERPs 中的排名 x 经过函数转换,
就得相应的能见指数 y。实际上,能见指数是一个加权机制。对加权值和未加权值进行比较,搜索结果排
序中前三名的加权值明显高于未加权值。本文通过这一方法来量化 SERPs 排名造成的差异。
需要说明的是,能见指数并不适用于全部搜索引擎或者任意用户群体。能见指数只是分析 SERPs 中的
相关数据,并揭示搜索排名对网站流量的影响。能见性测试是通过聚合在不同搜索引擎上的搜索结果,将
搜索排名转换为能见指数。也就是说,可以根据研究范围和研究重点选择相关搜索词条集合和搜索引擎。
本研究中的 SERPs 数据集是某些关键词在不同搜索引擎中搜索得到的结果列表,聚合之后得到不同网站的
能见指数。
1.2 中文搜索引擎
表 1列出了四个华语地区市场份额前 5 的搜索引擎,相关数据来自 StatCounter 在 2012 年 3 月的报告。
谷歌和雅虎囊括除中国大陆以外的其他华语地区市场份额前两名,百度在中国大陆市场处于领先地位。
表 1 搜索引擎市场份额前 5 名
Ranking China(CN) Singapore(SG) Hong Kong(HK) Taiwan(TW)
1 Baidu 57.98% Google 90.32% Google 67.10% Google 58.28%
2 Google 36.93% Yahoo! 7.63% Yahoo! 32.37% Yahoo! 40.60%
3 Yahoo! 2.28% Bing 1.78% Baidu 0.29% Bing 0.95%
4 Bing 2.16% Ask Jeeves 0.11% Bing 0.13% Baidu 0.08%
5 Yandex Ru 0.17% Baidu 0.10% Ask Jeeves 0.06% Ask Jeeves 0.05%
不同搜索引擎在各地市场份额数据会随时间波动。图 2是四个地区的市场份额趋势图。值得注意的是,
在谷歌将服务器从中国大陆迁至香港以后,百度在中国大陆持续保持领先地位,谷歌处于第二。2010 年和
2011 年,谷歌超越雅虎成为香港和台湾最大的搜索引擎服务商,同时在新加坡继续保持领先地位。本研究
选择了 9 个搜索引擎作为研究对象,并缩写为 Baidu_CN,Google_CN,Yahoo_CN,Google_SG,Yahoo_SG,
Google_HK,Yahoo_HK,Google_TW 以及 Yahoo_TW。
China (CN) 1st Baidu Hong Kong (HK) 1st Google
2nd Google 2nd Yahoo!
3rd Yahoo! 3rd Baidu
Singapore (SG) 1st Google Taiwan (TW) 1st Google
2nd Yahoo! 2nd Yahoo!
3rd Bing 3rd Bing
1st
2nd
3rd
0
20
40
60
80
2009/03
2009/09
2010/03
2010/09
2011/03
2011/09
2012/03
2012/09
2013/03
2013/09
2014/03
1st
2nd
3rd0
20
40
60
80
2009/03
2009/09
2010/03
2010/09
2011/03
2011/09
2012/03
2012/09
2013/03
2013/09
2014/03
1st
2nd
3rd0
20
40
60
80
100
2009/03
2009/09
2010/03
2010/09
2011/03
2011/09
2012/03
2012/09
2013/03
2013/09
2014/03
1st
2nd
3rd0
20
40
60
80
2009/03
2009/09
2010/03
2010/09
2011/03
2011/09
2012/03
2012/09
2013/03
2013/09
2014/03
图 2 2009-2014 年搜索引擎市场份额
1.3 数据收集与处理
研究选取了 3000 个与中国传统及现代文化相关的搜索词条,以搜索结果的前 10 名构成数据集。如表
2所示,这些词条包括了《中国剑桥百科全书》的 990 个条目,自 2007 年以来中国大陆、香港和台湾各地
的百度和谷歌在不同领域的前 10 大搜索词条,主要流行文化参考,名人姓名,以及一些政治文化敏感度较
高的关键词。尽管还有其他搜索词条可供选择,但上述搜索词条已包含了华语地区用户生成百科全书的主
要内容,因而是合适的。
表 2 搜索词条的来源和数量
类别 数量
中国剑桥百科全书 990
谷歌和百度前 10 大搜索词条 387
中国、香港和台湾最好的电影和流行音乐 364
和日本共享的现代观念 171
名人 476
-华人诺贝尔奖获得者 11
-中国主要的政治家 187
-中国、香港和台湾的富豪 82
-100 位中国当代知识分子 100
-主要来自台湾的叛逃者 17
-在台湾白色恐怖下的受害者 79
潜在的敏感词汇 112
-日本 AV 色情明星 48
-中国的贪腐官员 14
-被防火长城(Great Firewall)屏蔽/过滤的词 50
财富 500 强 500
合计 3000
之后,研究根据各个地区的语言习惯,将 3000 个关键词进行处理,并构造相应的搜索式,其中中国
大陆和新加坡为简体中文,香港和台湾为繁体中文。基于以上搜索式,收集 SERPs 数据进行能见性测试,
为排名较高的网站赋予较大的能见指数。研究从全部 SERPs 数据中提取出约 270000 个网络链接,并将指
向相同网站的网络链接进行聚合,比如 money.sohu.com 和 women.sohu.com 聚合为 sohu.com。所有教育网
站和政府网站根据顶级域名进行聚合,比如 edu.tw,edu.cn,gov.cn 和 gov.hk。
2 分析与结果
2.1 能见指数列表
在 SERPs 中,百度百科和中文维基百科,以及其它一些网站,都有着各自不同的表现,并反映为不同
的能见指数。图 3所示的是能见指数的集中趋势。显然,前 100 个网站的平均能见指数超过 70%,前 10
个网站的平均能见指数超过 50%。同时,能见指数的集中程度因领域而异,集中度最高的是诺贝尔奖获得
者,集中度最低的是财富 500 强企业。
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0 50 100 150
Percentageoftotalscores
Top n-th website
Nobel Prize
Winners
Sensitive terms
Cambridge
Ency.of China
Top 10 Search
Terms
Average
Fortune 500
图 3 能见指数的集中趋势
表 3列举了能见指数排名前 5 的网站及其子网站。其中,排名前 3 的是百科全书网站。最后一列的百
分比表明,中文维基百科、百度百科和互动百科是它们旗下能见指数最高的子网站。另外,能见指数排名
第 4 的网站是雅虎,旗下子网站排名前列的有香港和台湾地区的知识问答网站、博客网站(tw.myblog);而
能见指数排名第 5 的网站是新浪网,旗下子网站排名前列的分别是博客、娱乐、新闻和财经等。能见指数
占比还可以粗略描绘出网站在 SERPs 中被点击的概率。因此,前 5 大网站将获得 43.90%的流量,而中文
维基百科和百度百科的能见性也大致相当。进一步地,还可以利用这些数据揭示出在不同的搜索引擎中哪
一个百科网站的排名更高,在此不详细展开。
表 3 能见指数排名前 5 的网站及其子网站
网站及其子网站 能见指数 占总能见指数的比例 占该网站能见指数的比例
wikipedia.org 4383.52 20.57%
zh.wikipedia.org 4171.61 19.58% 95.17%
zh-yue.wikipedia.org 93.14 0.44% 2.12%
en.wikipedia.org 50.40 0.24% 1.15%
zh-classical.wikipedia.org 37.07 0.17% 0.85%
ja.wikipedia.org 31.30 0.15% 0.71%
baidu.com 3513.87 16.49%
baike.baidu.com 3066.32 14.39% 87.26%
zhidao.baidu.com 165.84 0.78% 4.72%
tieba.baidu.com 137.56 0.65% 3.91%
wenku.baidu.com 74.19 0.35% 2.11%
image.baidu.com 69.95 0.33% 1.99%
hudong.com 707.40 3.32%
www.hudong.com 693.38 3.25% 98.02%
tupian.hudong.com 12.77 0.06% 1.81%
so.hudong.com 0.72 0.00% 0.10%
fenlei.hudong.com 0.32 0.00% 0.05%
w.hudong.com 0.21 0.00% 0.03%
yahoo.com 398.94 1.87%
tw.knowledge.yahoo.com 167.03 0.78% 41.87%
tw.myblog.yahoo.com 121.82 0.57% 30.54%
hk.knowledge.yahoo.com 67.43 0.32% 16.90%
tw.movie.yahoo.com 22.59 0.11% 5.66%
tw.news.yahoo.com 20.06 0.09% 5.03%
sina.com.cn 350.17 1.64%
blog.sina.com.cn 154.93 0.73% 44.24%
ent.sina.com.cn 69.87 0.33% 19.95%
news.sina.com.cn 52.60 0.25% 15.02%
finance.sina.com.cn 41.76 0.20% 11.93%
data.ent.sina.com.cn 31.01 0.15% 8.86%
合计(Top-5) 8954.96 43.90%
共计(所有网站) 21306.70 100.00%
2.2 搜索引擎和网站间的网络结构识别
研究假设在 SERPs 中显示某一网站能构成一种显示或引用关系。为了揭示出“搜索引擎与网站间的结
构关系”,研究采用了基于二模网络的区块建模分析方法。利用 SERPs 数据,可以构建出由一端的搜索引
擎指向另一端的网站的有向二模网络,利用能见指数来描述搜索引擎和网站间关系的强弱大小。
对前 100 个网站进行多次区块建模分析迭代,同时将搜索引擎和网站聚合为三组,最终得到一个 3 乘
3 的区块模型,以此反映结构关系(表 4)。对于每个区块,黑色代表强连接,白色代表弱连接。区块建模
分析结果中,有 80 对数据与模型不相符合,占数据总体的 9.67%,表明本研究建立的区块模型能够揭示超
过 90%的内在关系结构。在表 4中,红线表示的是所划分的区块。左上区块和右下区块表示无连接数据,
即搜索引擎在其搜索结果中几乎不显示该网站页面。余下 7 个区块表示完全联系,即全部搜索引擎会显示
相应的网站。另外,9 个搜索引擎被划分为 3 组,从左至右数量为 2 个、5 个和 2 个。前 100 个网站也被划
分为 3 组,从上到下数量为 35 个、16 个和 49 个。
表 4 区块建模
Websites
(Aggregated)
Baidu
CN
Yahoo
CN
Google
CN
Google
SG
Yahoo
SG
Google
HK
Google
TW
Yahoo
HK
Yahoo
TW
1 wikipedia.org 67.76 0.99 318.95 344.78 325.16 702.52 678.75 1005.58 958.46
4 yahoo.com 1.95 1.54 6.35 6.67 35.76 25.88 33.98 185.31 216.68
8 youtube.com 0.29 0.00 13.72 14.82 3.69 82.43 85.12 62.39 13.41
9 edu.tw 1.88 0.58 5.62 6.48 16.24 15.80 66.77 33.78 82.53
13 facebook.com 0.29 0.00 3.57 3.75 10.02 12.45 29.03 94.65 39.65
18 epochtimes.com 0.00 0.00 2.10 2.68 2.61 25.42 31.23 38.28 29.42
21 gov.tw 0.19 0.25 6.83 6.55 5.30 10.07 35.11 11.19 35.77
… and other 28 websites (The total number for this category of websites is 35)
6 mbalib.com 15.64 21.98 53.89 54.57 39.31 72.43 72.19 54.17 64.74
10 people.com.cn 13.58 37.05 26.66 27.35 12.42 23.15 27.82 17.43 21.28
12 ifeng.com 23.62 31.41 36.02 36.94 15.38 21.93 23.36 7.10 5.89
… and other 13 websites (The total number for this category of websites is 16)
2 baidu.com 1156.63 552.07 528.29 540.60 658.81 170.50 124.03 48.38 7.74
3 hudong.com 14.15 95.90 102.50 107.28 252.70 68.80 62.70 3.84 0.02
5 sina.com.cn 49.75 79.62 91.45 91.90 76.43 48.82 44.25 6.31 3.04
7 qq.com 46.50 86.54 46.66 45.84 24.62 14.44 12.33 2.21 1.42
11 youku.com 44.15 75.23 23.77 16.23 25.17 8.37 7.36 1.66 1.02
14 soso.com 17.73 23.85 9.30 8.28 123.12 1.02 1.33 0.89 0.06
15 xinhuanet.com 16.97 17.38 28.01 27.63 12.22 37.14 38.89 1.79 0.39
16 sohu.com 21.02 40.94 34.44 30.22 21.92 10.35 6.84 3.23 1.18
17 163.com 19.65 38.44 37.56 35.58 14.74 10.59 8.29 2.30 1.09
19 douban.com 19.22 24.33 21.81 21.29 10.25 9.82 8.10 1.00 0.97
… and other 39 websites (The total number for this category of websites is 49)
进一步地,可以将表 4简化为表 5和图 4,以更为直观的方式表示搜索引擎和网站的关系结构。其中,
SEv(y)组主要由 Google 旗下 SEv 构成。其余两组差别较大,SEv(z)包含两个雅虎旗下非中国大陆区的 SEv;
SEv(x)包含两个中国大陆的 SEv。上述结果还揭示了搜索引擎和网站间的关系缺失。Baidu_CN 和 Yahoo_CN
缺失的有中文维基百科、Youtube、Facebook、台湾政府类网站和教育类网站、以及涉及一中国政府认定之
邪教的网站,它们大多数服务器架设在中国大陆以外的地区。Yahoo_HK 和 Yahoo_TW 少的是服务器架设
在中国大陆以内的网站,比如百度百科和互动百科。因此,某些网站在某些地区的搜索引擎上是无法搜索
的,只有 Sites(B)组的 16 家网站可以在全部华语地区的 SEv 搜索较可见。
表 5 区块建模结果矩阵
SEv(y)
Baidu
CN
Yahoo
CN
Google
CN
Google
SG
Yahoo
SG
Google
HK
Google
TW
Yahoo
HK
Yahoo
TW
①
… complete
⑥
… complete
②
… complete
SEv⒵SEv⒳
Sites(a)Sites(b)Sites(c)
null
null
complete
complete
complete
complete
two-mode network matrixes
SEv⒴
SEv⒵
complete
Sites(a)
SEv⒳
and other
sites
complete complete
complete
Sites(c)
and other
sites
Sites(b)
and other sites
complete
complete
complete
图 4 区块建模结果网络可视化
本研究还比较了百度百科和中文维基百科在不同环境下的能见性,如图 5所示。图中,左上角和右下
角的搜索引擎间的距离最远,中间部分的大小不一的节点表示的是前 20 名能见指数最高的网站。节点的大
小与能见指数成正比例,箭头和箭头宽度表示各个搜索引擎在该网站的能见指数中贡献比例。
中文维基百科(节点 1)作为能见指数最高的网站,与其它 5 个能见指数排名前 20 的网站形成了一个
社群,它们很大程度上被 Baidu_CN 和 Yahoo_CN 所忽视。百度百科(节点 2)作为能见指数第二高的网站,
也与其它 10 个能见指数排名前 20 的网站形成了一个社群,它们很大程度上被 Yahoo_TW 和 Yahoo_HK 所
忽视。在中部,节点 6、10 和 12 属于 Sites(b)组网站集合。进一步地,将百度百科和中文维基百科在图 5
中的 b 和 c 两个子图中加以对比。中文维基百科在 Baidu_CN 和 Yahoo_CN 上几乎是不可见的,而百度百
科在香港和台湾的雅虎搜索引擎上能见指数非常低。
Ranking
1 wikipedia.org
2 baidu.com
3 hudong.com
4 yahoo.com
5 sina.com.cn
6 mbalib.com
7 qq.com
8 youtube.com
9 edu.tw
10 people.com.cn
11 youku.com
12 ifeng.com
13 facebook.com
14 soso.com
15 xinhuanet.com
16 sohu.com
17 163.com
18 epochtimes.com
19 douban.com
(a) Network of visibility scores of the top-20 websites 20 fortunechina.com
(b) Baidu Baike's visibility network (c) Chinese Wikipedia's visibility network
图 5 百度百科和中文维基百科的能见性对比
3 讨论
上述研究发现,在中文的 SERPs 中,用户生成百科全书的能见指数相对较高,而且中文互联网中存在
明显的地理差异。研究采用的数据集基于 3000 条关键词,包含了中国的相关主题、现代流行术语、文化和
政治术语等,这些构成了相对综合全面的中文互联网研究数据集合。尽管上述发现可能不适用于其他研究
对象和研究领域,但该数据集和相关分析方法深刻揭示了中文互联网中的搜索引擎和网站间的关系结构。
显然,百度百科和中文维基百科是能见指数最高的网站。而在各个搜索引擎中都有至少一个百科全书网站
是能见的,因此任何用户都有可能点击进入百度百科或中文维基百科的相关页面。笔者认为,搜索引擎作
为广大中文互联网用户最主要的网络工具之一,用户对搜索引擎的选择在很大程度上会影响对百科全书网
站的选择。
区块建模分析表明:百度百科在 7 个搜索引擎中是较为能见的(除 Yahoo_TW 和 Yahoo_HK),而中文
维基百科也在 7 个搜索引擎中是能见的(除 Baidu_CN 和 Yahoo_CN)。所以,Baidu_CN 和 Yahoo_CN 的用
户很可能错失中文维基百科及其同类别的相关网站信息。考虑到百度百科的信息多样性和全面性目前暂时
还不如中文维基百科的这一事实,用户在使用百度搜索引擎时可能加深中国大陆内部和外部的信息鸿沟。
相反,台湾和香港地区的用户普遍使用谷歌,谷歌和维基百科为这部分用户提供来自中国大陆内部的相关
信息。因此,台湾和香港用户使用谷歌和维基百科可能在一定程度上克服信息鸿沟,获取一些来自中国大
陆内部的信息。
SERPs 有效地将网站信息推荐给用户,但不同的推荐策略会导致用户访问不同的网站信息。谷歌和中
文维基百科提供了各类中文互联网信息,在克服信息鸿沟方面作用会比较明显,而 Baidu 和 Yahoo 提供的
信息则会存在一定的局限。当然,各个搜索平台所选择的信息推荐模式有所不同,同时中文互联网世界中
各个地区的政治文化差异也依稀可见。在香港和台湾的信息鸿沟逐渐被克服的同时,中国大陆和香港的信
息鸿沟却在逐渐加深。中国大陆的互联网用户如果不使用谷歌中国,就有可能被限制在一个“大局域网”
中。相反,香港和台湾用户在使用 Google 或中文维基百科时,却在经历着“去本地化或跨地域化”现象。
值得注意的是,虽然香港在地理位置、政治体制和行政体制上更加接近中国大陆,但是香港地区的搜索引
擎的搜索结果与台湾地区的搜索引擎的搜索结果更为契合,而与中国大陆的搜索引擎相交甚少。
4 结语
本研究通过对中国大陆、新加坡、香港和台湾等四个主要的华语地区的约 3000 条中文搜索词条的研
究,证实了主流的用户生成百科全书能见指数较高,但会受到地区因素影响。基于能见指数,构造了搜索
引擎与网站间的二模网络,特别观察了百度百科和中文维基百科在中文搜索环境中的能见性,从而揭示了
整个中文搜索环境的构建方式。
当然,本研究也存在一些明显的局限性。第一,尽管搜索词条的选取较其他相关研究更为宽泛,但仍
显不足;第二,由于篇幅限制,并未详细分析不同领域的搜索词条产生的搜索结果间的差异;第三,由于
数据样本采用的是标准普通话词条,从而忽略了香港用户常用的广东话书写方式;第四,在对 SEv 的研究
中,研究仅考虑了默认设置状态下的搜索结果。在后续的研究中,笔者将进一步拓展能见指数在其它语言
系统中的应用,比如埃及地区(Egyptian)的阿拉伯语和马格里布地区(Maghrebi)的阿拉伯语。
参 考 文 献
[1] Bar-Ilan J. Web links and search engine ranking: The case of Google and the query “jew”[J]. Journal of the American Society for
Information Science and Technology, 2006, 57(12): 1581-1589.
[2] Escher T, Margetts H, Petricek V, et al. Governing from the centre? Comparing the nodality of digital governments[C]//Annual
Meeting of the American Political Science Association, 2006.
[3] Hearne R. SERP Click Through Rate of Google Search Results – AOL-data.tgz – Want to Know How Many Clicks The #1
Google Position Gets?[EB/OL]. [2006-08-12].
http://www.redcardinal.ie/search-engine-optimisation/12-08-2006/clickthrough-analysis-of-aol-datatgz/.
[4] Hotchkiss G. Chinese Eye Tracking Study: Baidu Vs Google[EB/OL]. [2007-06-15].
http://searchengineland.com/chinese-eye-tracking-study-baidu-vs-google-11477.
[5] Jiang M, Akhtar A. Peer into the black box of Chinese search engines: A comparative study of Baidu, Google, and Goso[C]//9th
Chinese Internet Research Conference, Georgetown University, Washington, D C, 2011.
[6] Jones R. 96.6% of Wikipedia Pages Rank in Google’s Top 10[EB/OL].
http://www.thegooglecache.com/white-hat-seo/966-of-wikipedia-pages-rank-in-googles-top-10/.
[7] Khanna A. Google drives traffic to Wikipedia, but half of readers look for Wikipedia content[EB/OL]. [2011-10-26].
http://blog.wikimedia.org/2011/10/26/search-and-wikipedia/.
[8] Vaughan L, Thelwall M. Search engine coverage bias: evidence and possible causes[J]. Information processing & management,
2004, 40(4): 693-707.
[9] Young R D. Top Google Ranking Captures 18.2% of Clicks[EB/OL]. [2011-08-10].
http://searchenginewatch.com/article/2100616/Top-Google-Ranking-Captures-18.2-of-Clicks-Study.
作者简介:
廖汉腾,男,牛津大学互联网研究中心博士研究生,研究方向为网络计量学、地理语言分析、中文互
联网、互联网治理丶开放资料 Email:hanteng@gmail.com。
张斌(1984-),男,武汉大学信息管理学院博士研究生,研究方向为信息系统与信息资源规划,Email:
zb0205@126.com。

More Related Content

Viewers also liked

Boys Lacrosse Practice Plans
Boys Lacrosse Practice PlansBoys Lacrosse Practice Plans
Boys Lacrosse Practice Plansjrice81
 
Invert schemes for Boys Lacrosse
Invert schemes for Boys LacrosseInvert schemes for Boys Lacrosse
Invert schemes for Boys Lacrossejrice81
 
ACL injury screening and prevention CATS meeting 2016
ACL injury screening and prevention   CATS meeting 2016ACL injury screening and prevention   CATS meeting 2016
ACL injury screening and prevention CATS meeting 2016thegraymatters
 
Series of Man-up Plays for Boys Lacrosse
Series of Man-up Plays for Boys LacrosseSeries of Man-up Plays for Boys Lacrosse
Series of Man-up Plays for Boys Lacrossejrice81
 
Girls Lacrosse Practice Plans
Girls Lacrosse Practice PlansGirls Lacrosse Practice Plans
Girls Lacrosse Practice Plansjrice81
 
Famissy_final presentation(chinese)_by Nina Wei
Famissy_final presentation(chinese)_by Nina WeiFamissy_final presentation(chinese)_by Nina Wei
Famissy_final presentation(chinese)_by Nina WeiNina (Zhuxiaona) Wei
 
Passing and Stickwork Drills for Girls Lacrosse
Passing and Stickwork Drills for Girls LacrossePassing and Stickwork Drills for Girls Lacrosse
Passing and Stickwork Drills for Girls Lacrossejrice81
 
阿里自研数据库 Ocean base实践
阿里自研数据库 Ocean base实践阿里自研数据库 Ocean base实践
阿里自研数据库 Ocean base实践wuqiuping
 
Basketball Practice Plans
Basketball Practice PlansBasketball Practice Plans
Basketball Practice Plansjrice81
 
Ball Handling Drills for Basketball
Ball Handling Drills for BasketballBall Handling Drills for Basketball
Ball Handling Drills for Basketballjrice81
 
「心」事誰人知 談心臟保健
「心」事誰人知 談心臟保健「心」事誰人知 談心臟保健
「心」事誰人知 談心臟保健smpnetwork
 
Strength & Conditioning For Basketball
Strength & Conditioning For BasketballStrength & Conditioning For Basketball
Strength & Conditioning For BasketballJeff Green
 
CKAN 技術介紹 (基礎篇)
CKAN 技術介紹 (基礎篇)CKAN 技術介紹 (基礎篇)
CKAN 技術介紹 (基礎篇)Chengjen Lee
 
三分鐘讓你輕鬆開發 iBeacon
三分鐘讓你輕鬆開發 iBeacon三分鐘讓你輕鬆開發 iBeacon
三分鐘讓你輕鬆開發 iBeaconArtribr
 
Vr ar科技於醫療產業的應用現況與未來商機
Vr ar科技於醫療產業的應用現況與未來商機Vr ar科技於醫療產業的應用現況與未來商機
Vr ar科技於醫療產業的應用現況與未來商機FAUST CHOU
 
Facebook Dynamic Product Adverts
Facebook Dynamic Product AdvertsFacebook Dynamic Product Adverts
Facebook Dynamic Product AdvertsChen Liwei
 
Full stack-development with node js
Full stack-development with node jsFull stack-development with node js
Full stack-development with node jsXuefeng Zhang
 
2016.11.10 服務禮貌帶來新商機
2016.11.10 服務禮貌帶來新商機2016.11.10 服務禮貌帶來新商機
2016.11.10 服務禮貌帶來新商機LIN JACK
 

Viewers also liked (19)

Boys Lacrosse Practice Plans
Boys Lacrosse Practice PlansBoys Lacrosse Practice Plans
Boys Lacrosse Practice Plans
 
Coach K
Coach KCoach K
Coach K
 
Invert schemes for Boys Lacrosse
Invert schemes for Boys LacrosseInvert schemes for Boys Lacrosse
Invert schemes for Boys Lacrosse
 
ACL injury screening and prevention CATS meeting 2016
ACL injury screening and prevention   CATS meeting 2016ACL injury screening and prevention   CATS meeting 2016
ACL injury screening and prevention CATS meeting 2016
 
Series of Man-up Plays for Boys Lacrosse
Series of Man-up Plays for Boys LacrosseSeries of Man-up Plays for Boys Lacrosse
Series of Man-up Plays for Boys Lacrosse
 
Girls Lacrosse Practice Plans
Girls Lacrosse Practice PlansGirls Lacrosse Practice Plans
Girls Lacrosse Practice Plans
 
Famissy_final presentation(chinese)_by Nina Wei
Famissy_final presentation(chinese)_by Nina WeiFamissy_final presentation(chinese)_by Nina Wei
Famissy_final presentation(chinese)_by Nina Wei
 
Passing and Stickwork Drills for Girls Lacrosse
Passing and Stickwork Drills for Girls LacrossePassing and Stickwork Drills for Girls Lacrosse
Passing and Stickwork Drills for Girls Lacrosse
 
阿里自研数据库 Ocean base实践
阿里自研数据库 Ocean base实践阿里自研数据库 Ocean base实践
阿里自研数据库 Ocean base实践
 
Basketball Practice Plans
Basketball Practice PlansBasketball Practice Plans
Basketball Practice Plans
 
Ball Handling Drills for Basketball
Ball Handling Drills for BasketballBall Handling Drills for Basketball
Ball Handling Drills for Basketball
 
「心」事誰人知 談心臟保健
「心」事誰人知 談心臟保健「心」事誰人知 談心臟保健
「心」事誰人知 談心臟保健
 
Strength & Conditioning For Basketball
Strength & Conditioning For BasketballStrength & Conditioning For Basketball
Strength & Conditioning For Basketball
 
CKAN 技術介紹 (基礎篇)
CKAN 技術介紹 (基礎篇)CKAN 技術介紹 (基礎篇)
CKAN 技術介紹 (基礎篇)
 
三分鐘讓你輕鬆開發 iBeacon
三分鐘讓你輕鬆開發 iBeacon三分鐘讓你輕鬆開發 iBeacon
三分鐘讓你輕鬆開發 iBeacon
 
Vr ar科技於醫療產業的應用現況與未來商機
Vr ar科技於醫療產業的應用現況與未來商機Vr ar科技於醫療產業的應用現況與未來商機
Vr ar科技於醫療產業的應用現況與未來商機
 
Facebook Dynamic Product Adverts
Facebook Dynamic Product AdvertsFacebook Dynamic Product Adverts
Facebook Dynamic Product Adverts
 
Full stack-development with node js
Full stack-development with node jsFull stack-development with node js
Full stack-development with node js
 
2016.11.10 服務禮貌帶來新商機
2016.11.10 服務禮貌帶來新商機2016.11.10 服務禮貌帶來新商機
2016.11.10 服務禮貌帶來新商機
 

Similar to 搜索引擎与网站间网络结构:基于能见指数的分析 Wuhan liao and zhang 海峡两岸

Assessment of sina weibo frank ling
Assessment of sina weibo frank lingAssessment of sina weibo frank ling
Assessment of sina weibo frank lingfrankling
 
U761 P2 T78 D7543 F1070 Dt20060913135730
U761 P2 T78 D7543 F1070 Dt20060913135730U761 P2 T78 D7543 F1070 Dt20060913135730
U761 P2 T78 D7543 F1070 Dt20060913135730vincentlong
 
資訊科技趨勢分析 網路流量分析 Web traffic analysis
資訊科技趨勢分析   網路流量分析 Web traffic analysis資訊科技趨勢分析   網路流量分析 Web traffic analysis
資訊科技趨勢分析 網路流量分析 Web traffic analysisMooi Hsieh
 
DCCI报告:互联网生态向Cowmals移动
DCCI报告:互联网生态向Cowmals移动DCCI报告:互联网生态向Cowmals移动
DCCI报告:互联网生态向Cowmals移动Tech2IPO
 
互联网生态:向COWMALS移动
互联网生态:向COWMALS移动互联网生态:向COWMALS移动
互联网生态:向COWMALS移动互联网生态
 
2008 Chinese Sns Application Development Annual Report
2008 Chinese Sns Application Development Annual Report2008 Chinese Sns Application Development Annual Report
2008 Chinese Sns Application Development Annual Reportweichengwendao
 

Similar to 搜索引擎与网站间网络结构:基于能见指数的分析 Wuhan liao and zhang 海峡两岸 (7)

Assessment of sina weibo frank ling
Assessment of sina weibo frank lingAssessment of sina weibo frank ling
Assessment of sina weibo frank ling
 
U761 P2 T78 D7543 F1070 Dt20060913135730
U761 P2 T78 D7543 F1070 Dt20060913135730U761 P2 T78 D7543 F1070 Dt20060913135730
U761 P2 T78 D7543 F1070 Dt20060913135730
 
資訊科技趨勢分析 網路流量分析 Web traffic analysis
資訊科技趨勢分析   網路流量分析 Web traffic analysis資訊科技趨勢分析   網路流量分析 Web traffic analysis
資訊科技趨勢分析 網路流量分析 Web traffic analysis
 
DCCI报告:互联网生态向Cowmals移动
DCCI报告:互联网生态向Cowmals移动DCCI报告:互联网生态向Cowmals移动
DCCI报告:互联网生态向Cowmals移动
 
互联网生态:向COWMALS移动
互联网生态:向COWMALS移动互联网生态:向COWMALS移动
互联网生态:向COWMALS移动
 
Web 2.0
Web 2.0Web 2.0
Web 2.0
 
2008 Chinese Sns Application Development Annual Report
2008 Chinese Sns Application Development Annual Report2008 Chinese Sns Application Development Annual Report
2008 Chinese Sns Application Development Annual Report
 

搜索引擎与网站间网络结构:基于能见指数的分析 Wuhan liao and zhang 海峡两岸

  • 1. 搜索引擎与网站间网络结构:基于能见指数的分析 * 廖汉腾 1 ,张斌 2 ( 1. 牛津大学 互联网研究所,英国 牛津 OX1 3JS 2. 武汉大学 信息资源研究中心,湖北 武汉 430072) 摘 要 本文提出了一种量化搜索引擎结果页面排名的方法,以较先前类似研究更为广泛的资料,揭示不同地区的本 地化中文搜索引擎搜索结果页面特征。研究结果展现了百度百科和中文维基百科搜索引擎的能见与否,在不同地区本 地化搜索引擎之明显差异。涵盖 3000 条中文搜索词条,中国大陆、新加坡、香港和台湾四个主要的华语地区的引擎 结果页面排名,本研究证实了主流的用户生成百科全书能见指数较高,并受到地区因素影响。同时,百度百科和中文 维基百科等百科全书网站也揭示了中文搜索环境的构建方式。 关键词 能见指数;搜素引擎;网站;二模网络;结构分析 中图分类号 G350 Network Structure Analysis between Search Engine and Website Based on Visibility Scores Liao Hanteng1 ,ZHANG Bin2 (1. Oxford Internet Institute, University of Oxford, Oxford OX1 3PG, United Kingdom; 2. Center for the Studies of Information Resources, Wuhan University, Wuhan 430072, China) Abstract This paper puts forward a method to quantify the rankings of search engine result page (SERP) and presents by far the most comprehensive findings on the Chinese-language SERP. The findings should answer whether and how Baidu Baike and Chinese Wikipedia are visible across different local search engine variants (SEv). The results are based on 3,000 main- ly-Chinese-language search queries across four Chinese-speaking regions (mainland China, Singapore, Hong Kong and Tai- wan) and demonstrate that major user-generated encyclopaedias are indeed among the most visible and that localization factors matter. Thus, encyclopedia websites such as Baidu Baike and Chinese Wikipedia provide leading indicators about how the Chinese-language search environment is structured. Key words visibility scores; search engine; website; 2-mode network; structure analysis * 基金项目:国家自然科学基金()。 通信作者:张斌,武汉大学信息管理学院,博士研究生,e-mail:zb0205@126.com。 使用搜索引擎已经为互联网用户最普遍行为之一。全球搜索引擎巨头 Google 在其搜索引擎结果页面 (Search engine result pages,本文以下用 SERPs 代称)中频繁突出显示维基百科(Wikipedia)的相关页面, 有助维基百科的推广;而中国最大的搜索引擎百度也同样突出显示百度百科的相关页面。这种现象被臆测 是主要的网络搜索引擎在其搜索结果中对百科内容进行了有针对性地引导。维基媒体基金会(Wikimedia Foundation)承认谷歌(Google)向维基百科引导流量(traffic),但同时也表明有半数的用户是专门搜索和 阅读维基百科的相关内容,而非由于谷歌的引导(Khanna,2011)。因此,作为用户关注和访问的主要网 站,搜索引擎和百科网站在引导用户方面具有优势。
  • 2. 目前针对搜索引擎的研究主要集中在英文语言环境。上述关于谷歌和维基百科的特有现象是否也存在 于其他搜索引擎和用户生成百科全书(user-generated encyclopaedias)当中,还缺乏深入思考。Jiang 和 Akhtar (2011)针对中国大陆的 SERPs 开展过相关研究,通过分析在中国大陆引起政治争议的 316 个互联网事件 的搜索结果发现,百度百科和中文维基百科在 SERPs 中排位较高。值得一提的是,这一研究结果仅限于中 国大陆的简体中文用户和特定的搜索词条。 而针对规模庞大的中文互联网,许多主流搜索引擎都推出了本地化的版本(local search engine variants, 本文以下用 SEv 代称),例如中国雅虎,谷歌香港和谷歌台湾版等。那么,在不考虑用户选择搜索引擎的 前提下,不同的搜索引擎能否将各个地区的用户引导到相同的网站?或者说 SERPs 是否产生分歧?基于上 述问题,本文提出了一种量化 SERPs 排名的方法,即能见指数(Visibility Scores),用以揭示当前中文搜索 引擎在搜索在线百科全书的特征;之后,基于能见指数构造了搜索引擎与网站间的二模网络,通过分析网 络结构来揭示诸如百度百科和中文维基百科等百科网站在不同地区的 SEv 中是否能见和能见方式。本文的 研究目的在于通过对搜索引擎与网站间网络结构分析,来揭示中文搜索环境的构建方式。 1 研究设计 1.1 能见指数 通常,人们会习惯性地从上往下浏览搜索结果。因此,如果一个网站在搜索结果中排名越高,它的能 见性(visibility)就越大。当然,在搜索结果中排名越高,获得的流量也会越大。能见性测试(visibility test) 是指根据不同网站在不同搜索引擎的 SERPs 中的排名所给出一个代表能见性的分数。多项市场研究 (Hotchkiss,2007)和社会科学研究(Bar-Ilan,2006;Escher 等,2006;Vaughan & Thelwall,2004)已经 结合搜索结果排名等网络计量数据测算了在线能见性的程度。 有五个在线广告平台(Chiticka,Slingshot,Optify,Enquiro 和 AOL)发布过基于网站流量数据的 SERPs 点击率(click-through rates,CTR)信息(Hearne,2006;Jones,2007;Young,2011)。利用这些数据, 能将搜索结果排名转化为流量的测量值。结合流量数据,可以得出排名第一和第二间的差异,第九和第十 间的差异,而不是假定它们产生了相同的影响(10-9=2-1)。根据五个在线广告平台所给出的数据,笔者得 出了一个函数,用以将排名转换为不同的分数值,即“能见指数”(如图 1所示)。 y = 0.2889x-1.078 R² = 0.9934 0% 10% 20% 30% 1 2 3 4 5 6 7 8 9 10 VisibilityScores:y Ranking of the Search Engine Results Page: x Unweighted: ranking does not matter Weighted: ranking matters based on CTR values Weighted: curve-fitting trendline 图 1 转换函数 转换函数 y = 0.2889x-1.078 与行业平均值非常吻合(见 R 平方值)。SERPs 中的排名 x 经过函数转换, 就得相应的能见指数 y。实际上,能见指数是一个加权机制。对加权值和未加权值进行比较,搜索结果排 序中前三名的加权值明显高于未加权值。本文通过这一方法来量化 SERPs 排名造成的差异。 需要说明的是,能见指数并不适用于全部搜索引擎或者任意用户群体。能见指数只是分析 SERPs 中的
  • 3. 相关数据,并揭示搜索排名对网站流量的影响。能见性测试是通过聚合在不同搜索引擎上的搜索结果,将 搜索排名转换为能见指数。也就是说,可以根据研究范围和研究重点选择相关搜索词条集合和搜索引擎。 本研究中的 SERPs 数据集是某些关键词在不同搜索引擎中搜索得到的结果列表,聚合之后得到不同网站的 能见指数。 1.2 中文搜索引擎 表 1列出了四个华语地区市场份额前 5 的搜索引擎,相关数据来自 StatCounter 在 2012 年 3 月的报告。 谷歌和雅虎囊括除中国大陆以外的其他华语地区市场份额前两名,百度在中国大陆市场处于领先地位。 表 1 搜索引擎市场份额前 5 名 Ranking China(CN) Singapore(SG) Hong Kong(HK) Taiwan(TW) 1 Baidu 57.98% Google 90.32% Google 67.10% Google 58.28% 2 Google 36.93% Yahoo! 7.63% Yahoo! 32.37% Yahoo! 40.60% 3 Yahoo! 2.28% Bing 1.78% Baidu 0.29% Bing 0.95% 4 Bing 2.16% Ask Jeeves 0.11% Bing 0.13% Baidu 0.08% 5 Yandex Ru 0.17% Baidu 0.10% Ask Jeeves 0.06% Ask Jeeves 0.05% 不同搜索引擎在各地市场份额数据会随时间波动。图 2是四个地区的市场份额趋势图。值得注意的是, 在谷歌将服务器从中国大陆迁至香港以后,百度在中国大陆持续保持领先地位,谷歌处于第二。2010 年和 2011 年,谷歌超越雅虎成为香港和台湾最大的搜索引擎服务商,同时在新加坡继续保持领先地位。本研究 选择了 9 个搜索引擎作为研究对象,并缩写为 Baidu_CN,Google_CN,Yahoo_CN,Google_SG,Yahoo_SG, Google_HK,Yahoo_HK,Google_TW 以及 Yahoo_TW。 China (CN) 1st Baidu Hong Kong (HK) 1st Google 2nd Google 2nd Yahoo! 3rd Yahoo! 3rd Baidu Singapore (SG) 1st Google Taiwan (TW) 1st Google 2nd Yahoo! 2nd Yahoo! 3rd Bing 3rd Bing 1st 2nd 3rd 0 20 40 60 80 2009/03 2009/09 2010/03 2010/09 2011/03 2011/09 2012/03 2012/09 2013/03 2013/09 2014/03 1st 2nd 3rd0 20 40 60 80 2009/03 2009/09 2010/03 2010/09 2011/03 2011/09 2012/03 2012/09 2013/03 2013/09 2014/03 1st 2nd 3rd0 20 40 60 80 100 2009/03 2009/09 2010/03 2010/09 2011/03 2011/09 2012/03 2012/09 2013/03 2013/09 2014/03 1st 2nd 3rd0 20 40 60 80 2009/03 2009/09 2010/03 2010/09 2011/03 2011/09 2012/03 2012/09 2013/03 2013/09 2014/03 图 2 2009-2014 年搜索引擎市场份额
  • 4. 1.3 数据收集与处理 研究选取了 3000 个与中国传统及现代文化相关的搜索词条,以搜索结果的前 10 名构成数据集。如表 2所示,这些词条包括了《中国剑桥百科全书》的 990 个条目,自 2007 年以来中国大陆、香港和台湾各地 的百度和谷歌在不同领域的前 10 大搜索词条,主要流行文化参考,名人姓名,以及一些政治文化敏感度较 高的关键词。尽管还有其他搜索词条可供选择,但上述搜索词条已包含了华语地区用户生成百科全书的主 要内容,因而是合适的。 表 2 搜索词条的来源和数量 类别 数量 中国剑桥百科全书 990 谷歌和百度前 10 大搜索词条 387 中国、香港和台湾最好的电影和流行音乐 364 和日本共享的现代观念 171 名人 476 -华人诺贝尔奖获得者 11 -中国主要的政治家 187 -中国、香港和台湾的富豪 82 -100 位中国当代知识分子 100 -主要来自台湾的叛逃者 17 -在台湾白色恐怖下的受害者 79 潜在的敏感词汇 112 -日本 AV 色情明星 48 -中国的贪腐官员 14 -被防火长城(Great Firewall)屏蔽/过滤的词 50 财富 500 强 500 合计 3000 之后,研究根据各个地区的语言习惯,将 3000 个关键词进行处理,并构造相应的搜索式,其中中国 大陆和新加坡为简体中文,香港和台湾为繁体中文。基于以上搜索式,收集 SERPs 数据进行能见性测试, 为排名较高的网站赋予较大的能见指数。研究从全部 SERPs 数据中提取出约 270000 个网络链接,并将指 向相同网站的网络链接进行聚合,比如 money.sohu.com 和 women.sohu.com 聚合为 sohu.com。所有教育网 站和政府网站根据顶级域名进行聚合,比如 edu.tw,edu.cn,gov.cn 和 gov.hk。 2 分析与结果 2.1 能见指数列表 在 SERPs 中,百度百科和中文维基百科,以及其它一些网站,都有着各自不同的表现,并反映为不同 的能见指数。图 3所示的是能见指数的集中趋势。显然,前 100 个网站的平均能见指数超过 70%,前 10 个网站的平均能见指数超过 50%。同时,能见指数的集中程度因领域而异,集中度最高的是诺贝尔奖获得 者,集中度最低的是财富 500 强企业。
  • 5. 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 0 50 100 150 Percentageoftotalscores Top n-th website Nobel Prize Winners Sensitive terms Cambridge Ency.of China Top 10 Search Terms Average Fortune 500 图 3 能见指数的集中趋势 表 3列举了能见指数排名前 5 的网站及其子网站。其中,排名前 3 的是百科全书网站。最后一列的百 分比表明,中文维基百科、百度百科和互动百科是它们旗下能见指数最高的子网站。另外,能见指数排名 第 4 的网站是雅虎,旗下子网站排名前列的有香港和台湾地区的知识问答网站、博客网站(tw.myblog);而 能见指数排名第 5 的网站是新浪网,旗下子网站排名前列的分别是博客、娱乐、新闻和财经等。能见指数 占比还可以粗略描绘出网站在 SERPs 中被点击的概率。因此,前 5 大网站将获得 43.90%的流量,而中文 维基百科和百度百科的能见性也大致相当。进一步地,还可以利用这些数据揭示出在不同的搜索引擎中哪 一个百科网站的排名更高,在此不详细展开。 表 3 能见指数排名前 5 的网站及其子网站 网站及其子网站 能见指数 占总能见指数的比例 占该网站能见指数的比例 wikipedia.org 4383.52 20.57% zh.wikipedia.org 4171.61 19.58% 95.17% zh-yue.wikipedia.org 93.14 0.44% 2.12% en.wikipedia.org 50.40 0.24% 1.15% zh-classical.wikipedia.org 37.07 0.17% 0.85% ja.wikipedia.org 31.30 0.15% 0.71% baidu.com 3513.87 16.49% baike.baidu.com 3066.32 14.39% 87.26% zhidao.baidu.com 165.84 0.78% 4.72% tieba.baidu.com 137.56 0.65% 3.91% wenku.baidu.com 74.19 0.35% 2.11% image.baidu.com 69.95 0.33% 1.99% hudong.com 707.40 3.32% www.hudong.com 693.38 3.25% 98.02% tupian.hudong.com 12.77 0.06% 1.81% so.hudong.com 0.72 0.00% 0.10% fenlei.hudong.com 0.32 0.00% 0.05% w.hudong.com 0.21 0.00% 0.03%
  • 6. yahoo.com 398.94 1.87% tw.knowledge.yahoo.com 167.03 0.78% 41.87% tw.myblog.yahoo.com 121.82 0.57% 30.54% hk.knowledge.yahoo.com 67.43 0.32% 16.90% tw.movie.yahoo.com 22.59 0.11% 5.66% tw.news.yahoo.com 20.06 0.09% 5.03% sina.com.cn 350.17 1.64% blog.sina.com.cn 154.93 0.73% 44.24% ent.sina.com.cn 69.87 0.33% 19.95% news.sina.com.cn 52.60 0.25% 15.02% finance.sina.com.cn 41.76 0.20% 11.93% data.ent.sina.com.cn 31.01 0.15% 8.86% 合计(Top-5) 8954.96 43.90% 共计(所有网站) 21306.70 100.00% 2.2 搜索引擎和网站间的网络结构识别 研究假设在 SERPs 中显示某一网站能构成一种显示或引用关系。为了揭示出“搜索引擎与网站间的结 构关系”,研究采用了基于二模网络的区块建模分析方法。利用 SERPs 数据,可以构建出由一端的搜索引 擎指向另一端的网站的有向二模网络,利用能见指数来描述搜索引擎和网站间关系的强弱大小。 对前 100 个网站进行多次区块建模分析迭代,同时将搜索引擎和网站聚合为三组,最终得到一个 3 乘 3 的区块模型,以此反映结构关系(表 4)。对于每个区块,黑色代表强连接,白色代表弱连接。区块建模 分析结果中,有 80 对数据与模型不相符合,占数据总体的 9.67%,表明本研究建立的区块模型能够揭示超 过 90%的内在关系结构。在表 4中,红线表示的是所划分的区块。左上区块和右下区块表示无连接数据, 即搜索引擎在其搜索结果中几乎不显示该网站页面。余下 7 个区块表示完全联系,即全部搜索引擎会显示 相应的网站。另外,9 个搜索引擎被划分为 3 组,从左至右数量为 2 个、5 个和 2 个。前 100 个网站也被划 分为 3 组,从上到下数量为 35 个、16 个和 49 个。
  • 7. 表 4 区块建模 Websites (Aggregated) Baidu CN Yahoo CN Google CN Google SG Yahoo SG Google HK Google TW Yahoo HK Yahoo TW 1 wikipedia.org 67.76 0.99 318.95 344.78 325.16 702.52 678.75 1005.58 958.46 4 yahoo.com 1.95 1.54 6.35 6.67 35.76 25.88 33.98 185.31 216.68 8 youtube.com 0.29 0.00 13.72 14.82 3.69 82.43 85.12 62.39 13.41 9 edu.tw 1.88 0.58 5.62 6.48 16.24 15.80 66.77 33.78 82.53 13 facebook.com 0.29 0.00 3.57 3.75 10.02 12.45 29.03 94.65 39.65 18 epochtimes.com 0.00 0.00 2.10 2.68 2.61 25.42 31.23 38.28 29.42 21 gov.tw 0.19 0.25 6.83 6.55 5.30 10.07 35.11 11.19 35.77 … and other 28 websites (The total number for this category of websites is 35) 6 mbalib.com 15.64 21.98 53.89 54.57 39.31 72.43 72.19 54.17 64.74 10 people.com.cn 13.58 37.05 26.66 27.35 12.42 23.15 27.82 17.43 21.28 12 ifeng.com 23.62 31.41 36.02 36.94 15.38 21.93 23.36 7.10 5.89 … and other 13 websites (The total number for this category of websites is 16) 2 baidu.com 1156.63 552.07 528.29 540.60 658.81 170.50 124.03 48.38 7.74 3 hudong.com 14.15 95.90 102.50 107.28 252.70 68.80 62.70 3.84 0.02 5 sina.com.cn 49.75 79.62 91.45 91.90 76.43 48.82 44.25 6.31 3.04 7 qq.com 46.50 86.54 46.66 45.84 24.62 14.44 12.33 2.21 1.42 11 youku.com 44.15 75.23 23.77 16.23 25.17 8.37 7.36 1.66 1.02 14 soso.com 17.73 23.85 9.30 8.28 123.12 1.02 1.33 0.89 0.06 15 xinhuanet.com 16.97 17.38 28.01 27.63 12.22 37.14 38.89 1.79 0.39 16 sohu.com 21.02 40.94 34.44 30.22 21.92 10.35 6.84 3.23 1.18 17 163.com 19.65 38.44 37.56 35.58 14.74 10.59 8.29 2.30 1.09 19 douban.com 19.22 24.33 21.81 21.29 10.25 9.82 8.10 1.00 0.97 … and other 39 websites (The total number for this category of websites is 49) 进一步地,可以将表 4简化为表 5和图 4,以更为直观的方式表示搜索引擎和网站的关系结构。其中, SEv(y)组主要由 Google 旗下 SEv 构成。其余两组差别较大,SEv(z)包含两个雅虎旗下非中国大陆区的 SEv; SEv(x)包含两个中国大陆的 SEv。上述结果还揭示了搜索引擎和网站间的关系缺失。Baidu_CN 和 Yahoo_CN 缺失的有中文维基百科、Youtube、Facebook、台湾政府类网站和教育类网站、以及涉及一中国政府认定之 邪教的网站,它们大多数服务器架设在中国大陆以外的地区。Yahoo_HK 和 Yahoo_TW 少的是服务器架设 在中国大陆以内的网站,比如百度百科和互动百科。因此,某些网站在某些地区的搜索引擎上是无法搜索 的,只有 Sites(B)组的 16 家网站可以在全部华语地区的 SEv 搜索较可见。
  • 8. 表 5 区块建模结果矩阵 SEv(y) Baidu CN Yahoo CN Google CN Google SG Yahoo SG Google HK Google TW Yahoo HK Yahoo TW ① … complete ⑥ … complete ② … complete SEv⒵SEv⒳ Sites(a)Sites(b)Sites(c) null null complete complete complete complete two-mode network matrixes SEv⒴ SEv⒵ complete Sites(a) SEv⒳ and other sites complete complete complete Sites(c) and other sites Sites(b) and other sites complete complete complete 图 4 区块建模结果网络可视化 本研究还比较了百度百科和中文维基百科在不同环境下的能见性,如图 5所示。图中,左上角和右下 角的搜索引擎间的距离最远,中间部分的大小不一的节点表示的是前 20 名能见指数最高的网站。节点的大
  • 9. 小与能见指数成正比例,箭头和箭头宽度表示各个搜索引擎在该网站的能见指数中贡献比例。 中文维基百科(节点 1)作为能见指数最高的网站,与其它 5 个能见指数排名前 20 的网站形成了一个 社群,它们很大程度上被 Baidu_CN 和 Yahoo_CN 所忽视。百度百科(节点 2)作为能见指数第二高的网站, 也与其它 10 个能见指数排名前 20 的网站形成了一个社群,它们很大程度上被 Yahoo_TW 和 Yahoo_HK 所 忽视。在中部,节点 6、10 和 12 属于 Sites(b)组网站集合。进一步地,将百度百科和中文维基百科在图 5 中的 b 和 c 两个子图中加以对比。中文维基百科在 Baidu_CN 和 Yahoo_CN 上几乎是不可见的,而百度百 科在香港和台湾的雅虎搜索引擎上能见指数非常低。 Ranking 1 wikipedia.org 2 baidu.com 3 hudong.com 4 yahoo.com 5 sina.com.cn 6 mbalib.com 7 qq.com 8 youtube.com 9 edu.tw 10 people.com.cn 11 youku.com 12 ifeng.com 13 facebook.com 14 soso.com 15 xinhuanet.com 16 sohu.com 17 163.com 18 epochtimes.com 19 douban.com (a) Network of visibility scores of the top-20 websites 20 fortunechina.com (b) Baidu Baike's visibility network (c) Chinese Wikipedia's visibility network 图 5 百度百科和中文维基百科的能见性对比 3 讨论 上述研究发现,在中文的 SERPs 中,用户生成百科全书的能见指数相对较高,而且中文互联网中存在 明显的地理差异。研究采用的数据集基于 3000 条关键词,包含了中国的相关主题、现代流行术语、文化和 政治术语等,这些构成了相对综合全面的中文互联网研究数据集合。尽管上述发现可能不适用于其他研究 对象和研究领域,但该数据集和相关分析方法深刻揭示了中文互联网中的搜索引擎和网站间的关系结构。
  • 10. 显然,百度百科和中文维基百科是能见指数最高的网站。而在各个搜索引擎中都有至少一个百科全书网站 是能见的,因此任何用户都有可能点击进入百度百科或中文维基百科的相关页面。笔者认为,搜索引擎作 为广大中文互联网用户最主要的网络工具之一,用户对搜索引擎的选择在很大程度上会影响对百科全书网 站的选择。 区块建模分析表明:百度百科在 7 个搜索引擎中是较为能见的(除 Yahoo_TW 和 Yahoo_HK),而中文 维基百科也在 7 个搜索引擎中是能见的(除 Baidu_CN 和 Yahoo_CN)。所以,Baidu_CN 和 Yahoo_CN 的用 户很可能错失中文维基百科及其同类别的相关网站信息。考虑到百度百科的信息多样性和全面性目前暂时 还不如中文维基百科的这一事实,用户在使用百度搜索引擎时可能加深中国大陆内部和外部的信息鸿沟。 相反,台湾和香港地区的用户普遍使用谷歌,谷歌和维基百科为这部分用户提供来自中国大陆内部的相关 信息。因此,台湾和香港用户使用谷歌和维基百科可能在一定程度上克服信息鸿沟,获取一些来自中国大 陆内部的信息。 SERPs 有效地将网站信息推荐给用户,但不同的推荐策略会导致用户访问不同的网站信息。谷歌和中 文维基百科提供了各类中文互联网信息,在克服信息鸿沟方面作用会比较明显,而 Baidu 和 Yahoo 提供的 信息则会存在一定的局限。当然,各个搜索平台所选择的信息推荐模式有所不同,同时中文互联网世界中 各个地区的政治文化差异也依稀可见。在香港和台湾的信息鸿沟逐渐被克服的同时,中国大陆和香港的信 息鸿沟却在逐渐加深。中国大陆的互联网用户如果不使用谷歌中国,就有可能被限制在一个“大局域网” 中。相反,香港和台湾用户在使用 Google 或中文维基百科时,却在经历着“去本地化或跨地域化”现象。 值得注意的是,虽然香港在地理位置、政治体制和行政体制上更加接近中国大陆,但是香港地区的搜索引 擎的搜索结果与台湾地区的搜索引擎的搜索结果更为契合,而与中国大陆的搜索引擎相交甚少。 4 结语 本研究通过对中国大陆、新加坡、香港和台湾等四个主要的华语地区的约 3000 条中文搜索词条的研 究,证实了主流的用户生成百科全书能见指数较高,但会受到地区因素影响。基于能见指数,构造了搜索 引擎与网站间的二模网络,特别观察了百度百科和中文维基百科在中文搜索环境中的能见性,从而揭示了 整个中文搜索环境的构建方式。 当然,本研究也存在一些明显的局限性。第一,尽管搜索词条的选取较其他相关研究更为宽泛,但仍 显不足;第二,由于篇幅限制,并未详细分析不同领域的搜索词条产生的搜索结果间的差异;第三,由于 数据样本采用的是标准普通话词条,从而忽略了香港用户常用的广东话书写方式;第四,在对 SEv 的研究 中,研究仅考虑了默认设置状态下的搜索结果。在后续的研究中,笔者将进一步拓展能见指数在其它语言 系统中的应用,比如埃及地区(Egyptian)的阿拉伯语和马格里布地区(Maghrebi)的阿拉伯语。 参 考 文 献 [1] Bar-Ilan J. Web links and search engine ranking: The case of Google and the query “jew”[J]. Journal of the American Society for Information Science and Technology, 2006, 57(12): 1581-1589. [2] Escher T, Margetts H, Petricek V, et al. Governing from the centre? Comparing the nodality of digital governments[C]//Annual Meeting of the American Political Science Association, 2006. [3] Hearne R. SERP Click Through Rate of Google Search Results – AOL-data.tgz – Want to Know How Many Clicks The #1 Google Position Gets?[EB/OL]. [2006-08-12]. http://www.redcardinal.ie/search-engine-optimisation/12-08-2006/clickthrough-analysis-of-aol-datatgz/. [4] Hotchkiss G. Chinese Eye Tracking Study: Baidu Vs Google[EB/OL]. [2007-06-15]. http://searchengineland.com/chinese-eye-tracking-study-baidu-vs-google-11477.
  • 11. [5] Jiang M, Akhtar A. Peer into the black box of Chinese search engines: A comparative study of Baidu, Google, and Goso[C]//9th Chinese Internet Research Conference, Georgetown University, Washington, D C, 2011. [6] Jones R. 96.6% of Wikipedia Pages Rank in Google’s Top 10[EB/OL]. http://www.thegooglecache.com/white-hat-seo/966-of-wikipedia-pages-rank-in-googles-top-10/. [7] Khanna A. Google drives traffic to Wikipedia, but half of readers look for Wikipedia content[EB/OL]. [2011-10-26]. http://blog.wikimedia.org/2011/10/26/search-and-wikipedia/. [8] Vaughan L, Thelwall M. Search engine coverage bias: evidence and possible causes[J]. Information processing & management, 2004, 40(4): 693-707. [9] Young R D. Top Google Ranking Captures 18.2% of Clicks[EB/OL]. [2011-08-10]. http://searchenginewatch.com/article/2100616/Top-Google-Ranking-Captures-18.2-of-Clicks-Study. 作者简介: 廖汉腾,男,牛津大学互联网研究中心博士研究生,研究方向为网络计量学、地理语言分析、中文互 联网、互联网治理丶开放资料 Email:hanteng@gmail.com。 张斌(1984-),男,武汉大学信息管理学院博士研究生,研究方向为信息系统与信息资源规划,Email: zb0205@126.com。