Your SlideShare is downloading. ×
0
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Web的图结构分析
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Web的图结构分析

1,156

Published on

计算机软件新技术国家重点实验室“青年学者论坛”学术报告 (May 11, 2012)

计算机软件新技术国家重点实验室“青年学者论坛”学术报告 (May 11, 2012)

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
1,156
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
7
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. .nju.edu.cnWeb的图结构分析程龚,南京大学
  • 2. ws .nju.edu.cn Web的 语义Web的 图结构分析 图结构分析Gong Cheng (程龚) gcheng@nju.edu.cn 2 of 49
  • 3. ws .nju.edu.cn Web的 语义Web的 图结构分析 图结构分析Gong Cheng (程龚) gcheng@nju.edu.cn 3 of 49
  • 4. 网页与超链接 ws .nju.edu.cnGong Cheng (程龚) gcheng@nju.edu.cn 4 of 49
  • 5. Web的图结构 (Web graph) ws .nju.edu.cn 南京大学 院系 计算机科学与技术系Gong Cheng (程龚) gcheng@nju.edu.cn 5 of 49
  • 6. 分析Web图结构的意义(1) ws .nju.edu.cn 最受关注的网页有哪些? 网页 排序Gong Cheng (程龚) gcheng@nju.edu.cn 6 of 49
  • 7. 分析Web图结构的意义(2) ws .nju.edu.cn 只通过跟随超链接能够浏览到多少网页? 网页 抓取Gong Cheng (程龚) gcheng@nju.edu.cn 7 of 49
  • 8. 分析Web图结构的意义(3) ws .nju.edu.cn 浏览到某个网页平均要跟随多少次超链接? 网站 设计Gong Cheng (程龚) gcheng@nju.edu.cn 8 of 49
  • 9. 分析Web图结构的意义(n) ws .nju.edu.cn 以及,等等……Gong Cheng (程龚) gcheng@nju.edu.cn 9 of 49
  • 10. Web图结构的采样——网页抓取 ws .nju.edu.cnGong Cheng (程龚) gcheng@nju.edu.cn 10 of 49
  • 11. 采样质量的评价 ws .nju.edu.cn 普遍性:俗 多样性:杂 广泛性:多Gong Cheng (程龚) gcheng@nju.edu.cn 11 of 49
  • 12. 分析指标(1)——入度 (In-degree) ws .nju.edu.cn 2 4 1 3 1 1Gong Cheng (程龚) gcheng@nju.edu.cn 12 of 49
  • 13. 入度分布 ws .nju.edu.cn 平均入度:4.51~7 1999, @Nature 2007, @TOITGong Cheng (程龚) gcheng@nju.edu.cn 13 of 49
  • 14. 幂率分布 (Power-law distribution) ws .nju.edu.cn f x ax log f x log x bGong Cheng (程龚) gcheng@nju.edu.cn 14 of 49
  • 15. 无标度网络 (Scale-free network) ws .nju.edu.cn f x ax f cx a cx ac x c f x f xGong Cheng (程龚) gcheng@nju.edu.cn 15 of 49
  • 16. 分析指标(2)——出度 (Out-degree) ws .nju.edu.cn 1 2 2 2 2 3Gong Cheng (程龚) gcheng@nju.edu.cn 16 of 49
  • 17. 出度分布 ws .nju.edu.cn 幂率分布 幂率分布 1999, @Nature 2007, @TOITGong Cheng (程龚) gcheng@nju.edu.cn 17 of 49
  • 18. 分析指标(3)——强连通分支 (Strongly connected component) ws .nju.edu.cnGong Cheng (程龚) gcheng@nju.edu.cn 18 of 49
  • 19. 强连通分支的规模分布 ws .nju.edu.cn 2000, @WWWGong Cheng (程龚) gcheng@nju.edu.cn 19 of 49
  • 20. Web的蝴蝶结结构 (Bow tie) ws .nju.edu.cn 2000, @WWWGong Cheng (程龚) gcheng@nju.edu.cn 20 of 49
  • 21. 分析指标(4)——弱连通分支 (Weakly connected component) ws .nju.edu.cnGong Cheng (程龚) gcheng@nju.edu.cn 21 of 49
  • 22. 弱连通分支的规模分布 ws .nju.edu.cn 2000, @WWWGong Cheng (程龚) gcheng@nju.edu.cn 22 of 49
  • 23. 弹性 (Resilience) ws .nju.edu.cn 2000, @WWWGong Cheng (程龚) gcheng@nju.edu.cn 23 of 49
  • 24. 分析指标(5)——距离 (Distance) ws .nju.edu.cnGong Cheng (程龚) gcheng@nju.edu.cn 24 of 49
  • 25. 平均距离 ws .nju.edu.cn 存在路径的概率:<25% 存在路径时的平均距离 尊重边的方向:16 忽略边的方向:7 2000, @WWWGong Cheng (程龚) gcheng@nju.edu.cn 25 of 49
  • 26. 小世界网络 (Small-world network) ws .nju.edu.cn L log NGong Cheng (程龚) gcheng@nju.edu.cn 26 of 49
  • 27. 最大距离/直径 (Diameter) ws .nju.edu.cn SCC的直径:≥28 全图的直径:~905 2000, @WWWGong Cheng (程龚) gcheng@nju.edu.cn 27 of 49
  • 28. 其它常用的分析指标 ws .nju.edu.cn 度相关系数 (Degree correlation) 频繁图模式 (Frequent graph patterns) 聚类系数 (Clustering coefficient) 社区结构 (Community structure) ……Gong Cheng (程龚) gcheng@nju.edu.cn 28 of 49
  • 29. ws .nju.edu.cn Web的 语义Web的 图结构分析 图结构分析Gong Cheng (程龚) gcheng@nju.edu.cn 29 of 49
  • 30. 语义Web ws .nju.edu.cn 隶属于 就读于 值域 值域 人 本体 定义域 定义域 学校 是一种 (模式层) 学生 院系 是一个 是一个 是一个 实例 (数据层) 隶属于 就读于 南京大学 南大计算机系 张航Gong Cheng (程龚) gcheng@nju.edu.cn 30 of 49
  • 31. 分析对象 ws .nju.edu.cn 本体的图结构 隶属于 就读于 值域 值域 人 定义域 定义域 学校 是一种 学生 院系 实例的图结构 隶属于 就读于 南京大学 南大计算机系 张航Gong Cheng (程龚) gcheng@nju.edu.cn 31 of 49
  • 32. 本体的图结构 ws .nju.edu.cn 隶属于 就读于 人 学校 学生 院系Gong Cheng (程龚) gcheng@nju.edu.cn 32 of 49
  • 33. 分析指标(1)——入度 ws .nju.edu.cn 隶属于 就读于 人 学校 学生 院系Gong Cheng (程龚) gcheng@nju.edu.cn 33 of 49
  • 34. 入度分布 ws .nju.edu.cn 平均入度:5.72 2008, @ISWCGong Cheng (程龚) gcheng@nju.edu.cn 34 of 49
  • 35. 分析指标(2)——出度 ws .nju.edu.cn 隶属于 就读于 人 学校 学生 院系Gong Cheng (程龚) gcheng@nju.edu.cn 35 of 49
  • 36. 出度分布 ws .nju.edu.cn 2008, @ISWCGong Cheng (程龚) gcheng@nju.edu.cn 36 of 49
  • 37. 分析指标(3)——强连通分支 ws .nju.edu.cn 隶属于 就读于 人 学校 学生 院系Gong Cheng (程龚) gcheng@nju.edu.cn 37 of 49
  • 38. 强连通分支的规模分布 ws .nju.edu.cn 2008, @ISWCGong Cheng (程龚) gcheng@nju.edu.cn 38 of 49
  • 39. 分析指标(4)——弱连通分支 ws .nju.edu.cn 隶属于 就读于 人 学校 学生 院系Gong Cheng (程龚) gcheng@nju.edu.cn 39 of 49
  • 40. 弹性 ws .nju.edu.cn 2008, @ISWCGong Cheng (程龚) gcheng@nju.edu.cn 40 of 49
  • 41. 分析指标(5)——距离 ws .nju.edu.cn 隶属于 就读于 人 学校 学生 院系Gong Cheng (程龚) gcheng@nju.edu.cn 41 of 49
  • 42. 平均距离 ws .nju.edu.cn 存在路径时的平均距离:10.05 2008, @ISWCGong Cheng (程龚) gcheng@nju.edu.cn 42 of 49
  • 43. 最大距离/直径与有效直径 (Effective diameter) ws .nju.edu.cn 最大距离/直径:48 有效直径 (Effective diameter):23 2008, @ISWCGong Cheng (程龚) gcheng@nju.edu.cn 43 of 49
  • 44. 实例的图结构 ws .nju.edu.cn 南京大学 南大计算机系 张航Gong Cheng (程龚) gcheng@nju.edu.cn 44 of 49
  • 45. 度分布、最大连通分支与有效直径 ws .nju.edu.cn 平均度:3.44 最大连通分支:88.13% 有效直径:11.53 2010, @ESWC 南京大学 南大计算机系 张航Gong Cheng (程龚) gcheng@nju.edu.cn 45 of 49
  • 46. Take-home messages ws .nju.edu.cnGong Cheng (程龚) gcheng@nju.edu.cn 46 of 49
  • 47. 结论 ws .nju.edu.cn Web 语义Web 无标度网络 无标度网络 蝴蝶结结构 未知结构 高弹性 低弹性 小世界网络 小世界网络Gong Cheng (程龚) gcheng@nju.edu.cn 47 of 49
  • 48. 图结构分析的一般步骤 ws .nju.edu.cn 采样数据——多、杂、俗 建立图模型——含义明确 选择分析指标——有实际意义 执行分析——算法高效 解释、比较分析结果 推测图的生成模型Gong Cheng (程龚) gcheng@nju.edu.cn 48 of 49
  • 49. 相关论文 ws .nju.edu.cn Web的图结构分析 R. Albert et al. Diameter of the World-Wide Web. Nature 401 (1999) A. Broder et al. Graph structure in the Web. WWW (2000) D. Donato et al. The Web as a Graph: How Far We Are. ACM Transactions on Internet Technology 7 (2007) 语义Web的图结构分析 G. Cheng et al. Term Dependence on the Semantic Web. ISWC (2008) W. Ge et al. Object Link Structure in the Semantic Web. ESWC (2010)Gong Cheng (程龚) gcheng@nju.edu.cn 49 of 49

×