Web的图结构分析

1,471 views

Published on

计算机软件新技术国家重点实验室“青年学者论坛”学术报告 (May 11, 2012)

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,471
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
10
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Web的图结构分析

  1. 1. .nju.edu.cnWeb的图结构分析程龚,南京大学
  2. 2. ws .nju.edu.cn Web的 语义Web的 图结构分析 图结构分析Gong Cheng (程龚) gcheng@nju.edu.cn 2 of 49
  3. 3. ws .nju.edu.cn Web的 语义Web的 图结构分析 图结构分析Gong Cheng (程龚) gcheng@nju.edu.cn 3 of 49
  4. 4. 网页与超链接 ws .nju.edu.cnGong Cheng (程龚) gcheng@nju.edu.cn 4 of 49
  5. 5. Web的图结构 (Web graph) ws .nju.edu.cn 南京大学 院系 计算机科学与技术系Gong Cheng (程龚) gcheng@nju.edu.cn 5 of 49
  6. 6. 分析Web图结构的意义(1) ws .nju.edu.cn 最受关注的网页有哪些? 网页 排序Gong Cheng (程龚) gcheng@nju.edu.cn 6 of 49
  7. 7. 分析Web图结构的意义(2) ws .nju.edu.cn 只通过跟随超链接能够浏览到多少网页? 网页 抓取Gong Cheng (程龚) gcheng@nju.edu.cn 7 of 49
  8. 8. 分析Web图结构的意义(3) ws .nju.edu.cn 浏览到某个网页平均要跟随多少次超链接? 网站 设计Gong Cheng (程龚) gcheng@nju.edu.cn 8 of 49
  9. 9. 分析Web图结构的意义(n) ws .nju.edu.cn 以及,等等……Gong Cheng (程龚) gcheng@nju.edu.cn 9 of 49
  10. 10. Web图结构的采样——网页抓取 ws .nju.edu.cnGong Cheng (程龚) gcheng@nju.edu.cn 10 of 49
  11. 11. 采样质量的评价 ws .nju.edu.cn 普遍性:俗 多样性:杂 广泛性:多Gong Cheng (程龚) gcheng@nju.edu.cn 11 of 49
  12. 12. 分析指标(1)——入度 (In-degree) ws .nju.edu.cn 2 4 1 3 1 1Gong Cheng (程龚) gcheng@nju.edu.cn 12 of 49
  13. 13. 入度分布 ws .nju.edu.cn 平均入度:4.51~7 1999, @Nature 2007, @TOITGong Cheng (程龚) gcheng@nju.edu.cn 13 of 49
  14. 14. 幂率分布 (Power-law distribution) ws .nju.edu.cn f x ax log f x log x bGong Cheng (程龚) gcheng@nju.edu.cn 14 of 49
  15. 15. 无标度网络 (Scale-free network) ws .nju.edu.cn f x ax f cx a cx ac x c f x f xGong Cheng (程龚) gcheng@nju.edu.cn 15 of 49
  16. 16. 分析指标(2)——出度 (Out-degree) ws .nju.edu.cn 1 2 2 2 2 3Gong Cheng (程龚) gcheng@nju.edu.cn 16 of 49
  17. 17. 出度分布 ws .nju.edu.cn 幂率分布 幂率分布 1999, @Nature 2007, @TOITGong Cheng (程龚) gcheng@nju.edu.cn 17 of 49
  18. 18. 分析指标(3)——强连通分支 (Strongly connected component) ws .nju.edu.cnGong Cheng (程龚) gcheng@nju.edu.cn 18 of 49
  19. 19. 强连通分支的规模分布 ws .nju.edu.cn 2000, @WWWGong Cheng (程龚) gcheng@nju.edu.cn 19 of 49
  20. 20. Web的蝴蝶结结构 (Bow tie) ws .nju.edu.cn 2000, @WWWGong Cheng (程龚) gcheng@nju.edu.cn 20 of 49
  21. 21. 分析指标(4)——弱连通分支 (Weakly connected component) ws .nju.edu.cnGong Cheng (程龚) gcheng@nju.edu.cn 21 of 49
  22. 22. 弱连通分支的规模分布 ws .nju.edu.cn 2000, @WWWGong Cheng (程龚) gcheng@nju.edu.cn 22 of 49
  23. 23. 弹性 (Resilience) ws .nju.edu.cn 2000, @WWWGong Cheng (程龚) gcheng@nju.edu.cn 23 of 49
  24. 24. 分析指标(5)——距离 (Distance) ws .nju.edu.cnGong Cheng (程龚) gcheng@nju.edu.cn 24 of 49
  25. 25. 平均距离 ws .nju.edu.cn 存在路径的概率:<25% 存在路径时的平均距离 尊重边的方向:16 忽略边的方向:7 2000, @WWWGong Cheng (程龚) gcheng@nju.edu.cn 25 of 49
  26. 26. 小世界网络 (Small-world network) ws .nju.edu.cn L log NGong Cheng (程龚) gcheng@nju.edu.cn 26 of 49
  27. 27. 最大距离/直径 (Diameter) ws .nju.edu.cn SCC的直径:≥28 全图的直径:~905 2000, @WWWGong Cheng (程龚) gcheng@nju.edu.cn 27 of 49
  28. 28. 其它常用的分析指标 ws .nju.edu.cn 度相关系数 (Degree correlation) 频繁图模式 (Frequent graph patterns) 聚类系数 (Clustering coefficient) 社区结构 (Community structure) ……Gong Cheng (程龚) gcheng@nju.edu.cn 28 of 49
  29. 29. ws .nju.edu.cn Web的 语义Web的 图结构分析 图结构分析Gong Cheng (程龚) gcheng@nju.edu.cn 29 of 49
  30. 30. 语义Web ws .nju.edu.cn 隶属于 就读于 值域 值域 人 本体 定义域 定义域 学校 是一种 (模式层) 学生 院系 是一个 是一个 是一个 实例 (数据层) 隶属于 就读于 南京大学 南大计算机系 张航Gong Cheng (程龚) gcheng@nju.edu.cn 30 of 49
  31. 31. 分析对象 ws .nju.edu.cn 本体的图结构 隶属于 就读于 值域 值域 人 定义域 定义域 学校 是一种 学生 院系 实例的图结构 隶属于 就读于 南京大学 南大计算机系 张航Gong Cheng (程龚) gcheng@nju.edu.cn 31 of 49
  32. 32. 本体的图结构 ws .nju.edu.cn 隶属于 就读于 人 学校 学生 院系Gong Cheng (程龚) gcheng@nju.edu.cn 32 of 49
  33. 33. 分析指标(1)——入度 ws .nju.edu.cn 隶属于 就读于 人 学校 学生 院系Gong Cheng (程龚) gcheng@nju.edu.cn 33 of 49
  34. 34. 入度分布 ws .nju.edu.cn 平均入度:5.72 2008, @ISWCGong Cheng (程龚) gcheng@nju.edu.cn 34 of 49
  35. 35. 分析指标(2)——出度 ws .nju.edu.cn 隶属于 就读于 人 学校 学生 院系Gong Cheng (程龚) gcheng@nju.edu.cn 35 of 49
  36. 36. 出度分布 ws .nju.edu.cn 2008, @ISWCGong Cheng (程龚) gcheng@nju.edu.cn 36 of 49
  37. 37. 分析指标(3)——强连通分支 ws .nju.edu.cn 隶属于 就读于 人 学校 学生 院系Gong Cheng (程龚) gcheng@nju.edu.cn 37 of 49
  38. 38. 强连通分支的规模分布 ws .nju.edu.cn 2008, @ISWCGong Cheng (程龚) gcheng@nju.edu.cn 38 of 49
  39. 39. 分析指标(4)——弱连通分支 ws .nju.edu.cn 隶属于 就读于 人 学校 学生 院系Gong Cheng (程龚) gcheng@nju.edu.cn 39 of 49
  40. 40. 弹性 ws .nju.edu.cn 2008, @ISWCGong Cheng (程龚) gcheng@nju.edu.cn 40 of 49
  41. 41. 分析指标(5)——距离 ws .nju.edu.cn 隶属于 就读于 人 学校 学生 院系Gong Cheng (程龚) gcheng@nju.edu.cn 41 of 49
  42. 42. 平均距离 ws .nju.edu.cn 存在路径时的平均距离:10.05 2008, @ISWCGong Cheng (程龚) gcheng@nju.edu.cn 42 of 49
  43. 43. 最大距离/直径与有效直径 (Effective diameter) ws .nju.edu.cn 最大距离/直径:48 有效直径 (Effective diameter):23 2008, @ISWCGong Cheng (程龚) gcheng@nju.edu.cn 43 of 49
  44. 44. 实例的图结构 ws .nju.edu.cn 南京大学 南大计算机系 张航Gong Cheng (程龚) gcheng@nju.edu.cn 44 of 49
  45. 45. 度分布、最大连通分支与有效直径 ws .nju.edu.cn 平均度:3.44 最大连通分支:88.13% 有效直径:11.53 2010, @ESWC 南京大学 南大计算机系 张航Gong Cheng (程龚) gcheng@nju.edu.cn 45 of 49
  46. 46. Take-home messages ws .nju.edu.cnGong Cheng (程龚) gcheng@nju.edu.cn 46 of 49
  47. 47. 结论 ws .nju.edu.cn Web 语义Web 无标度网络 无标度网络 蝴蝶结结构 未知结构 高弹性 低弹性 小世界网络 小世界网络Gong Cheng (程龚) gcheng@nju.edu.cn 47 of 49
  48. 48. 图结构分析的一般步骤 ws .nju.edu.cn 采样数据——多、杂、俗 建立图模型——含义明确 选择分析指标——有实际意义 执行分析——算法高效 解释、比较分析结果 推测图的生成模型Gong Cheng (程龚) gcheng@nju.edu.cn 48 of 49
  49. 49. 相关论文 ws .nju.edu.cn Web的图结构分析 R. Albert et al. Diameter of the World-Wide Web. Nature 401 (1999) A. Broder et al. Graph structure in the Web. WWW (2000) D. Donato et al. The Web as a Graph: How Far We Are. ACM Transactions on Internet Technology 7 (2007) 语义Web的图结构分析 G. Cheng et al. Term Dependence on the Semantic Web. ISWC (2008) W. Ge et al. Object Link Structure in the Semantic Web. ESWC (2010)Gong Cheng (程龚) gcheng@nju.edu.cn 49 of 49

×