• Like
钱卫宁:在线社交媒体分析型查询基准评测初探
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

钱卫宁:在线社交媒体分析型查询基准评测初探

  • 549 views
Published

BDTC 2013 Beijing China

BDTC 2013 Beijing China

Published in Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
549
On SlideShare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
1
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. 在线社交媒体分析型查询基准评测初探 Towards Benchmarking Online Social Media Analytical Queries 钱卫宁(QIAN, Weining) 华东师范大学 (East China Normal University) 云计算与大数据研究中心(C3BD)
  • 2. 提纲 • 社交媒体与分析型查询处理 • BSMA – 数据集与数据生成器 – 负载 – 度量 • 部分评测结果 • 社交媒体上的分析型查询处理挑战 2013-12-10 BDTC 2013, Beijing 2
  • 3. 社交媒体 感知世界的一种重要媒介 2013-12-10 BDTC 2013, Beijing 3
  • 4. 社交媒体 2013-12-10 BDTC 2013, Beijing 4
  • 5. 社交媒体数据分析 http://database.ecnu.edu.cn/microblogcube/ 2013-12-10 BDTC 2013, Beijing 5
  • 6. 社交媒体上的分析型查询 • 社交网络与传播网络特征分析 – 图模式匹配 • 热点分析 – 图和内容的统计 • 时序、地域分析 – 时空查询 在舆情监控与分析、社交广告、新型客户关 系管理中有着广泛的应用 2013-12-10 BDTC 2013, Beijing 6
  • 7. 为何需要基准评测? • • • • • 了解系统的优缺点 促进研究与技术进步 科学地研究技术的性能 跟踪相关领域的发展 使得竞争性的系统具有可比性 2013-12-10 BDTC 2013, Beijing 7
  • 8. 数据库性能基准评测的意义 • 现代数据库系统的强大功能得益于上世纪 数据库基准发展过程中对性能问题各个击 破的解决办法 Jim Gray. Thousands of DebitCredit Transactions-Per-Second: Easy and Inexpensive. 2005 2013-12-10 BDTC 2013, Beijing 8
  • 9. 为何需要社交媒体分析型查询 基准评测? • 必要性:存在大量海量社交媒体数据上的 共性分析型任务 • 不可替代性:新型的数据与负载 – 社交网络+内容+时序 – 幂率分布无处不在:查询代价估计困难 • “One size fits a bunch” – 实现多样:SQL vs. NOSQL vs. NewSQL 2013-12-10 BDTC 2013, Beijing 9
  • 10. 提纲 • 社交媒体与分析型查询处理 • BSMA – 数据集与数据生成器 – 负载 – 度量 • 部分评测结果 • 社交媒体上的分析型查询处理挑战 2013-12-10 BDTC 2013, Beijing 10
  • 11. BSMA Benchmark for Social Media Analytical query processing BSMA性能测试工具 (基于YCSB) 查询/负载 (可扩展) 真实数据集 (从新浪微博爬取) 2013-12-10 BDTC 2013, Beijing 数据生成器 11
  • 12. BSMA:数据 • 采用关系模型描述 – 语义明确 • 允许非关系实现 – 通过查询wrapper实现 • 基于真实数据 • 提供可配置的数据生 成器 2013-12-10 BDTC 2013, Beijing 12
  • 13. 数据模式 2013-12-10 BDTC 2013, Beijing 13
  • 14. 真实数据获取 Haixin Ma, Weining Qian, Fan Xia, Xiaofeng He, Jun Xu, Aoying Zhou: Towards modeling popularity of microblogs. Frontiers of Computer Science 7(2): 171-184 (2013) 2013-12-10 BDTC 2013, Beijing 14
  • 15. 真实数据 • 关注网络 – – – – – 种子用户:11位律师/意见领袖和21位学者/工程师 第2层用户:120,000+用户 第3层用户:160+万用户 第4层用户:1800+万用户(不完整) 超过10亿个关注关系 • 前3层用户的微博 – 从2009年8月至2012年6月 – 超过4.8亿条微博 2013-12-10 BDTC 2013, Beijing 15
  • 16. 真实数据的后处理 • 后处理目的:避免隐私和版权的问题 • 后处理操作: 1.匿名化 2.转发链恢复(尽力而为) 3.去内容(出于匿名化目的) • 保留部分热点事件标签 2013-12-10 BDTC 2013, Beijing 16
  • 17. 数据生成器 2013-12-10 BDTC 2013, Beijing 17
  • 18. 较准确地模拟真实数据 时间线的分布 2013-12-10 BDTC 2013, Beijing 18
  • 19. 较准确地模拟真实数据 传播网络特征 2013-12-10 BDTC 2013, Beijing 19
  • 20. 较准确地模拟真实数据 用户行为特征 2013-12-10 BDTC 2013, Beijing 20
  • 21. BSMA Benchmark for Social Media Analytical query processing BSMA性能测试工具 (基于YCSB) 查询/负载 (可扩展) 真实数据集 (从新浪微博爬取) 2013-12-10 BDTC 2013, Beijing 数据生成器 21
  • 22. BSMA:负载 19类查询 • 社交网络查询 – 如:列出用户A和B的公共“粉丝” • 热点查询 – 热点可以是:用户、微博、话题,... – 如:列出转发次数最多的微博 • 时间线查询 – 如:列出A的关注者最近的10条微博 2013-12-10 BDTC 2013, Beijing 22
  • 23. 查询示例(Q12) "Rank the tweets appearing in A's followees’ timelines according to the number of retweets." ⨝ ⨝ ⨝ 2013-12-10 BDTC 2013, Beijing 23
  • 24. BSMA Benchmark for Social Media Analytical query processing BSMA性能测试工具 (基于YCSB) 查询/负载 (可扩展) 真实数据集 (从新浪微博爬取) 2013-12-10 BDTC 2013, Beijing 数据生成器 24
  • 25. BSMA性能测试工具(基于YCSB) • YCSB: Yahoo Cloud Service Benchmark – http://wiki.github.com/brianfrankcooper/YCSB/ • BSMA的修改 – 查询参数(随机)生成 • 用户ID、top-k、时间窗口等 – 查询wrappers • 面向不同实现 – https://github.com/c3bd/BSMA 2013-12-10 BDTC 2013, Beijing 25
  • 26. 度量 • 吞吐量 – 在不同线程数设定下的最高吞吐量 • 延时 – 在第二高吞吐量设定下的系统(平均)延时 • 可伸缩性 – 吞吐量/延时曲线的斜率 2013-12-10 BDTC 2013, Beijing 26
  • 27. 提纲 • 社交媒体与分析型查询处理 • BSMA – 数据集与数据生成器 – 负载 – 度量 • 部分评测结果 • 社交媒体上的分析型查询处理挑战 2013-12-10 BDTC 2013, Beijing 27
  • 28. WISE 2012 Challenge Performance Track • BSMA的早期版本作为WISE 2012 Challenge Performance Track公开 – http://www.wise2012.cs.ucy.ac.cy/challenge.html – https://wnqian.wordpress.com/research/wise2012challenge/ • 四组参赛者 – 专用内存系统 – 采用二级索引的HBase系统 – 经过优化的基于SQLLite的系统 – 基于B+-树,针对不同查询分别优化的系统 2013-12-10 BDTC 2013, Beijing 28
  • 29. 部分评测结果 2013-12-10 "Find the set of people who share the same followee with the specified user." BDTC 2013, Beijing 29
  • 30. 提纲 • 社交媒体与分析型查询处理 • BSMA – 数据集与数据生成器 – 负载 – 度量 • 部分评测结果 • 社交媒体上的分析型查询处理挑战 2013-12-10 BDTC 2013, Beijing 30
  • 31. 社交媒体上的分析型查询处理挑战 • 社交网络查询 – 大表连接 – 耗时、耗内存 • 数据分布偏斜 – 幂率分布 – 不同参数造成截然不同的 查询性能 • 时间线查询 – 保持结果的时序 – 中间结果与最终结果排序 2013-12-10 BDTC 2013, Beijing 31
  • 32. 其它相关评测 • LinkBench:社交网络上的事务处理评测 – https://github.com/facebook/linkbench • LDBC:Linked Data Benchmark Council – EU-FP7项目:http://ldbc.eu/ – SNB: Social Network Benchmark – SPB: Semantic Publishing Benchmark 2013-12-10 BDTC 2013, Beijing 32
  • 33. 后续工作 • 添加数据(数据生成器)的语义 – 更多的事件/语义标签 – (模拟)内容产生 • 更多样的负载 – 幂率分布中代表性点的取样 – 社交网络查询、热点查询、时间线查询的结合 – 流式负载和相应的新的性能度量 • 针对不同负载采用不同性能度量 • 更多系统的评测 2013-12-10 BDTC 2013, Beijing 33
  • 34. 小结 • BSMA:社交媒体上分析型查询性能评测的初步尝试 – 数据: • https://wnqian.wordpress.com/research/wise2012challenge/ – 数据生成器与性能测试工具: • https://github.com/c3bd/BSMA • 后续工作 – 更真实与有代表性的场景模拟 – 更细致的性能测试与分析 2013-12-10 BDTC 2013, Beijing 34
  • 35. 2013-12-10 BDTC 2013, Beijing 35