在线社交媒体分析型查询基准评测初探
Towards Benchmarking Online Social Media
Analytical Queries
钱卫宁(QIAN, Weining)
华东师范大学 (East China Normal...
提纲
• 社交媒体与分析型查询处理
• BSMA
– 数据集与数据生成器
– 负载
– 度量

• 部分评测结果
• 社交媒体上的分析型查询处理挑战

2013-12-10

BDTC 2013, Beijing

2
社交媒体

感知世界的一种重要媒介
2013-12-10

BDTC 2013, Beijing

3
社交媒体

2013-12-10

BDTC 2013, Beijing

4
社交媒体数据分析

http://database.ecnu.edu.cn/microblogcube/
2013-12-10

BDTC 2013, Beijing

5
社交媒体上的分析型查询
• 社交网络与传播网络特征分析
– 图模式匹配

• 热点分析
– 图和内容的统计

• 时序、地域分析
– 时空查询

在舆情监控与分析、社交广告、新型客户关
系管理中有着广泛的应用
2013-12-10

BDTC ...
为何需要基准评测?
•
•
•
•
•

了解系统的优缺点
促进研究与技术进步
科学地研究技术的性能
跟踪相关领域的发展
使得竞争性的系统具有可比性

2013-12-10

BDTC 2013, Beijing

7
数据库性能基准评测的意义
• 现代数据库系统的强大功能得益于上世纪
数据库基准发展过程中对性能问题各个击
破的解决办法
Jim Gray. Thousands of DebitCredit
Transactions-Per-Second:
Ea...
为何需要社交媒体分析型查询
基准评测?
• 必要性:存在大量海量社交媒体数据上的
共性分析型任务
• 不可替代性:新型的数据与负载
– 社交网络+内容+时序
– 幂率分布无处不在:查询代价估计困难

• “One size fits a bun...
提纲
• 社交媒体与分析型查询处理
• BSMA
– 数据集与数据生成器
– 负载
– 度量

• 部分评测结果
• 社交媒体上的分析型查询处理挑战

2013-12-10

BDTC 2013, Beijing

10
BSMA

Benchmark for Social Media Analytical
query processing
BSMA性能测试工具 (基于YCSB)
查询/负载 (可扩展)
真实数据集
(从新浪微博爬取)

2013-12-10

...
BSMA:数据
• 采用关系模型描述
– 语义明确

• 允许非关系实现
– 通过查询wrapper实现

• 基于真实数据
• 提供可配置的数据生
成器

2013-12-10

BDTC 2013, Beijing

12
数据模式

2013-12-10

BDTC 2013, Beijing

13
真实数据获取

Haixin Ma, Weining Qian, Fan Xia, Xiaofeng He, Jun Xu, Aoying Zhou:
Towards modeling popularity of microblogs.
Fro...
真实数据
• 关注网络
–
–
–
–
–

种子用户:11位律师/意见领袖和21位学者/工程师
第2层用户:120,000+用户
第3层用户:160+万用户
第4层用户:1800+万用户(不完整)
超过10亿个关注关系

• 前3层用户的微博...
真实数据的后处理
• 后处理目的:避免隐私和版权的问题
• 后处理操作:
1.匿名化
2.转发链恢复(尽力而为)
3.去内容(出于匿名化目的)

• 保留部分热点事件标签

2013-12-10

BDTC 2013, Beijing

16
数据生成器

2013-12-10

BDTC 2013, Beijing

17
较准确地模拟真实数据

时间线的分布
2013-12-10

BDTC 2013, Beijing

18
较准确地模拟真实数据

传播网络特征
2013-12-10

BDTC 2013, Beijing

19
较准确地模拟真实数据

用户行为特征
2013-12-10

BDTC 2013, Beijing

20
BSMA

Benchmark for Social Media Analytical
query processing
BSMA性能测试工具 (基于YCSB)
查询/负载 (可扩展)
真实数据集
(从新浪微博爬取)

2013-12-10

...
BSMA:负载
19类查询
• 社交网络查询

– 如:列出用户A和B的公共“粉丝”

• 热点查询

– 热点可以是:用户、微博、话题,...
– 如:列出转发次数最多的微博

• 时间线查询

– 如:列出A的关注者最近的10条微博

20...
查询示例(Q12)

"Rank the tweets appearing in A's followees’
timelines according to the number of retweets."

⨝
⨝
⨝

2013-12-10...
BSMA

Benchmark for Social Media Analytical
query processing
BSMA性能测试工具 (基于YCSB)
查询/负载 (可扩展)
真实数据集
(从新浪微博爬取)

2013-12-10

...
BSMA性能测试工具(基于YCSB)
• YCSB: Yahoo Cloud Service Benchmark

– http://wiki.github.com/brianfrankcooper/YCSB/

• BSMA的修改

– 查询...
度量
• 吞吐量
– 在不同线程数设定下的最高吞吐量

• 延时
– 在第二高吞吐量设定下的系统(平均)延时

• 可伸缩性
– 吞吐量/延时曲线的斜率

2013-12-10

BDTC 2013, Beijing

26
提纲
• 社交媒体与分析型查询处理
• BSMA
– 数据集与数据生成器
– 负载
– 度量

• 部分评测结果
• 社交媒体上的分析型查询处理挑战
2013-12-10

BDTC 2013, Beijing

27
WISE 2012 Challenge
Performance Track

• BSMA的早期版本作为WISE 2012 Challenge
Performance Track公开
– http://www.wise2012.cs.ucy.a...
部分评测结果

2013-12-10

"Find the set of people who share the
same followee with the specified user."

BDTC 2013, Beijing

29
提纲
• 社交媒体与分析型查询处理
• BSMA
– 数据集与数据生成器
– 负载
– 度量

• 部分评测结果
• 社交媒体上的分析型查询处理挑战
2013-12-10

BDTC 2013, Beijing

30
社交媒体上的分析型查询处理挑战
• 社交网络查询
– 大表连接
– 耗时、耗内存

• 数据分布偏斜
– 幂率分布
– 不同参数造成截然不同的
查询性能

• 时间线查询
– 保持结果的时序
– 中间结果与最终结果排序

2013-12-10
...
其它相关评测
• LinkBench:社交网络上的事务处理评测
– https://github.com/facebook/linkbench

• LDBC:Linked Data Benchmark Council
– EU-FP7项目:h...
后续工作
• 添加数据(数据生成器)的语义
– 更多的事件/语义标签
– (模拟)内容产生

• 更多样的负载
– 幂率分布中代表性点的取样
– 社交网络查询、热点查询、时间线查询的结合
– 流式负载和相应的新的性能度量

• 针对不同负载采用...
小结
• BSMA:社交媒体上分析型查询性能评测的初步尝试
– 数据:
• https://wnqian.wordpress.com/research/wise2012challenge/

– 数据生成器与性能测试工具:
• https://...
2013-12-10

BDTC 2013, Beijing

35
Upcoming SlideShare
Loading in...5
×

钱卫宁:在线社交媒体分析型查询基准评测初探

584

Published on

BDTC 2013 Beijing China

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
584
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
2
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

钱卫宁:在线社交媒体分析型查询基准评测初探

  1. 1. 在线社交媒体分析型查询基准评测初探 Towards Benchmarking Online Social Media Analytical Queries 钱卫宁(QIAN, Weining) 华东师范大学 (East China Normal University) 云计算与大数据研究中心(C3BD)
  2. 2. 提纲 • 社交媒体与分析型查询处理 • BSMA – 数据集与数据生成器 – 负载 – 度量 • 部分评测结果 • 社交媒体上的分析型查询处理挑战 2013-12-10 BDTC 2013, Beijing 2
  3. 3. 社交媒体 感知世界的一种重要媒介 2013-12-10 BDTC 2013, Beijing 3
  4. 4. 社交媒体 2013-12-10 BDTC 2013, Beijing 4
  5. 5. 社交媒体数据分析 http://database.ecnu.edu.cn/microblogcube/ 2013-12-10 BDTC 2013, Beijing 5
  6. 6. 社交媒体上的分析型查询 • 社交网络与传播网络特征分析 – 图模式匹配 • 热点分析 – 图和内容的统计 • 时序、地域分析 – 时空查询 在舆情监控与分析、社交广告、新型客户关 系管理中有着广泛的应用 2013-12-10 BDTC 2013, Beijing 6
  7. 7. 为何需要基准评测? • • • • • 了解系统的优缺点 促进研究与技术进步 科学地研究技术的性能 跟踪相关领域的发展 使得竞争性的系统具有可比性 2013-12-10 BDTC 2013, Beijing 7
  8. 8. 数据库性能基准评测的意义 • 现代数据库系统的强大功能得益于上世纪 数据库基准发展过程中对性能问题各个击 破的解决办法 Jim Gray. Thousands of DebitCredit Transactions-Per-Second: Easy and Inexpensive. 2005 2013-12-10 BDTC 2013, Beijing 8
  9. 9. 为何需要社交媒体分析型查询 基准评测? • 必要性:存在大量海量社交媒体数据上的 共性分析型任务 • 不可替代性:新型的数据与负载 – 社交网络+内容+时序 – 幂率分布无处不在:查询代价估计困难 • “One size fits a bunch” – 实现多样:SQL vs. NOSQL vs. NewSQL 2013-12-10 BDTC 2013, Beijing 9
  10. 10. 提纲 • 社交媒体与分析型查询处理 • BSMA – 数据集与数据生成器 – 负载 – 度量 • 部分评测结果 • 社交媒体上的分析型查询处理挑战 2013-12-10 BDTC 2013, Beijing 10
  11. 11. BSMA Benchmark for Social Media Analytical query processing BSMA性能测试工具 (基于YCSB) 查询/负载 (可扩展) 真实数据集 (从新浪微博爬取) 2013-12-10 BDTC 2013, Beijing 数据生成器 11
  12. 12. BSMA:数据 • 采用关系模型描述 – 语义明确 • 允许非关系实现 – 通过查询wrapper实现 • 基于真实数据 • 提供可配置的数据生 成器 2013-12-10 BDTC 2013, Beijing 12
  13. 13. 数据模式 2013-12-10 BDTC 2013, Beijing 13
  14. 14. 真实数据获取 Haixin Ma, Weining Qian, Fan Xia, Xiaofeng He, Jun Xu, Aoying Zhou: Towards modeling popularity of microblogs. Frontiers of Computer Science 7(2): 171-184 (2013) 2013-12-10 BDTC 2013, Beijing 14
  15. 15. 真实数据 • 关注网络 – – – – – 种子用户:11位律师/意见领袖和21位学者/工程师 第2层用户:120,000+用户 第3层用户:160+万用户 第4层用户:1800+万用户(不完整) 超过10亿个关注关系 • 前3层用户的微博 – 从2009年8月至2012年6月 – 超过4.8亿条微博 2013-12-10 BDTC 2013, Beijing 15
  16. 16. 真实数据的后处理 • 后处理目的:避免隐私和版权的问题 • 后处理操作: 1.匿名化 2.转发链恢复(尽力而为) 3.去内容(出于匿名化目的) • 保留部分热点事件标签 2013-12-10 BDTC 2013, Beijing 16
  17. 17. 数据生成器 2013-12-10 BDTC 2013, Beijing 17
  18. 18. 较准确地模拟真实数据 时间线的分布 2013-12-10 BDTC 2013, Beijing 18
  19. 19. 较准确地模拟真实数据 传播网络特征 2013-12-10 BDTC 2013, Beijing 19
  20. 20. 较准确地模拟真实数据 用户行为特征 2013-12-10 BDTC 2013, Beijing 20
  21. 21. BSMA Benchmark for Social Media Analytical query processing BSMA性能测试工具 (基于YCSB) 查询/负载 (可扩展) 真实数据集 (从新浪微博爬取) 2013-12-10 BDTC 2013, Beijing 数据生成器 21
  22. 22. BSMA:负载 19类查询 • 社交网络查询 – 如:列出用户A和B的公共“粉丝” • 热点查询 – 热点可以是:用户、微博、话题,... – 如:列出转发次数最多的微博 • 时间线查询 – 如:列出A的关注者最近的10条微博 2013-12-10 BDTC 2013, Beijing 22
  23. 23. 查询示例(Q12) "Rank the tweets appearing in A's followees’ timelines according to the number of retweets." ⨝ ⨝ ⨝ 2013-12-10 BDTC 2013, Beijing 23
  24. 24. BSMA Benchmark for Social Media Analytical query processing BSMA性能测试工具 (基于YCSB) 查询/负载 (可扩展) 真实数据集 (从新浪微博爬取) 2013-12-10 BDTC 2013, Beijing 数据生成器 24
  25. 25. BSMA性能测试工具(基于YCSB) • YCSB: Yahoo Cloud Service Benchmark – http://wiki.github.com/brianfrankcooper/YCSB/ • BSMA的修改 – 查询参数(随机)生成 • 用户ID、top-k、时间窗口等 – 查询wrappers • 面向不同实现 – https://github.com/c3bd/BSMA 2013-12-10 BDTC 2013, Beijing 25
  26. 26. 度量 • 吞吐量 – 在不同线程数设定下的最高吞吐量 • 延时 – 在第二高吞吐量设定下的系统(平均)延时 • 可伸缩性 – 吞吐量/延时曲线的斜率 2013-12-10 BDTC 2013, Beijing 26
  27. 27. 提纲 • 社交媒体与分析型查询处理 • BSMA – 数据集与数据生成器 – 负载 – 度量 • 部分评测结果 • 社交媒体上的分析型查询处理挑战 2013-12-10 BDTC 2013, Beijing 27
  28. 28. WISE 2012 Challenge Performance Track • BSMA的早期版本作为WISE 2012 Challenge Performance Track公开 – http://www.wise2012.cs.ucy.ac.cy/challenge.html – https://wnqian.wordpress.com/research/wise2012challenge/ • 四组参赛者 – 专用内存系统 – 采用二级索引的HBase系统 – 经过优化的基于SQLLite的系统 – 基于B+-树,针对不同查询分别优化的系统 2013-12-10 BDTC 2013, Beijing 28
  29. 29. 部分评测结果 2013-12-10 "Find the set of people who share the same followee with the specified user." BDTC 2013, Beijing 29
  30. 30. 提纲 • 社交媒体与分析型查询处理 • BSMA – 数据集与数据生成器 – 负载 – 度量 • 部分评测结果 • 社交媒体上的分析型查询处理挑战 2013-12-10 BDTC 2013, Beijing 30
  31. 31. 社交媒体上的分析型查询处理挑战 • 社交网络查询 – 大表连接 – 耗时、耗内存 • 数据分布偏斜 – 幂率分布 – 不同参数造成截然不同的 查询性能 • 时间线查询 – 保持结果的时序 – 中间结果与最终结果排序 2013-12-10 BDTC 2013, Beijing 31
  32. 32. 其它相关评测 • LinkBench:社交网络上的事务处理评测 – https://github.com/facebook/linkbench • LDBC:Linked Data Benchmark Council – EU-FP7项目:http://ldbc.eu/ – SNB: Social Network Benchmark – SPB: Semantic Publishing Benchmark 2013-12-10 BDTC 2013, Beijing 32
  33. 33. 后续工作 • 添加数据(数据生成器)的语义 – 更多的事件/语义标签 – (模拟)内容产生 • 更多样的负载 – 幂率分布中代表性点的取样 – 社交网络查询、热点查询、时间线查询的结合 – 流式负载和相应的新的性能度量 • 针对不同负载采用不同性能度量 • 更多系统的评测 2013-12-10 BDTC 2013, Beijing 33
  34. 34. 小结 • BSMA:社交媒体上分析型查询性能评测的初步尝试 – 数据: • https://wnqian.wordpress.com/research/wise2012challenge/ – 数据生成器与性能测试工具: • https://github.com/c3bd/BSMA • 后续工作 – 更真实与有代表性的场景模拟 – 更细致的性能测试与分析 2013-12-10 BDTC 2013, Beijing 34
  35. 35. 2013-12-10 BDTC 2013, Beijing 35
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×