SlideShare a Scribd company logo
1 of 35
Download to read offline
在线社交媒体分析型查询基准评测初探
Towards Benchmarking Online Social Media
Analytical Queries
钱卫宁(QIAN, Weining)
华东师范大学 (East China Normal University)
云计算与大数据研究中心(C3BD)
提纲
• 社交媒体与分析型查询处理
• BSMA
– 数据集与数据生成器
– 负载
– 度量

• 部分评测结果
• 社交媒体上的分析型查询处理挑战

2013-12-6

BDTC 2013, Beijing

2
社交媒体

感知世界的一种重要媒介
2013-12-6

BDTC 2013, Beijing

3
社交媒体

2013-12-6

BDTC 2013, Beijing

4
社交媒体数据分析

http://database.ecnu.edu.cn/microblogcube/
2013-12-6

BDTC 2013, Beijing

5
社交媒体上的分析型查询
• 社交网络与传播网络特征分析
– 图模式匹配

• 热点分析
– 图和内容的统计

• 时序、地域分析
– 时空查询

在舆情监控与分析、社交广告、新型客户关
系管理中有着广泛的应用
2013-12-6

BDTC 2013, Beijing

6
为何需要基准评测?
•
•
•
•
•

了解系统的优缺点
促进研究与技术进步
科学地研究技术的性能
跟踪相关领域的发展
使得竞争性的系统具有可比性

2013-12-6

BDTC 2013, Beijing

7
数据库性能基准评测的意义
• 现代数据库系统的强大功能得益于上世纪
数据库基准发展过程中对性能问题各个击
破的解决办法
Jim Gray. Thousands of DebitCredit
Transactions-Per-Second:
Easy and Inexpensive.
2005

2013-12-6

BDTC 2013, Beijing

8
为何需要社交媒体分析型查询
基准评测?
• 必要性:存在大量海量社交媒体数据上的
共性分析型任务
• 不可替代性:新型的数据与负载
– 社交网络+内容+时序
– 幂率分布无处不在:查询代价估计困难

• “One size fits a bunch”

– 实现多样:SQL vs. NOSQL vs. NewSQL

2013-12-6

BDTC 2013, Beijing

9
提纲
• 社交媒体与分析型查询处理
• BSMA
– 数据集与数据生成器
– 负载
– 度量

• 部分评测结果
• 社交媒体上的分析型查询处理挑战

2013-12-6

BDTC 2013, Beijing

10
BSMA
Benchmark for Social Media Analytical query processing
BSMA性能测试工具 (基于YCSB)
查询/负载 (可扩展)
真实数据集
(从新浪微博爬取)

2013-12-6

BDTC 2013, Beijing

数据生成器

11
BSMA:数据
• 采用关系模型描述
– 语义明确

• 允许非关系实现
– 通过查询wrapper实现

• 基于真实数据
• 提供可配置的数据生
成器

2013-12-6

BDTC 2013, Beijing

12
数据模式

2013-12-6

BDTC 2013, Beijing

13
真实数据获取

Haixin Ma, Weining Qian, Fan Xia, Xiaofeng He, Jun Xu, Aoying Zhou:
Towards modeling popularity of microblogs.
Frontiers of Computer Science 7(2): 171-184 (2013)
2013-12-6

BDTC 2013, Beijing

14
真实数据
• 关注网络
–
–
–
–
–

种子用户:11位律师/意见领袖和21位学者/工程师
第2层用户:120,000+用户
第3层用户:160+万用户
第4层用户:1800+万用户(不完整)
超过10亿个关注关系

• 前3层用户的微博
– 从2009年8月至2012年6月
– 超过4.8亿条微博
2013-12-6

BDTC 2013, Beijing

15
真实数据的后处理
• 后处理目的:避免隐私和版权的问题
• 后处理操作:
1.匿名化
2.转发链恢复(尽力而为)
3.去内容(出于匿名化目的)

• 保留部分热点事件标签

2013-12-6

BDTC 2013, Beijing

16
数据生成器

2013-12-6

BDTC 2013, Beijing

17
较准确地模拟真实数据

时间线的分布
2013-12-6

BDTC 2013, Beijing

18
较准确地模拟真实数据

传播网络特征
2013-12-6

BDTC 2013, Beijing

19
较准确地模拟真实数据

用户行为特征
2013-12-6

BDTC 2013, Beijing

20
BSMA
Benchmark for Social Media Analytical query processing
BSMA性能测试工具 (基于YCSB)
查询/负载 (可扩展)
真实数据集
(从新浪微博爬取)

2013-12-6

BDTC 2013, Beijing

数据生成器

21
BSMA:负载
19类查询
• 社交网络查询

– 如:列出用户A和B的公共“粉丝”

• 热点查询

– 热点可以是:用户、微博、话题,...
– 如:列出转发次数最多的微博

• 时间线查询

– 如:列出A的关注者最近的10条微博

2013-12-6

BDTC 2013, Beijing

22
查询示例(Q12)
"Rank the tweets appearing in A's followees’
timelines according to the number of retweets."

⨝
⨝
⨝

2013-12-6

BDTC 2013, Beijing

23
BSMA
Benchmark for Social Media Analytical query processing
BSMA性能测试工具 (基于YCSB)
查询/负载 (可扩展)
真实数据集
(从新浪微博爬取)

2013-12-6

BDTC 2013, Beijing

数据生成器

24
BSMA性能测试工具(基于YCSB)
• YCSB: Yahoo Cloud Service Benchmark

– http://wiki.github.com/brianfrankcooper/YCSB/

• BSMA的修改

– 查询参数(随机)生成
• 用户ID、top-k、时间窗口等

– 查询wrappers
• 面向不同实现

– https://github.com/c3bd/BSMA
2013-12-6

BDTC 2013, Beijing

25
度量
• 吞吐量
– 在不同线程数设定下的最高吞吐量

• 延时
– 在第二高吞吐量设定下的系统(平均)延时

• 可伸缩性
– 吞吐量/延时曲线的斜率

2013-12-6

BDTC 2013, Beijing

26
提纲
• 社交媒体与分析型查询处理
• BSMA
– 数据集与数据生成器
– 负载
– 度量

• 部分评测结果
• 社交媒体上的分析型查询处理挑战
2013-12-6

BDTC 2013, Beijing

27
WISE 2012 Challenge Performance Track
• BSMA的早期版本作为WISE 2012 Challenge
Performance Track公开
– http://www.wise2012.cs.ucy.ac.cy/challenge.html
– https://wnqian.wordpress.com/research/wise2012challenge/

• 四组参赛者
– 专用内存系统
– 采用二级索引的HBase系统
– 经过优化的基于SQLLite的系统
– 基于B+-树,针对不同查询分别优化的系统
2013-12-6

BDTC 2013, Beijing

28
部分评测结果

2013-12-6

"Find the set of people who share the
same followee with the specified user."

BDTC 2013, Beijing

29
提纲
• 社交媒体与分析型查询处理
• BSMA
– 数据集与数据生成器
– 负载
– 度量

• 部分评测结果
• 社交媒体上的分析型查询处理挑战
2013-12-6

BDTC 2013, Beijing

30
社交媒体上的分析型查询处理挑战
• 社交网络查询
– 大表连接
– 耗时、耗内存

• 数据分布偏斜
– 幂率分布
– 不同参数造成截然不同的
查询性能

• 时间线查询
– 保持结果的时序
– 中间结果与最终结果排序

2013-12-6

BDTC 2013, Beijing

31
其它相关评测
• LinkBench:社交网络上的事务处理评测
– https://github.com/facebook/linkbench

• LDBC:Linked Data Benchmark Council
– EU-FP7项目:http://ldbc.eu/
– SNB: Social Network Benchmark
– SPB: Semantic Publishing Benchmark

2013-12-6

BDTC 2013, Beijing

32
后续工作
• 添加数据(数据生成器)的语义
– 更多的事件/语义标签
– (模拟)内容产生

• 更多样的负载
– 幂率分布中代表性点的取样
– 社交网络查询、热点查询、时间线查询的结合
– 流式负载和相应的新的性能度量

• 针对不同负载采用不同性能度量
• 更多系统的评测
2013-12-6

BDTC 2013, Beijing

33
小结
• BSMA:社交媒体上分析型查询性能评测的初步尝试
– 数据:
• https://wnqian.wordpress.com/research/wise2012challenge/

– 数据生成器与性能测试工具:
• https://github.com/c3bd/BSMA

• 后续工作
– 更真实与有代表性的场景模拟
– 更细致的性能测试与分析

2013-12-6

BDTC 2013, Beijing

34
2013-12-6

BDTC 2013, Beijing

35

More Related Content

Viewers also liked

Client presentation broadbean
Client presentation broadbeanClient presentation broadbean
Client presentation broadbeanJeroen van Driel
 
Paying attention sarah constantine
Paying attention sarah constantinePaying attention sarah constantine
Paying attention sarah constantinesarahconstantine
 
Sitecore user-grop-cardiff-31oct-v003-final
Sitecore user-grop-cardiff-31oct-v003-finalSitecore user-grop-cardiff-31oct-v003-final
Sitecore user-grop-cardiff-31oct-v003-finalfusionworkshop
 
On Benchmarking Online Social Media Analytical Queries
On Benchmarking Online Social Media Analytical QueriesOn Benchmarking Online Social Media Analytical Queries
On Benchmarking Online Social Media Analytical QueriesWeining Qian
 
On Statistical Characteristics of Real-life Knowledge Graphs
On Statistical Characteristics of Real-life Knowledge GraphsOn Statistical Characteristics of Real-life Knowledge Graphs
On Statistical Characteristics of Real-life Knowledge GraphsWeining Qian
 
ساختار سازمانی مجله
ساختار سازمانی مجلهساختار سازمانی مجله
ساختار سازمانی مجلهAsef ghafoory
 
A flor vai ver o mar- alves redol
A flor vai ver o mar- alves redolA flor vai ver o mar- alves redol
A flor vai ver o mar- alves redolmjoaodelgado
 

Viewers also liked (11)

Client presentation broadbean
Client presentation broadbeanClient presentation broadbean
Client presentation broadbean
 
Livro tietê leticia
Livro tietê leticiaLivro tietê leticia
Livro tietê leticia
 
Teaching
TeachingTeaching
Teaching
 
336 1170-1-pb tocher anderson
336 1170-1-pb  tocher anderson336 1170-1-pb  tocher anderson
336 1170-1-pb tocher anderson
 
Paying attention sarah constantine
Paying attention sarah constantinePaying attention sarah constantine
Paying attention sarah constantine
 
336 1170-1-pb tocher anderson
336 1170-1-pb  tocher anderson336 1170-1-pb  tocher anderson
336 1170-1-pb tocher anderson
 
Sitecore user-grop-cardiff-31oct-v003-final
Sitecore user-grop-cardiff-31oct-v003-finalSitecore user-grop-cardiff-31oct-v003-final
Sitecore user-grop-cardiff-31oct-v003-final
 
On Benchmarking Online Social Media Analytical Queries
On Benchmarking Online Social Media Analytical QueriesOn Benchmarking Online Social Media Analytical Queries
On Benchmarking Online Social Media Analytical Queries
 
On Statistical Characteristics of Real-life Knowledge Graphs
On Statistical Characteristics of Real-life Knowledge GraphsOn Statistical Characteristics of Real-life Knowledge Graphs
On Statistical Characteristics of Real-life Knowledge Graphs
 
ساختار سازمانی مجله
ساختار سازمانی مجلهساختار سازمانی مجله
ساختار سازمانی مجله
 
A flor vai ver o mar- alves redol
A flor vai ver o mar- alves redolA flor vai ver o mar- alves redol
A flor vai ver o mar- alves redol
 

Similar to 在线社交媒体分析型查询基准评测初探

基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究学峰 司
 
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测hdhappy001
 
借助 MongoDB 实现扩展
借助 MongoDB 实现扩展借助 MongoDB 实现扩展
借助 MongoDB 实现扩展 MongoDB
 
Report 106553012 - copy
Report 106553012 - copyReport 106553012 - copy
Report 106553012 - copyJacky Zou
 
machine learning introduction
machine learning introduction machine learning introduction
machine learning introduction FEG
 
2006/11/20 Proposal
2006/11/20 Proposal2006/11/20 Proposal
2006/11/20 Proposalfeiwin
 
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘Riquelme624
 
用户研究中的数据分析
用户研究中的数据分析用户研究中的数据分析
用户研究中的数据分析Yong Zhang
 
从整合营销角度看Cmmg的应用
从整合营销角度看Cmmg的应用从整合营销角度看Cmmg的应用
从整合营销角度看Cmmg的应用tudoucatch
 
High Throughput Computing Technologies
High Throughput Computing TechnologiesHigh Throughput Computing Technologies
High Throughput Computing TechnologiesJazz Yao-Tsung Wang
 
Densifying a behavioral recommender system by social networks
Densifying a behavioral recommender system by social networksDensifying a behavioral recommender system by social networks
Densifying a behavioral recommender system by social networks柏宇 陳
 
Cnhsr Grid Project Overall Design
Cnhsr Grid Project Overall DesignCnhsr Grid Project Overall Design
Cnhsr Grid Project Overall Designwalterwang34
 
俞晨杰:Linked in大数据应用和azkaban
俞晨杰:Linked in大数据应用和azkaban俞晨杰:Linked in大数据应用和azkaban
俞晨杰:Linked in大数据应用和azkabanhdhappy001
 
陈竞凯 透过历史看未来
陈竞凯 透过历史看未来陈竞凯 透过历史看未来
陈竞凯 透过历史看未来drewz lin
 

Similar to 在线社交媒体分析型查询基准评测初探 (16)

基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
 
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
 
借助 MongoDB 实现扩展
借助 MongoDB 实现扩展借助 MongoDB 实现扩展
借助 MongoDB 实现扩展
 
Report 106553012 - copy
Report 106553012 - copyReport 106553012 - copy
Report 106553012 - copy
 
machine learning introduction
machine learning introduction machine learning introduction
machine learning introduction
 
2006/11/20 Proposal
2006/11/20 Proposal2006/11/20 Proposal
2006/11/20 Proposal
 
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
 
用户研究中的数据分析
用户研究中的数据分析用户研究中的数据分析
用户研究中的数据分析
 
从整合营销角度看Cmmg的应用
从整合营销角度看Cmmg的应用从整合营销角度看Cmmg的应用
从整合营销角度看Cmmg的应用
 
High Throughput Computing Technologies
High Throughput Computing TechnologiesHigh Throughput Computing Technologies
High Throughput Computing Technologies
 
Densifying a behavioral recommender system by social networks
Densifying a behavioral recommender system by social networksDensifying a behavioral recommender system by social networks
Densifying a behavioral recommender system by social networks
 
Cnhsr Grid Project Overall Design
Cnhsr Grid Project Overall DesignCnhsr Grid Project Overall Design
Cnhsr Grid Project Overall Design
 
work@baidu 2015
work@baidu 2015work@baidu 2015
work@baidu 2015
 
網路規劃與設計
網路規劃與設計網路規劃與設計
網路規劃與設計
 
俞晨杰:Linked in大数据应用和azkaban
俞晨杰:Linked in大数据应用和azkaban俞晨杰:Linked in大数据应用和azkaban
俞晨杰:Linked in大数据应用和azkaban
 
陈竞凯 透过历史看未来
陈竞凯 透过历史看未来陈竞凯 透过历史看未来
陈竞凯 透过历史看未来
 

在线社交媒体分析型查询基准评测初探