钱卫宁:在线社交媒体分析型查询基准评测初探
Upcoming SlideShare
Loading in...5
×
 

钱卫宁:在线社交媒体分析型查询基准评测初探

on

  • 487 views

BDTC 2013 Beijing China

BDTC 2013 Beijing China

Statistics

Views

Total Views
487
Slideshare-icon Views on SlideShare
487
Embed Views
0

Actions

Likes
0
Downloads
1
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    钱卫宁:在线社交媒体分析型查询基准评测初探 钱卫宁:在线社交媒体分析型查询基准评测初探 Presentation Transcript

    • 在线社交媒体分析型查询基准评测初探 Towards Benchmarking Online Social Media Analytical Queries 钱卫宁(QIAN, Weining) 华东师范大学 (East China Normal University) 云计算与大数据研究中心(C3BD)
    • 提纲 • 社交媒体与分析型查询处理 • BSMA – 数据集与数据生成器 – 负载 – 度量 • 部分评测结果 • 社交媒体上的分析型查询处理挑战 2013-12-10 BDTC 2013, Beijing 2
    • 社交媒体 感知世界的一种重要媒介 2013-12-10 BDTC 2013, Beijing 3
    • 社交媒体 2013-12-10 BDTC 2013, Beijing 4
    • 社交媒体数据分析 http://database.ecnu.edu.cn/microblogcube/ 2013-12-10 BDTC 2013, Beijing 5
    • 社交媒体上的分析型查询 • 社交网络与传播网络特征分析 – 图模式匹配 • 热点分析 – 图和内容的统计 • 时序、地域分析 – 时空查询 在舆情监控与分析、社交广告、新型客户关 系管理中有着广泛的应用 2013-12-10 BDTC 2013, Beijing 6
    • 为何需要基准评测? • • • • • 了解系统的优缺点 促进研究与技术进步 科学地研究技术的性能 跟踪相关领域的发展 使得竞争性的系统具有可比性 2013-12-10 BDTC 2013, Beijing 7
    • 数据库性能基准评测的意义 • 现代数据库系统的强大功能得益于上世纪 数据库基准发展过程中对性能问题各个击 破的解决办法 Jim Gray. Thousands of DebitCredit Transactions-Per-Second: Easy and Inexpensive. 2005 2013-12-10 BDTC 2013, Beijing 8
    • 为何需要社交媒体分析型查询 基准评测? • 必要性:存在大量海量社交媒体数据上的 共性分析型任务 • 不可替代性:新型的数据与负载 – 社交网络+内容+时序 – 幂率分布无处不在:查询代价估计困难 • “One size fits a bunch” – 实现多样:SQL vs. NOSQL vs. NewSQL 2013-12-10 BDTC 2013, Beijing 9
    • 提纲 • 社交媒体与分析型查询处理 • BSMA – 数据集与数据生成器 – 负载 – 度量 • 部分评测结果 • 社交媒体上的分析型查询处理挑战 2013-12-10 BDTC 2013, Beijing 10
    • BSMA Benchmark for Social Media Analytical query processing BSMA性能测试工具 (基于YCSB) 查询/负载 (可扩展) 真实数据集 (从新浪微博爬取) 2013-12-10 BDTC 2013, Beijing 数据生成器 11
    • BSMA:数据 • 采用关系模型描述 – 语义明确 • 允许非关系实现 – 通过查询wrapper实现 • 基于真实数据 • 提供可配置的数据生 成器 2013-12-10 BDTC 2013, Beijing 12
    • 数据模式 2013-12-10 BDTC 2013, Beijing 13
    • 真实数据获取 Haixin Ma, Weining Qian, Fan Xia, Xiaofeng He, Jun Xu, Aoying Zhou: Towards modeling popularity of microblogs. Frontiers of Computer Science 7(2): 171-184 (2013) 2013-12-10 BDTC 2013, Beijing 14
    • 真实数据 • 关注网络 – – – – – 种子用户:11位律师/意见领袖和21位学者/工程师 第2层用户:120,000+用户 第3层用户:160+万用户 第4层用户:1800+万用户(不完整) 超过10亿个关注关系 • 前3层用户的微博 – 从2009年8月至2012年6月 – 超过4.8亿条微博 2013-12-10 BDTC 2013, Beijing 15
    • 真实数据的后处理 • 后处理目的:避免隐私和版权的问题 • 后处理操作: 1.匿名化 2.转发链恢复(尽力而为) 3.去内容(出于匿名化目的) • 保留部分热点事件标签 2013-12-10 BDTC 2013, Beijing 16
    • 数据生成器 2013-12-10 BDTC 2013, Beijing 17
    • 较准确地模拟真实数据 时间线的分布 2013-12-10 BDTC 2013, Beijing 18
    • 较准确地模拟真实数据 传播网络特征 2013-12-10 BDTC 2013, Beijing 19
    • 较准确地模拟真实数据 用户行为特征 2013-12-10 BDTC 2013, Beijing 20
    • BSMA Benchmark for Social Media Analytical query processing BSMA性能测试工具 (基于YCSB) 查询/负载 (可扩展) 真实数据集 (从新浪微博爬取) 2013-12-10 BDTC 2013, Beijing 数据生成器 21
    • BSMA:负载 19类查询 • 社交网络查询 – 如:列出用户A和B的公共“粉丝” • 热点查询 – 热点可以是:用户、微博、话题,... – 如:列出转发次数最多的微博 • 时间线查询 – 如:列出A的关注者最近的10条微博 2013-12-10 BDTC 2013, Beijing 22
    • 查询示例(Q12) "Rank the tweets appearing in A's followees’ timelines according to the number of retweets." ⨝ ⨝ ⨝ 2013-12-10 BDTC 2013, Beijing 23
    • BSMA Benchmark for Social Media Analytical query processing BSMA性能测试工具 (基于YCSB) 查询/负载 (可扩展) 真实数据集 (从新浪微博爬取) 2013-12-10 BDTC 2013, Beijing 数据生成器 24
    • BSMA性能测试工具(基于YCSB) • YCSB: Yahoo Cloud Service Benchmark – http://wiki.github.com/brianfrankcooper/YCSB/ • BSMA的修改 – 查询参数(随机)生成 • 用户ID、top-k、时间窗口等 – 查询wrappers • 面向不同实现 – https://github.com/c3bd/BSMA 2013-12-10 BDTC 2013, Beijing 25
    • 度量 • 吞吐量 – 在不同线程数设定下的最高吞吐量 • 延时 – 在第二高吞吐量设定下的系统(平均)延时 • 可伸缩性 – 吞吐量/延时曲线的斜率 2013-12-10 BDTC 2013, Beijing 26
    • 提纲 • 社交媒体与分析型查询处理 • BSMA – 数据集与数据生成器 – 负载 – 度量 • 部分评测结果 • 社交媒体上的分析型查询处理挑战 2013-12-10 BDTC 2013, Beijing 27
    • WISE 2012 Challenge Performance Track • BSMA的早期版本作为WISE 2012 Challenge Performance Track公开 – http://www.wise2012.cs.ucy.ac.cy/challenge.html – https://wnqian.wordpress.com/research/wise2012challenge/ • 四组参赛者 – 专用内存系统 – 采用二级索引的HBase系统 – 经过优化的基于SQLLite的系统 – 基于B+-树,针对不同查询分别优化的系统 2013-12-10 BDTC 2013, Beijing 28
    • 部分评测结果 2013-12-10 "Find the set of people who share the same followee with the specified user." BDTC 2013, Beijing 29
    • 提纲 • 社交媒体与分析型查询处理 • BSMA – 数据集与数据生成器 – 负载 – 度量 • 部分评测结果 • 社交媒体上的分析型查询处理挑战 2013-12-10 BDTC 2013, Beijing 30
    • 社交媒体上的分析型查询处理挑战 • 社交网络查询 – 大表连接 – 耗时、耗内存 • 数据分布偏斜 – 幂率分布 – 不同参数造成截然不同的 查询性能 • 时间线查询 – 保持结果的时序 – 中间结果与最终结果排序 2013-12-10 BDTC 2013, Beijing 31
    • 其它相关评测 • LinkBench:社交网络上的事务处理评测 – https://github.com/facebook/linkbench • LDBC:Linked Data Benchmark Council – EU-FP7项目:http://ldbc.eu/ – SNB: Social Network Benchmark – SPB: Semantic Publishing Benchmark 2013-12-10 BDTC 2013, Beijing 32
    • 后续工作 • 添加数据(数据生成器)的语义 – 更多的事件/语义标签 – (模拟)内容产生 • 更多样的负载 – 幂率分布中代表性点的取样 – 社交网络查询、热点查询、时间线查询的结合 – 流式负载和相应的新的性能度量 • 针对不同负载采用不同性能度量 • 更多系统的评测 2013-12-10 BDTC 2013, Beijing 33
    • 小结 • BSMA:社交媒体上分析型查询性能评测的初步尝试 – 数据: • https://wnqian.wordpress.com/research/wise2012challenge/ – 数据生成器与性能测试工具: • https://github.com/c3bd/BSMA • 后续工作 – 更真实与有代表性的场景模拟 – 更细致的性能测试与分析 2013-12-10 BDTC 2013, Beijing 34
    • 2013-12-10 BDTC 2013, Beijing 35