SlideShare a Scribd company logo
如何在一天之内收集
亿移动设备的数据
章炎 友盟
Real-time Processing System(Thunder)
Batch Processing System(Iceberg)
SDK
SDK
SDK
HDFS
HBase
MapReduce Jobs
kvproxy Front End & Web
nginx
nginx
nginx
finagle server
finagle server
MongoDB
Storm
Kafka
Kafka
实时计算
离线计算
主要问题
数据传输格式
切换到 增加 减小数据包大小
校验 和去重
发送模式
启动时发送,关闭时发送,实时发送
避免 推送使得大量设备同时对前端请求,前
段没有办法及时响应致使客户端超时,可是客户端
又使用固定间隔时长重试
模块化设计
网络传输,设备数据
加密解密,
设备标识变迁
不同 版本能够获取设备信息不同
来统一设备标识
实时计算
● 简单直接,没有考虑性能情况
● 还没有出现性能和扩展性问题
● 没有在数据接入端做清洗和规范
Real-time Processing System(Thunder)
nginx
nginx
nginx
ruby server
ruby server
Resque
MongoDB
ruby
worker
实时计算
●
● 在数据接入端做清洗和规范 计算 检查
是否合法,校验和去重等
Real-time Processing System(Thunder)
nginx
nginx
nginx
finagle server
finagle server
Kafka
MongoDB
Storm
实时计算
离线计算
初期误将离线系统当做在在线系统设计
台机器的微型集群
过于依赖 中间结果存储于
原始日志存储
减小对 依赖,中间结果存储于
只存储最终结果
使用 来将结果载入
离线计算
重新设计 避免单个 读写
压力过大
定制化的查询中间层
改进 提高集群利用率
动态优先选择磁盘空间充裕机器执行任务
使用在 以上时就需要考虑扩容
槽位混用 任务基于内存计算所需槽
位 离线计算 使用少但是内存占用多
压缩支持
用于存储冷原始日志
主要问题
大数据量的挑战
和设备标识做持续斗争
构建一个正确稳定的数据分析系统 统一实
时计算和离线计算
密切关注开源社区
推荐

More Related Content

What's hot

Micro service
Micro serviceMicro service
Micro service
rfyiamcool
 
Mongo db at qihoo 360
Mongo db at qihoo 360Mongo db at qihoo 360
Mongo db at qihoo 360
2507697439
 
Redis分享
Redis分享Redis分享
Redis分享
yiihsia
 
关于网站基本架构
关于网站基本架构关于网站基本架构
关于网站基本架构Robert Lee
 
徐晓 Qq空间技术架构之峥嵘岁月
徐晓 Qq空间技术架构之峥嵘岁月徐晓 Qq空间技术架构之峥嵘岁月
徐晓 Qq空间技术架构之峥嵘岁月drewz lin
 
Redis cluster那些事儿
Redis cluster那些事儿Redis cluster那些事儿
Redis cluster那些事儿
rfyiamcool
 
Performance Data Analyze
Performance Data AnalyzePerformance Data Analyze
Performance Data Analyze
anysql
 
Using Alluxio in Tencent's News and Personalized Push Services
Using Alluxio in Tencent's News and Personalized Push ServicesUsing Alluxio in Tencent's News and Personalized Push Services
Using Alluxio in Tencent's News and Personalized Push Services
Alluxio, Inc.
 
Data Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouseData Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouse
Jack Gao
 
cdn的那些事儿
cdn的那些事儿cdn的那些事儿
cdn的那些事儿
rfyiamcool
 
MongoDB介绍
MongoDB介绍MongoDB介绍
MongoDB介绍
popeast
 
搶購系統設計與思考
搶購系統設計與思考搶購系統設計與思考
搶購系統設計與思考
YC Liang
 

What's hot (12)

Micro service
Micro serviceMicro service
Micro service
 
Mongo db at qihoo 360
Mongo db at qihoo 360Mongo db at qihoo 360
Mongo db at qihoo 360
 
Redis分享
Redis分享Redis分享
Redis分享
 
关于网站基本架构
关于网站基本架构关于网站基本架构
关于网站基本架构
 
徐晓 Qq空间技术架构之峥嵘岁月
徐晓 Qq空间技术架构之峥嵘岁月徐晓 Qq空间技术架构之峥嵘岁月
徐晓 Qq空间技术架构之峥嵘岁月
 
Redis cluster那些事儿
Redis cluster那些事儿Redis cluster那些事儿
Redis cluster那些事儿
 
Performance Data Analyze
Performance Data AnalyzePerformance Data Analyze
Performance Data Analyze
 
Using Alluxio in Tencent's News and Personalized Push Services
Using Alluxio in Tencent's News and Personalized Push ServicesUsing Alluxio in Tencent's News and Personalized Push Services
Using Alluxio in Tencent's News and Personalized Push Services
 
Data Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouseData Analyse Black Horse - ClickHouse
Data Analyse Black Horse - ClickHouse
 
cdn的那些事儿
cdn的那些事儿cdn的那些事儿
cdn的那些事儿
 
MongoDB介绍
MongoDB介绍MongoDB介绍
MongoDB介绍
 
搶購系統設計與思考
搶購系統設計與思考搶購系統設計與思考
搶購系統設計與思考
 

Similar to um-talk

The Construction and Practice of Apache Pegasus in Offline and Online Scenari...
The Construction and Practice of Apache Pegasus in Offline and Online Scenari...The Construction and Practice of Apache Pegasus in Offline and Online Scenari...
The Construction and Practice of Apache Pegasus in Offline and Online Scenari...
acelyc1112009
 
Hacking Nginx at Taobao
Hacking Nginx at TaobaoHacking Nginx at Taobao
Hacking Nginx at Taobao
Joshua Zhu
 
美团技术沙龙04 - Kv Tair best practise
美团技术沙龙04 - Kv Tair best practise 美团技术沙龙04 - Kv Tair best practise
美团技术沙龙04 - Kv Tair best practise
美团点评技术团队
 
Mr&ueh数据库方面
Mr&ueh数据库方面Mr&ueh数据库方面
Mr&ueh数据库方面Tianwei Liu
 
Mesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ DoubanMesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ Douban
Zhong Bo Tian
 
LeanMessage 实时通信云架构
LeanMessage 实时通信云架构LeanMessage 实时通信云架构
LeanMessage 实时通信云架构
wenny yuan
 
Lean Message Architecture Highlights
Lean Message Architecture HighlightsLean Message Architecture Highlights
Lean Message Architecture Highlights
sunng87
 
Yog Framework
Yog FrameworkYog Framework
Yog Framework
fansekey
 
Ocean base海量结构化数据存储系统 hadoop in china
Ocean base海量结构化数据存储系统 hadoop in chinaOcean base海量结构化数据存储系统 hadoop in china
Ocean base海量结构化数据存储系统 hadoop in chinaknuthocean
 
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境drewz lin
 
分布式流数据实时计算平台 Iprocess
分布式流数据实时计算平台 Iprocess分布式流数据实时计算平台 Iprocess
分布式流数据实时计算平台 Iprocess
babel_qi
 
Chap12 嵌入式系统开发模式
Chap12 嵌入式系统开发模式Chap12 嵌入式系统开发模式
Chap12 嵌入式系统开发模式
Allen Galler
 
阿里云技术实践
阿里云技术实践阿里云技术实践
阿里云技术实践drewz lin
 
云计算与开源 刘黎明 世纪互联
云计算与开源  刘黎明  世纪互联云计算与开源  刘黎明  世纪互联
云计算与开源 刘黎明 世纪互联
Liming Liu
 
Cassandra简介.ppt
Cassandra简介.pptCassandra简介.ppt
Cassandra简介.pptjames tong
 
弹性计算云安全(Elastic Compute Cloud Security)
弹性计算云安全(Elastic Compute Cloud Security)弹性计算云安全(Elastic Compute Cloud Security)
弹性计算云安全(Elastic Compute Cloud Security)
im_yunshu
 
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验colderboy17
 
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
guiyingshenxia
 
王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计YANGL *
 

Similar to um-talk (20)

The Construction and Practice of Apache Pegasus in Offline and Online Scenari...
The Construction and Practice of Apache Pegasus in Offline and Online Scenari...The Construction and Practice of Apache Pegasus in Offline and Online Scenari...
The Construction and Practice of Apache Pegasus in Offline and Online Scenari...
 
Hacking Nginx at Taobao
Hacking Nginx at TaobaoHacking Nginx at Taobao
Hacking Nginx at Taobao
 
美团技术沙龙04 - Kv Tair best practise
美团技术沙龙04 - Kv Tair best practise 美团技术沙龙04 - Kv Tair best practise
美团技术沙龙04 - Kv Tair best practise
 
Mr&ueh数据库方面
Mr&ueh数据库方面Mr&ueh数据库方面
Mr&ueh数据库方面
 
Mesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ DoubanMesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ Douban
 
LeanMessage 实时通信云架构
LeanMessage 实时通信云架构LeanMessage 实时通信云架构
LeanMessage 实时通信云架构
 
Lean Message Architecture Highlights
Lean Message Architecture HighlightsLean Message Architecture Highlights
Lean Message Architecture Highlights
 
Cdc@ganji.com
Cdc@ganji.comCdc@ganji.com
Cdc@ganji.com
 
Yog Framework
Yog FrameworkYog Framework
Yog Framework
 
Ocean base海量结构化数据存储系统 hadoop in china
Ocean base海量结构化数据存储系统 hadoop in chinaOcean base海量结构化数据存储系统 hadoop in china
Ocean base海量结构化数据存储系统 hadoop in china
 
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
 
分布式流数据实时计算平台 Iprocess
分布式流数据实时计算平台 Iprocess分布式流数据实时计算平台 Iprocess
分布式流数据实时计算平台 Iprocess
 
Chap12 嵌入式系统开发模式
Chap12 嵌入式系统开发模式Chap12 嵌入式系统开发模式
Chap12 嵌入式系统开发模式
 
阿里云技术实践
阿里云技术实践阿里云技术实践
阿里云技术实践
 
云计算与开源 刘黎明 世纪互联
云计算与开源  刘黎明  世纪互联云计算与开源  刘黎明  世纪互联
云计算与开源 刘黎明 世纪互联
 
Cassandra简介.ppt
Cassandra简介.pptCassandra简介.ppt
Cassandra简介.ppt
 
弹性计算云安全(Elastic Compute Cloud Security)
弹性计算云安全(Elastic Compute Cloud Security)弹性计算云安全(Elastic Compute Cloud Security)
弹性计算云安全(Elastic Compute Cloud Security)
 
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
 
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
 
王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计
 

um-talk