Your SlideShare is downloading. ×
0
基于Hbase的实时计算分享
基于Hbase的实时计算分享
基于Hbase的实时计算分享
基于Hbase的实时计算分享
基于Hbase的实时计算分享
基于Hbase的实时计算分享
基于Hbase的实时计算分享
基于Hbase的实时计算分享
基于Hbase的实时计算分享
基于Hbase的实时计算分享
基于Hbase的实时计算分享
基于Hbase的实时计算分享
基于Hbase的实时计算分享
基于Hbase的实时计算分享
基于Hbase的实时计算分享
基于Hbase的实时计算分享
基于Hbase的实时计算分享
基于Hbase的实时计算分享
基于Hbase的实时计算分享
基于Hbase的实时计算分享
基于Hbase的实时计算分享
基于Hbase的实时计算分享
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

基于Hbase的实时计算分享

1,444

Published on

基于Hbase的实时计算分享

基于Hbase的实时计算分享

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,444
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
35
Comments
0
Likes
2
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. 实时计算架构 北疯
  • 2. 产品介绍
  • 3. 产品 <ul><li>数据魔方全属性查询 2010.12~ </li></ul><ul><li>淘词 2011.6~ </li></ul><ul><li>淘宝指数 ( 开发中 ) </li></ul>
  • 4. prom <ul><li>海量数据实时计算框架 - prom </li></ul><ul><li>2010.8 开始开发 </li></ul><ul><li>2010.12 上线 </li></ul><ul><li>通用性强,支持任何计算规则 </li></ul>
  • 5. 数据规模 <ul><li>T 级数据量 </li></ul><ul><li>百万级记录实时计算分析 </li></ul><ul><li>存储于 hbase </li></ul>
  • 6. 特点 <ul><li>多维度 </li></ul><ul><li>实时 (3s 内响应 ) </li></ul><ul><li>海量数据 </li></ul>
  • 7. 架构变迁
  • 8. 第一版 <ul><li>redis + tokyocabinet </li></ul><ul><li>2010.12 ~ 2011.6 </li></ul><ul><li>mget 随机读取明细 </li></ul>
  • 9. 第二版 <ul><li>HBase </li></ul><ul><li>2011.5~ </li></ul><ul><li>明细数据冗余 </li></ul><ul><li>带宽瓶颈、 server 工作繁忙 </li></ul>
  • 10. 第三版 <ul><li>HBase 本地计算 (region 端 ) </li></ul><ul><li>2011.6~ </li></ul><ul><li>扩展 client -> region </li></ul><ul><li>开发、运维复杂 </li></ul>
  • 11. HBase 的使用
  • 12. 定义表 <ul><li>两个列族 (index 和 data) </li></ul><ul><li>index 一般保存 id 列表 </li></ul><ul><li>data 保存 id 明细列表 </li></ul>
  • 13. 数据储存 云梯 Hbase Hbase Hbase …… 索引:交易 id 列表 属性对 交易 1 (二进制,定长) 交易 2
  • 14. 计算流程 rowkey: 商务定位 [0,2] regionserver 求 SUM(alipay) 属性 属性值 笔记本尺寸 13 寸 笔记本定位 商务定位 查索引 节点 1 1, 2, 3, 4, 5, 6, 7, 8, 9 节点 2 1, 2, 3, 4, 5, 6, 7 节点 2 1, 2, 4 , 6, 7 本地 SUM 运算( Hbase 扩展 ) 汇总计算 写入缓存
  • 15. java 客户端 <ul><li>HTable </li></ul><ul><li>HTablePool </li></ul><ul><li>Get </li></ul><ul><li>Result </li></ul>
  • 16. java 客户端
  • 17. 例子
  • 18. 缓存 <ul><li>总结果 </li></ul><ul><li>单日结果 </li></ul><ul><li>集合交集偏移量 </li></ul><ul><li>索引(内部缓存) </li></ul>
  • 19. 例子 <ul><li>http://weibo.com/app/detail/5k1grQ </li></ul>
  • 20. 总结 <ul><li>冗余顺序读 替代 批量随机读 </li></ul><ul><li>通用性 vs 性能 </li></ul><ul><li>定长、 byte </li></ul>
  • 21. 下一步 <ul><li>全部采用 hbase 本地计算 </li></ul><ul><li>抽取框架 </li></ul><ul><li>提高性能 </li></ul>
  • 22. Q&A <ul><li>thanks </li></ul>blog : www.yiihsia.com weibo : http://weibo.com/neihan e-mail : [email_address]

×