0
淘宝海量数据产品技术                  数据产品 赵昆11年11月26日星期六
WHO  AM  I      •    赵昆  (淘宝花名:空无)      •    淘宝网  -  数据平台与产品部  -  数据产品      •    热爱技术、热爱数据、热爱生活      •    果粉、G粉    ...
误区      • 淘宝是一家电子商务公司      • 数据越多越值钱      • 海量只是数据量更大      • 云计算只是一个概念11年11月26日星期六
传统海量数据产品误区      •    只关注分析处理性能,不关注数据查询性能      •    大型商业产品更好          • Oracle/GreenPlum可以解决大多数问题          • IBM/EMC      •...
大纲      •    大数据在淘宝的挑战      •    分布式存储计算      •    实时计算      •    实时流处理      •    数据可视化      •    数据产品实践11年11月26日星期六
大数据在淘宝的挑战11年11月26日星期六
淘宝规模               PV    20亿         商品数         8亿+         用户数         4.4亿         品牌数         8万+               SPU   ...
淘宝数据特点      •    数据量大      •    内容多样          • 日志型数据          • 文本数据          • 关系型数据      •    维度丰富          • 涵盖近100个不同...
挑战      •    20PB  总量      •    900TB  每天计算扫描数据量      •    月增1.5P      •    日增0.06P      •    高峰处理数据量:30G/s      •    .....
挑战      •    数据的商业模式不清楚,缺乏足够的业务支撑      •    海量数据处理的基础技术需要大量的研发投入      •    数据安全机制非常复杂,还要兼顾效率      •    开放的同时,需要防止数据被恶意爬取  ...
传统的数据平台                            展现     API                            高性能                             DB               ...
有没有完美的数据平台?11年11月26日星期六
我心中的完美                             展现     API                            实时计算               实时传输         高速访              ...
     业务系统                                    淘宝数据应用                                Open  Hosting                      ...
分布式存储计算11年11月26日星期六
分布式存储计算      •    M/R:            •  文本数据          •  数据挖掘                               RPT          RPT          •  复杂计...
使用状况      •    分布式存储和计算          • 1800+  Hadoop集群          • 24G+2T*12T          • 离线                       •       ...
•    多维数据立方体构造            • 满足业务对数据分析灵活性要求          • 压缩数据处理中间过程          • 减少表间关联      •    计算时对维度抽象转换:          • 一次过程进...
Myfox  -  分布式Mysql集群      •    基于Mysql  Myisam存储引擎      •    海量数据分布式存储、非实时写入      •    提供全镜像、路由字段、记录条数、组合等数据分片规则      •...
Myfox  -  分布式Mysq集群                                                                            路由信息库                    ...
Myfox  -  数据查询               路             APC           SQL解析               由               层   缓存                  语义理...
挑战    •   淘宝涵盖100个行业的商品    •   属性值的条数2000W               如何获取任意多个商品属性值组               合产生的交易  ?11年11月26日星期六
实时计算11年11月26日星期六
Prom      •    T级数据量(7天总量hbase)      •    千万级记录实时计算分析      •    以byte[]方式存储于hbase11年11月26日星期六
ClientApp                            SharesMerge                         Shard1             Shard2               Cache    ...
Glider      •    高性能异构数据中间层      •    统一restful数据输出接口      •    使用SQL  Like作为配置语法      •    整合多种数据源,不同数据源之间数据可以进行SQL关联操作 ...
挑战      •    如何获取店铺实时数据?        •    不能直接主库上计算啊,主库表示压力很大。11年11月26日星期六
实时流处理11年11月26日星期六
银河  -  实时流处理平台      •    基于Actor模型的分布式流数据实时处理和计算框架      •    底层基于开源软件AKKA实现      •    消息既数据      •    客户端3台(1.5万/s),Hbas...
银河  -  技术框架                    Other&PNs                      ZK                         &                              ...
银河  -  数据流11年11月26日星期六
应用      •    实时行业总体数据      •    分类目实时商品成交排行      •    实时店铺汇总数据      •    实时店铺浏览、交易明细      •    实时用户成交排行11年11月26日星期六
数据可视化11年11月26日星期六
数据可视化      •    为什么要研究数据可视化?                          数据大爆炸                    、难懂               数据太枯燥        数据          ...
11年11月26日星期六
11年11月26日星期六
11年11月26日星期六
11年11月26日星期六
浪淘金      •    社会化电子商务数据可视化分析工具      •    淘宝数据平台与新浪微博合作项目11年11月26日星期六
可视化应用开发流程11年11月26日星期六
总结                             展现     API                            实时计算               实时传输         高速访                  ...
数据产品实践11年11月26日星期六
数据魔方               data.taobao.com11年11月26日星期六
挑战      •    数据量巨大      •    商品更新      •    类目变化频繁      •    大单、走账      •    作弊、刷信用      •    数据安全      •    马太效应11年11月26日...
数据魔方      •    淘宝第一个基于全量数据的数据产品      •    底层基于云计算      •    第一个成熟的、基于海量数据的商业数据产品      •    明年计划开放数据给第三方应用11年11月26日星期六
数据魔方  -  数据模型11年11月26日星期六
淘宝数据产品架构                           Cubex	           Index	         Mytaobao	          LisLng	                             ...
维度和指标                     维度                                指标        基本维度        买家维度    卖家维度       交易指标     成交店铺    行为指标...
11年11月26日星期六
11年11月26日星期六
淘宝指数      •    淘宝下一个重要的数据产品      •    完全免费      •    2011正式发布      •    流行趋势、消费者研究11年11月26日星期六
11年11月26日星期六
11年11月26日星期六
11年11月26日星期六
其他数据产品      •    淘宝魔镜      •    TCIF      •    母婴推荐      •    淘宝情报      •    卖家经营报告      •    商品评论分析系统      •    淘宝数据门户  ...
未来      •    开放          • 数据开放          • 平台开放          • 系统开源      •    实时            • 实时计算          • 流处理11年11月26日星期六
Thanks               微博:  @此处空无一人               kongwu@taobao.com11年11月26日星期六
Upcoming SlideShare
Loading in...5
×

09 赵昆

747

Published on

Published in: Design
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
747
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
16
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Transcript of "09 赵昆"

  1. 1. 淘宝海量数据产品技术 数据产品 赵昆11年11月26日星期六
  2. 2. WHO  AM  I • 赵昆  (淘宝花名:空无) • 淘宝网  -  数据平台与产品部  -  数据产品 • 热爱技术、热爱数据、热爱生活 • 果粉、G粉 • 微博: @此处空无⼀一人11年11月26日星期六
  3. 3. 误区 • 淘宝是一家电子商务公司 • 数据越多越值钱 • 海量只是数据量更大 • 云计算只是一个概念11年11月26日星期六
  4. 4. 传统海量数据产品误区 • 只关注分析处理性能,不关注数据查询性能 • 大型商业产品更好 • Oracle/GreenPlum可以解决大多数问题 • IBM/EMC • 开源产品更好 • Hadoop可以解决一切问题 • Hadoop成本更低 • 数据展现不重要11年11月26日星期六
  5. 5. 大纲 • 大数据在淘宝的挑战 • 分布式存储计算 • 实时计算 • 实时流处理 • 数据可视化 • 数据产品实践11年11月26日星期六
  6. 6. 大数据在淘宝的挑战11年11月26日星期六
  7. 7. 淘宝规模 PV 20亿 商品数 8亿+ 用户数 4.4亿 品牌数 8万+ SPU 334万 每分钟销售商品 件数 4.8万件 高峰日成交金额 52亿元11年11月26日星期六
  8. 8. 淘宝数据特点 • 数据量大 • 内容多样 • 日志型数据 • 文本数据 • 关系型数据 • 维度丰富 • 涵盖近100个不同行业的商品维度,五级商品类目体系 • 近80000个品牌 • 商品维度+卖家维度+买家维度 • 源数据质量不高 • 非法交易 • 恶意评价 • 用于自定义属性11年11月26日星期六
  9. 9. 挑战 • 20PB  总量 • 900TB  每天计算扫描数据量 • 月增1.5P • 日增0.06P • 高峰处理数据量:30G/s • ...11年11月26日星期六
  10. 10. 挑战 • 数据的商业模式不清楚,缺乏足够的业务支撑 • 海量数据处理的基础技术需要大量的研发投入 • 数据安全机制非常复杂,还要兼顾效率 • 开放的同时,需要防止数据被恶意爬取 • 基础设施的建设周期较长,可能赶不上业务的变化 • 数据自身变化演进,数据更新非常困难11年11月26日星期六
  11. 11. 传统的数据平台 展现 API 高性能 DB 数据同步 大容量 离线计算 存储11年11月26日星期六
  12. 12. 有没有完美的数据平台?11年11月26日星期六
  13. 13. 我心中的完美 展现 API 实时计算 实时传输 高速访 问存储 数据同步 大容量 离线计算 存储11年11月26日星期六
  14. 14.      业务系统 淘宝数据应用 Open  Hosting 数据工场 TOP  API Open  DB Open  DB 数据API 服务API 数据同步 在线计算 TOP  API 实时 离线计算 处理 在线存储 数据挖掘 数据写入API 底层存储 安全过滤层 缓冲区存储 淘宝DB 实时同步11年11月26日星期六
  15. 15. 分布式存储计算11年11月26日星期六
  16. 16. 分布式存储计算 • M/R:   • 文本数据 • 数据挖掘 RPT RPT • 复杂计算 • HQL:   • Automac 中间层建设 Hive Code • 维度转换 Framework   • 指标加工 M/R11年11月26日星期六
  17. 17. 使用状况 • 分布式存储和计算 • 1800+  Hadoop集群 • 24G+2T*12T • 离线         • 7:00  前必须处理完昨日增量计算 • (目前每天3半点前处理完成) • 在线 • 实时的交易跟踪,秒级别的延迟 • 实时千万级交易维度交叉计算 • 分布式数据挖掘 • 30个节点的Mahout集群 • 淘宝母婴频道推荐月底上线11年11月26日星期六
  18. 18. • 多维数据立方体构造   • 满足业务对数据分析灵活性要求 • 压缩数据处理中间过程 • 减少表间关联 • 计算时对维度抽象转换: • 一次过程进行多粒度进行指标汇总 • 支持用户自定义11年11月26日星期六
  19. 19. Myfox  -  分布式Mysql集群 • 基于Mysql  Myisam存储引擎 • 海量数据分布式存储、非实时写入 • 提供全镜像、路由字段、记录条数、组合等数据分片规则 • 32个节点11年11月26日星期六
  20. 20. Myfox  -  分布式Mysq集群 路由信息库 M MyFOX(虚拟机) S 热节点(MySQL) 冷节点(MySQL) 15k SAS硬盘,300G * 12,8节点 7.2k SATA硬盘,1T * 12,8节点 MySQL MySQL MySQL MySQL MySQL = = = 1411年11月26日星期六
  21. 21. Myfox  -  数据查询 路 APC SQL解析 由 层 缓存 语义理解 查询路由 字段改写 分片SQL 计算规则 查 询 缓存 取分片数据 层 计 算 结果合并 层11年11月26日星期六
  22. 22. 挑战 • 淘宝涵盖100个行业的商品 • 属性值的条数2000W 如何获取任意多个商品属性值组 合产生的交易  ?11年11月26日星期六
  23. 23. 实时计算11年11月26日星期六
  24. 24. Prom • T级数据量(7天总量hbase) • 千万级记录实时计算分析 • 以byte[]方式存储于hbase11年11月26日星期六
  25. 25. ClientApp SharesMerge Shard1 Shard2 Cache Calc DataFetch Index DataStorage IndexStorage11年11月26日星期六
  26. 26. Glider • 高性能异构数据中间层 • 统一restful数据输出接口 • 使用SQL  Like作为配置语法 • 整合多种数据源,不同数据源之间数据可以进行SQL关联操作 • Myfox/iSearch/Prom/Andes/Mysql/Hbase/TOP  API • 简单的数据二次加工 • 内置二级缓存 • 单虚拟机  8000qps  (4CPU/7G内存) • 请求分优先级11年11月26日星期六
  27. 27. 挑战 • 如何获取店铺实时数据?   • 不能直接主库上计算啊,主库表示压力很大。11年11月26日星期六
  28. 28. 实时流处理11年11月26日星期六
  29. 29. 银河  -  实时流处理平台 • 基于Actor模型的分布式流数据实时处理和计算框架 • 底层基于开源软件AKKA实现 • 消息既数据 • 客户端3台(1.5万/s),Hbase  5台 • 日处理3亿数据量 前端应用 数据源 实时流 实时流处理 计算 实时计算系统 数据缓存 数据反馈11年11月26日星期六
  30. 30. 银河  -  技术框架 Other&PNs ZK & & Data API Control & Management API Data Configurati Event Status Stage ZK PN on Dispatche Monitor Manager & Manager r & Config file Stage Container DB & AKKA11年11月26日星期六
  31. 31. 银河  -  数据流11年11月26日星期六
  32. 32. 应用 • 实时行业总体数据 • 分类目实时商品成交排行 • 实时店铺汇总数据 • 实时店铺浏览、交易明细 • 实时用户成交排行11年11月26日星期六
  33. 33. 数据可视化11年11月26日星期六
  34. 34. 数据可视化 • 为什么要研究数据可视化? 数据大爆炸 、难懂 数据太枯燥 数据 关系 太复 杂 数据背后隐藏什么?11年11月26日星期六
  35. 35. 11年11月26日星期六
  36. 36. 11年11月26日星期六
  37. 37. 11年11月26日星期六
  38. 38. 11年11月26日星期六
  39. 39. 浪淘金 • 社会化电子商务数据可视化分析工具 • 淘宝数据平台与新浪微博合作项目11年11月26日星期六
  40. 40. 可视化应用开发流程11年11月26日星期六
  41. 41. 总结 展现 API 实时计算 实时传输 高速访 问存储 数据同步 大容量 离线计算 存储11年11月26日星期六
  42. 42. 数据产品实践11年11月26日星期六
  43. 43. 数据魔方 data.taobao.com11年11月26日星期六
  44. 44. 挑战 • 数据量巨大 • 商品更新 • 类目变化频繁 • 大单、走账 • 作弊、刷信用 • 数据安全 • 马太效应11年11月26日星期六
  45. 45. 数据魔方 • 淘宝第一个基于全量数据的数据产品 • 底层基于云计算 • 第一个成熟的、基于海量数据的商业数据产品 • 明年计划开放数据给第三方应用11年11月26日星期六
  46. 46. 数据魔方  -  数据模型11年11月26日星期六
  47. 47. 淘宝数据产品架构 Cubex   Index   Mytaobao   LisLng   Glider   API   Myfox   Prom   Andes   SearchEngine   3rd   KVProxy   MySQL   TC   Redis   HBase   Cloud   4711年11月26日星期六
  48. 48. 维度和指标 维度 指标 基本维度 买家维度 卖家维度 交易指标 成交店铺 行为指标 规模指标 时间 年龄 地区 GMV成交 Alipay成交 搜索人数 上架店铺 金额 金额 搜索次数 上架商品 类目 性别 卖家信用 笔数 笔数 浏览人数 活跃店铺 品牌 地区 卖家类型 人数 人数 浏览次数 活跃商品 产品 买家信用 促销方式 商品数 商品数 收藏人数 属性 购买频次 收藏次数 价格区间11年11月26日星期六
  49. 49. 11年11月26日星期六
  50. 50. 11年11月26日星期六
  51. 51. 淘宝指数 • 淘宝下一个重要的数据产品 • 完全免费 • 2011正式发布 • 流行趋势、消费者研究11年11月26日星期六
  52. 52. 11年11月26日星期六
  53. 53. 11年11月26日星期六
  54. 54. 11年11月26日星期六
  55. 55. 其他数据产品 • 淘宝魔镜 • TCIF • 母婴推荐 • 淘宝情报 • 卖家经营报告 • 商品评论分析系统 • 淘宝数据门户  * • LabsEngine  *11年11月26日星期六
  56. 56. 未来 • 开放 • 数据开放 • 平台开放 • 系统开源 • 实时   • 实时计算 • 流处理11年11月26日星期六
  57. 57. Thanks 微博:  @此处空无一人 kongwu@taobao.com11年11月26日星期六
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×