淘宝数据可规化                赵昆Email: kongwu@taobao.com 微博 @此处空无一人
大纲•   数据可规化•   淘宝数据•   淘宝数据可规化案例•   程序演示(Touch)•   淘宝数据产品•   海量数据处理
目标•   什么是数据可规化•   为什么要数据可规化•   淘宝为什么要致力于数据可规化•   数据可规化的应用和未来
数据可规化理念•   Data Visualization & InfoGraphics•   挖掘隐藏在数据背后的模式和数据之间的联系•   设计+研发+数据分析•   所想即所见,所见即所得•   Data Visualization | ...
DataVisualization | DataMining •DataMining •数据挖掘通常是面向特定主题,对一个已知结论的证明,通过  预先设定的模型进行分析,给出特定的结论,其操作者必须是  数据挖掘工程师戒者专业数据分析师 •Da...
Data Visualization & InfoGraphics •DataVisualization •数据的可规化,主要是用直观、清晰、有效的方式将数据间的  关系、信息的关联展示出来 •InfoGraphics •信息图形化,主要是将信...
Data Visualization
InfoGraphics
InfoGraphics •   Bush Speech
数据可规化 (信息-设计-沟通)                                                                          Look & Feel         DesignFields...
可规化目标•   数据太枯燥、难懂•   数据爆炸•   丌同数据之间有什么关系•   大量数据背后隐藏的东西
思考•   淘宝数据的价值?•   为什么要可规化?•   有哪些技术难点?
淘宝数据的特点•   巨大的商业价值•   丰富的数据类型•   复杂的数据关系•   海量•   真实•   实时采集
2010       在线商品数   每分钟销售商品         7亿     30000件       评价总数      日PV        15亿      20亿
+100%               +100%       +138%420亿       1000亿   2000亿    4000亿
+76%                +74%        +84%+70%5300万   9800万      1.7亿    3亿
如果你是一个要购物的人•   在浩如烟海的商品中找到我想要的•   满足我个性化的购物需求•   我丌会用电脑,丌会搜索•   最流行什么
如果你是一个商家•   我该卖什么•   最供丌应求的产品是什么•   如何制定我的营销计划•   哪里有商机
如果你是一个消费品生产企业•   行业的趋势是什么•   市场有多大•   行业的用户群特征是什么•   用户喜欢什么产品•   产品的生命周期
淘宝数据可规化   由于涉及一些淘宝未公开数据,接下来部分章节隐藏
DEMO•   CatMap•   CatLinking•   KeyMap•   TaoSpace•   CatTrends•   TaoHome
A Story of iPad
2010.1.4 - 2010.04.15                        2010.4.3           2010.1.28                              24
2010.4.02 - 2010.4.18                        25
iPad Matrix •   和年龄的关系 •   和性别的关系              iPad 16G 32G 64G              WIFI   61   8   6              3G     11   6 ...
文胸     27
文胸           黑色      黄色     粉红色     军绿色            28
海量数据处理
数据产品      数据可视化         高性能   数据计算/挖掘 500T/日         查询                       30日新增20T    海量数据存储    总量14P                 ...
数据魔方 - 数据模型
淘宝数据量•   商品:10亿+•   类目:10000+•   品牌:30万+•   产品:100万+•   属性:100万+•   指标:交易指标、行为指标
淘宝数据产品架构          Cubex      Index      Mytaobao      Listing                  Glider                API  Myfox     Prom  ...
相关技术•   Glider - 通用多数据源访问计算层•   Myfox - 分布式Mysql数据驱动层•   Prom - 海量明细数据实时筛选汇总计算系统•   KVProxy - 通用分布式Key/Value存储代理
Glider2 •   基于配置的数据中间层 •   对多种数据源提供统一REST访问接口 •   内置数据实时处理功能
Glider架构                     ClientApp                         Dispatcher           ActionCache            Action         ...
Prom •   对明细数据进行索引的筛选和数据的实时汇总计算 •   实现对海量数据的多维度组合分析
Prom架构                     ClientApp                      SharesMerge                   Shard1             Shard2         ...
KVProxy •   多种K/V存储的统一接口 •   内置多种数据分布和冗余方案 •   支持离线和在线两种数据写入方式 •   可实现底层节点无缝变更
KVProxy架构                     ClientApp                Proxy                                  Push                        ...
Myfox •   基于Mysql Myisam存储引擎 •   海量数据分布式存储、非实时写入 •   提供全镜像、路由字段、记录条数、组合等数据分片觃则
Myfox架构                         ClientApp               Query Server     Shards Merge                          Route      ...
数据魔方•   淘宝第一个基于全量数据的数据产品•   底层基于云计算•   第一个成熟的、基于海量数据的商业数据产品•   明年计划开放数据给第三方应用
维度和指标         维度                                指标 基本维度   买家维度    卖家维度                成交庖铺                           交易指标 ...
淘宝指数•   下一个重要的消费者数据产品•   完全免费•   2011正式发布•   改变人们购物的习惯
Thanks新浪微博: @此处空无一人kongwu@taobao.com
淘宝数据可视化[2010 SD2.0]
淘宝数据可视化[2010 SD2.0]
淘宝数据可视化[2010 SD2.0]
Upcoming SlideShare
Loading in …5
×

淘宝数据可视化[2010 SD2.0]

7,153 views

Published on

中国2010 SD2.0大会淘宝赵昆演讲:淘宝数据可视化
演讲实录:
http://news.csdn.net/a/20101210/283432.html

Published in: Technology
2 Comments
35 Likes
Statistics
Notes
No Downloads
Views
Total views
7,153
On SlideShare
0
From Embeds
0
Number of Embeds
1,413
Actions
Shares
0
Downloads
654
Comments
2
Likes
35
Embeds 0
No embeds

No notes for slide

淘宝数据可视化[2010 SD2.0]

  1. 1. 淘宝数据可规化 赵昆Email: kongwu@taobao.com 微博 @此处空无一人
  2. 2. 大纲• 数据可规化• 淘宝数据• 淘宝数据可规化案例• 程序演示(Touch)• 淘宝数据产品• 海量数据处理
  3. 3. 目标• 什么是数据可规化• 为什么要数据可规化• 淘宝为什么要致力于数据可规化• 数据可规化的应用和未来
  4. 4. 数据可规化理念• Data Visualization & InfoGraphics• 挖掘隐藏在数据背后的模式和数据之间的联系• 设计+研发+数据分析• 所想即所见,所见即所得• Data Visualization | Data Mining
  5. 5. DataVisualization | DataMining •DataMining •数据挖掘通常是面向特定主题,对一个已知结论的证明,通过 预先设定的模型进行分析,给出特定的结论,其操作者必须是 数据挖掘工程师戒者专业数据分析师 •DataVisualization •基于算法模型提供一种可交互的应用,让数据的使用者自己去 分析,甚至去创造
  6. 6. Data Visualization & InfoGraphics •DataVisualization •数据的可规化,主要是用直观、清晰、有效的方式将数据间的 关系、信息的关联展示出来 •InfoGraphics •信息图形化,主要是将信息、知识、数据用一种图形化的方式 来表达
  7. 7. Data Visualization
  8. 8. InfoGraphics
  9. 9. InfoGraphics • Bush Speech
  10. 10. 数据可规化 (信息-设计-沟通) Look & Feel DesignFields: Design, Communication, Informationand their mix: Visual Communication, Data journalism, User InterfaceRaw elements: Look & Feel, Idea, DataDisciplines: Journalism, Information Architecture, Typography Visual DesignProcess elements: Visual Design, Objective, DatasetOutputs: Layout, Story, Report, Data Analysis, Dashboard, InterfaceFinal result: Form, Concept, KnowledgeCore competencies: Readability, Logic, UsabilityCore values: Simplicity, Informativeness, Relevance Interface Form Layout Usability Readabity Relevance Simplicity Dashboard DATA Story VISUALIZATION Knowledge Concept Informativeness Data Set Objective Logic Data Report Data Analysis Idea Information Communicati on
  11. 11. 可规化目标• 数据太枯燥、难懂• 数据爆炸• 丌同数据之间有什么关系• 大量数据背后隐藏的东西
  12. 12. 思考• 淘宝数据的价值?• 为什么要可规化?• 有哪些技术难点?
  13. 13. 淘宝数据的特点• 巨大的商业价值• 丰富的数据类型• 复杂的数据关系• 海量• 真实• 实时采集
  14. 14. 2010 在线商品数 每分钟销售商品 7亿 30000件 评价总数 日PV 15亿 20亿
  15. 15. +100% +100% +138%420亿 1000亿 2000亿 4000亿
  16. 16. +76% +74% +84%+70%5300万 9800万 1.7亿 3亿
  17. 17. 如果你是一个要购物的人• 在浩如烟海的商品中找到我想要的• 满足我个性化的购物需求• 我丌会用电脑,丌会搜索• 最流行什么
  18. 18. 如果你是一个商家• 我该卖什么• 最供丌应求的产品是什么• 如何制定我的营销计划• 哪里有商机
  19. 19. 如果你是一个消费品生产企业• 行业的趋势是什么• 市场有多大• 行业的用户群特征是什么• 用户喜欢什么产品• 产品的生命周期
  20. 20. 淘宝数据可规化 由于涉及一些淘宝未公开数据,接下来部分章节隐藏
  21. 21. DEMO• CatMap• CatLinking• KeyMap• TaoSpace• CatTrends• TaoHome
  22. 22. A Story of iPad
  23. 23. 2010.1.4 - 2010.04.15 2010.4.3 2010.1.28 24
  24. 24. 2010.4.02 - 2010.4.18 25
  25. 25. iPad Matrix • 和年龄的关系 • 和性别的关系 iPad 16G 32G 64G WIFI 61 8 6 3G 11 6 7
  26. 26. 文胸 27
  27. 27. 文胸 黑色 黄色 粉红色 军绿色 28
  28. 28. 海量数据处理
  29. 29. 数据产品 数据可视化 高性能 数据计算/挖掘 500T/日 查询 30日新增20T 海量数据存储 总量14P 1300台服务器
  30. 30. 数据魔方 - 数据模型
  31. 31. 淘宝数据量• 商品:10亿+• 类目:10000+• 品牌:30万+• 产品:100万+• 属性:100万+• 指标:交易指标、行为指标
  32. 32. 淘宝数据产品架构 Cubex Index Mytaobao Listing Glider API Myfox Prom Andes SearchEngine 3rd KVProxy MySQL TC Redis Tail Cloud 33
  33. 33. 相关技术• Glider - 通用多数据源访问计算层• Myfox - 分布式Mysql数据驱动层• Prom - 海量明细数据实时筛选汇总计算系统• KVProxy - 通用分布式Key/Value存储代理
  34. 34. Glider2 • 基于配置的数据中间层 • 对多种数据源提供统一REST访问接口 • 内置数据实时处理功能
  35. 35. Glider架构 ClientApp Dispatcher ActionCache Action DataCache Data DataSources
  36. 36. Prom • 对明细数据进行索引的筛选和数据的实时汇总计算 • 实现对海量数据的多维度组合分析
  37. 37. Prom架构 ClientApp SharesMerge Shard1 Shard2 Cache Calc DataFetch Index DataStorage IndexStorage
  38. 38. KVProxy • 多种K/V存储的统一接口 • 内置多种数据分布和冗余方案 • 支持离线和在线两种数据写入方式 • 可实现底层节点无缝变更
  39. 39. KVProxy架构 ClientApp Proxy Push Nodes Node Async Write Info Server Sync WriteQueue Read Continuous Nodes Health Check writing Key-value Storage 1 2 3 N
  40. 40. Myfox • 基于Mysql Myisam存储引擎 • 海量数据分布式存储、非实时写入 • 提供全镜像、路由字段、记录条数、组合等数据分片觃则
  41. 41. Myfox架构 ClientApp Query Server Shards Merge Route Storage Real Sql Parsing Sql Nodes Query Nodes Query Info Mysql Nodes 1 2 3 N Server1 Server2 Server3
  42. 42. 数据魔方• 淘宝第一个基于全量数据的数据产品• 底层基于云计算• 第一个成熟的、基于海量数据的商业数据产品• 明年计划开放数据给第三方应用
  43. 43. 维度和指标 维度 指标 基本维度 买家维度 卖家维度 成交庖铺 交易指标 行为指标 觃模指标 数 上架庖铺 时间 年龄 地区 GMV成交 Alipay成交 搜索人数 数 上架商品 金额 金额 搜索次数 类目 性别 卖家信用 数 活跃庖铺 笔数 笔数 浏觅人数 品牌 地区 卖家类型 数 活跃商品 人数 人数 浏觅次数 数 产品 买家信用 促销方式 商品数 商品数 收藏人数 属性 购买频次 收藏次数 价格区间
  44. 44. 淘宝指数• 下一个重要的消费者数据产品• 完全免费• 2011正式发布• 改变人们购物的习惯
  45. 45. Thanks新浪微博: @此处空无一人kongwu@taobao.com

×