淘宝数据可规化
                赵昆
Email: kongwu@taobao.com 微博 @此处空无一人
大纲

•   数据可规化
•   淘宝数据
•   淘宝数据可规化案例
•   程序演示(Touch)
•   淘宝数据产品
•   海量数据处理
目标

•   什么是数据可规化
•   为什么要数据可规化
•   淘宝为什么要致力于数据可规化
•   数据可规化的应用和未来
数据可规化理念

•   Data Visualization & InfoGraphics
•   挖掘隐藏在数据背后的模式和数据之间的联系
•   设计+研发+数据分析
•   所想即所见,所见即所得
•   Data Visualization | Data Mining
DataVisualization | DataMining

 •DataMining
 •数据挖掘通常是面向特定主题,对一个已知结论的证明,通过
  预先设定的模型进行分析,给出特定的结论,其操作者必须是
  数据挖掘工程师戒者专业数据分析师
 •DataVisualization
 •基于算法模型提供一种可交互的应用,让数据的使用者自己去
  分析,甚至去创造
Data Visualization & InfoGraphics

 •DataVisualization
 •数据的可规化,主要是用直观、清晰、有效的方式将数据间的
  关系、信息的关联展示出来
 •InfoGraphics
 •信息图形化,主要是将信息、知识、数据用一种图形化的方式
  来表达
Data Visualization
InfoGraphics
InfoGraphics

 •   Bush Speech
数据可规化 (信息-设计-沟通)                                                                          Look & Feel         Design
Fields: Design, Communication, Information
and their mix: Visual Communication, Data journalism, User Interface
Raw elements: Look & Feel, Idea, Data
Disciplines: Journalism, Information Architecture, Typography                             Visual Design
Process elements: Visual Design, Objective, Dataset
Outputs: Layout, Story, Report, Data Analysis, Dashboard, Interface
Final result: Form, Concept, Knowledge
Core competencies: Readability, Logic, Usability
Core values: Simplicity, Informativeness, Relevance
                                                                              Interface          Form        Layout
                                                                              Usability                       Readabity
                                                                                    Relevance            Simplicity
                                                                        Dashboard             DATA                    Story
                                                                                          VISUALIZATION
                                                                              Knowledge                Concept
                                                                                       Informativeness

                                                                       Data Set                                       Objective
                                                                                                 Logic
                                                                                       Data
                                                                                                          Report
                                                           Data                       Analysis                                    Idea


                                                   Information                                                 Communicati
                                                                                                                  on
可规化目标

•   数据太枯燥、难懂
•   数据爆炸
•   丌同数据之间有什么关系
•   大量数据背后隐藏的东西
思考

•   淘宝数据的价值?
•   为什么要可规化?
•   有哪些技术难点?
淘宝数据的特点

•   巨大的商业价值
•   丰富的数据类型
•   复杂的数据关系
•   海量
•   真实
•   实时采集
2010




       在线商品数   每分钟销售商品
         7亿     30000件


       评价总数      日PV
        15亿      20亿
+100%




               +100%



       +138%

420亿


       1000亿   2000亿    4000亿
+76%




                +74%

        +84%
+70%


5300万   9800万      1.7亿    3亿
如果你是一个要购物的人

•   在浩如烟海的商品中找到我想要的
•   满足我个性化的购物需求
•   我丌会用电脑,丌会搜索
•   最流行什么
如果你是一个商家

•   我该卖什么
•   最供丌应求的产品是什么
•   如何制定我的营销计划
•   哪里有商机
如果你是一个消费品生产企业

•   行业的趋势是什么
•   市场有多大
•   行业的用户群特征是什么
•   用户喜欢什么产品
•   产品的生命周期
淘宝数据可规化

   由于涉及一些淘宝未公开数据,接下来部分章节隐藏
DEMO

•   CatMap
•   CatLinking
•   KeyMap
•   TaoSpace
•   CatTrends
•   TaoHome
A Story of iPad
2010.1.4 - 2010.04.15


                        2010.4.3




           2010.1.28




                              24
2010.4.02 - 2010.4.18




                        25
iPad Matrix

 •   和年龄的关系
 •   和性别的关系

              iPad 16G 32G 64G


              WIFI   61   8   6


              3G     11   6   7
文胸




     27
文胸




           黑色

      黄色

     粉红色

     军绿色




            28
海量数据处理
数据产品      数据可视化


         高性能   数据计算/挖掘 500T/日
         查询
                       30



日新增20T    海量数据存储    总量14P
                    1300台服务器
数据魔方 - 数据模型
淘宝数据量

•   商品:10亿+
•   类目:10000+
•   品牌:30万+
•   产品:100万+
•   属性:100万+
•   指标:交易指标、行为指标
淘宝数据产品架构

          Cubex      Index      Mytaobao      Listing

                  Glider                API


  Myfox     Prom            Andes    SearchEngine       3rd

                  KVProxy
 MySQL      TC      Redis     Tair



             Cloud
                                                          33
相关技术

•   Glider - 通用多数据源访问计算层
•   Myfox - 分布式Mysql数据驱动层
•   Prom - 海量明细数据实时筛选汇总计算系统
•   KVProxy - 通用分布式Key/Value存储代理
Glider2

 •   基于配置的数据中间层
 •   对多种数据源提供统一REST访问接口
 •   内置数据实时处理功能
Glider架构


                     ClientApp

                         Dispatcher

           ActionCache            Action
                            DataCache      Data



                   DataSources
Prom

 •   对明细数据进行索引的筛选和数据的实时汇总计算
 •   实现对海量数据的多维度组合分析
Prom架构

                     ClientApp

                      SharesMerge

                   Shard1             Shard2

         Cache         Calc

                 DataFetch    Index


         DataStorage IndexStorage
KVProxy

 •   多种K/V存储的统一接口
 •   内置多种数据分布和冗余方案
 •   支持离线和在线两种数据写入方式
 •   可实现底层节点无缝变更
KVProxy架构

                     ClientApp

                Proxy
                                  Push
                                  Nodes
                                            Node
             Async Write
                                  Info      Server
      Sync       WriteQueue
      Read
             Continuous
                              Nodes Health Check
             writing


       Key-value Storage 1 2 3 N
Myfox

 •   基于Mysql Myisam存储引擎
 •   海量数据分布式存储、非实时写入
 •   提供全镜像、路由字段、记录条数、组合等数据分片觃则
Myfox架构

                         ClientApp

               Query Server
     Shards Merge                          Route
                                          Storage
    Real                Sql Parsing
    Sql                                    Nodes
   Query              Nodes Query           Info


      Mysql Nodes                       1 2 3 N
   Server1    Server2         Server3
数据魔方

•   淘宝第一个基于全量数据的数据产品
•   底层基于云计算
•   第一个成熟的、基于海量数据的商业数据产品
•   明年计划开放数据给第三方应用
维度和指标

         维度                                指标


 基本维度   买家维度    卖家维度                成交庖铺
                           交易指标             行为指标       觃模指标
                                      数

                                                        上架庖铺
   时间     年龄      地区    GMV成交   Alipay成交        搜索人数
                                                          数

                                                        上架商品
                          金额       金额           搜索次数
   类目     性别     卖家信用                                     数

                                                        活跃庖铺
                          笔数       笔数           浏觅人数
   品牌     地区     卖家类型                                     数

                                                        活跃商品
                          人数       人数           浏觅次数
                                                          数
   产品    买家信用    促销方式
                         商品数      商品数           收藏人数
   属性    购买频次
                                                收藏次数

         价格区间
淘宝指数

•   下一个重要的消费者数据产品
•   完全免费
•   2011正式发布
•   改变人们购物的习惯
Thanks
新浪微博: @此处空无一人
kongwu@taobao.com

淘宝数据可视化[2010 SD2.0]

  • 1.
    淘宝数据可规化 赵昆 Email: kongwu@taobao.com 微博 @此处空无一人
  • 3.
    大纲 • 数据可规化 • 淘宝数据 • 淘宝数据可规化案例 • 程序演示(Touch) • 淘宝数据产品 • 海量数据处理
  • 4.
    目标 • 什么是数据可规化 • 为什么要数据可规化 • 淘宝为什么要致力于数据可规化 • 数据可规化的应用和未来
  • 5.
    数据可规化理念 • Data Visualization & InfoGraphics • 挖掘隐藏在数据背后的模式和数据之间的联系 • 设计+研发+数据分析 • 所想即所见,所见即所得 • Data Visualization | Data Mining
  • 6.
    DataVisualization | DataMining •DataMining •数据挖掘通常是面向特定主题,对一个已知结论的证明,通过 预先设定的模型进行分析,给出特定的结论,其操作者必须是 数据挖掘工程师戒者专业数据分析师 •DataVisualization •基于算法模型提供一种可交互的应用,让数据的使用者自己去 分析,甚至去创造
  • 7.
    Data Visualization &InfoGraphics •DataVisualization •数据的可规化,主要是用直观、清晰、有效的方式将数据间的 关系、信息的关联展示出来 •InfoGraphics •信息图形化,主要是将信息、知识、数据用一种图形化的方式 来表达
  • 8.
  • 9.
  • 10.
    InfoGraphics • Bush Speech
  • 11.
    数据可规化 (信息-设计-沟通) Look & Feel Design Fields: Design, Communication, Information and their mix: Visual Communication, Data journalism, User Interface Raw elements: Look & Feel, Idea, Data Disciplines: Journalism, Information Architecture, Typography Visual Design Process elements: Visual Design, Objective, Dataset Outputs: Layout, Story, Report, Data Analysis, Dashboard, Interface Final result: Form, Concept, Knowledge Core competencies: Readability, Logic, Usability Core values: Simplicity, Informativeness, Relevance Interface Form Layout Usability Readabity Relevance Simplicity Dashboard DATA Story VISUALIZATION Knowledge Concept Informativeness Data Set Objective Logic Data Report Data Analysis Idea Information Communicati on
  • 12.
    可规化目标 • 数据太枯燥、难懂 • 数据爆炸 • 丌同数据之间有什么关系 • 大量数据背后隐藏的东西
  • 13.
    思考 • 淘宝数据的价值? • 为什么要可规化? • 有哪些技术难点?
  • 14.
    淘宝数据的特点 • 巨大的商业价值 • 丰富的数据类型 • 复杂的数据关系 • 海量 • 真实 • 实时采集
  • 15.
    2010 在线商品数 每分钟销售商品 7亿 30000件 评价总数 日PV 15亿 20亿
  • 16.
    +100% +100% +138% 420亿 1000亿 2000亿 4000亿
  • 17.
    +76% +74% +84% +70% 5300万 9800万 1.7亿 3亿
  • 18.
    如果你是一个要购物的人 • 在浩如烟海的商品中找到我想要的 • 满足我个性化的购物需求 • 我丌会用电脑,丌会搜索 • 最流行什么
  • 19.
    如果你是一个商家 • 我该卖什么 • 最供丌应求的产品是什么 • 如何制定我的营销计划 • 哪里有商机
  • 20.
    如果你是一个消费品生产企业 • 行业的趋势是什么 • 市场有多大 • 行业的用户群特征是什么 • 用户喜欢什么产品 • 产品的生命周期
  • 21.
    淘宝数据可规化 由于涉及一些淘宝未公开数据,接下来部分章节隐藏
  • 22.
    DEMO • CatMap • CatLinking • KeyMap • TaoSpace • CatTrends • TaoHome
  • 23.
  • 24.
    2010.1.4 - 2010.04.15 2010.4.3 2010.1.28 24
  • 25.
  • 26.
    iPad Matrix • 和年龄的关系 • 和性别的关系 iPad 16G 32G 64G WIFI 61 8 6 3G 11 6 7
  • 27.
  • 28.
    文胸 黑色 黄色 粉红色 军绿色 28
  • 29.
  • 30.
    数据产品 数据可视化 高性能 数据计算/挖掘 500T/日 查询 30 日新增20T 海量数据存储 总量14P 1300台服务器
  • 31.
  • 32.
    淘宝数据量 • 商品:10亿+ • 类目:10000+ • 品牌:30万+ • 产品:100万+ • 属性:100万+ • 指标:交易指标、行为指标
  • 33.
    淘宝数据产品架构 Cubex Index Mytaobao Listing Glider API Myfox Prom Andes SearchEngine 3rd KVProxy MySQL TC Redis Tair Cloud 33
  • 34.
    相关技术 • Glider - 通用多数据源访问计算层 • Myfox - 分布式Mysql数据驱动层 • Prom - 海量明细数据实时筛选汇总计算系统 • KVProxy - 通用分布式Key/Value存储代理
  • 35.
    Glider2 • 基于配置的数据中间层 • 对多种数据源提供统一REST访问接口 • 内置数据实时处理功能
  • 36.
    Glider架构 ClientApp Dispatcher ActionCache Action DataCache Data DataSources
  • 37.
    Prom • 对明细数据进行索引的筛选和数据的实时汇总计算 • 实现对海量数据的多维度组合分析
  • 38.
    Prom架构 ClientApp SharesMerge Shard1 Shard2 Cache Calc DataFetch Index DataStorage IndexStorage
  • 39.
    KVProxy • 多种K/V存储的统一接口 • 内置多种数据分布和冗余方案 • 支持离线和在线两种数据写入方式 • 可实现底层节点无缝变更
  • 40.
    KVProxy架构 ClientApp Proxy Push Nodes Node Async Write Info Server Sync WriteQueue Read Continuous Nodes Health Check writing Key-value Storage 1 2 3 N
  • 41.
    Myfox • 基于Mysql Myisam存储引擎 • 海量数据分布式存储、非实时写入 • 提供全镜像、路由字段、记录条数、组合等数据分片觃则
  • 42.
    Myfox架构 ClientApp Query Server Shards Merge Route Storage Real Sql Parsing Sql Nodes Query Nodes Query Info Mysql Nodes 1 2 3 N Server1 Server2 Server3
  • 44.
    数据魔方 • 淘宝第一个基于全量数据的数据产品 • 底层基于云计算 • 第一个成熟的、基于海量数据的商业数据产品 • 明年计划开放数据给第三方应用
  • 45.
    维度和指标 维度 指标 基本维度 买家维度 卖家维度 成交庖铺 交易指标 行为指标 觃模指标 数 上架庖铺 时间 年龄 地区 GMV成交 Alipay成交 搜索人数 数 上架商品 金额 金额 搜索次数 类目 性别 卖家信用 数 活跃庖铺 笔数 笔数 浏觅人数 品牌 地区 卖家类型 数 活跃商品 人数 人数 浏觅次数 数 产品 买家信用 促销方式 商品数 商品数 收藏人数 属性 购买频次 收藏次数 价格区间
  • 47.
    淘宝指数 • 下一个重要的消费者数据产品 • 完全免费 • 2011正式发布 • 改变人们购物的习惯
  • 48.