SlideShare a Scribd company logo
1 of 52
Download to read offline
Netezza & BigData
—— 从数据获取商业价值


           郑晓军
           Netezza数据仓库 渠道经理
           IBM(中国)有限公司 软件部
内容提要

   从数据获取价值
   商业智能与云计算环境
   数据仓库一体机解决方案 —— Netezza
   关于BigData与数据仓库云的探讨




3                            © 2011 IBM Corporation
从数据获得价值
 信息的重要性不言而喻
    – 业务重心从流程自动化转向对市场的把握
    – 不确定性领域成为业务竞争焦点
    – 拥有信息 = 拥有财富
 IT的发展为数据的积累和采集提供了坚实的基础
    – 传统业务系统的普及促进数据的积累
    – 互联网、IT技术发展促进数据的采集
 数据的分析并将决策应用于业务是未来IT业最具发展潜力的一块
    – 数据仓库在中国历经10多年发展
     • 近两年依然势头不减,并有加速发展的趋势
    – IBM:“智慧地球”、”智慧城市”
    – 切身体会:
     •   移动客户呼叫行为分析 – 2000
     •   证交所内幕交易监测 – 2003
     •   移动通信公司竞争分析 – 2004
     •   公安系统案发特点分析 – 2008
     •   股指期货套利 – 2010
4                            © 2011 IBM Corporation
内容提要

   从数据获取价值
   商业智能与云计算环境
   数据仓库一体机解决方案 —— Netezza
   关于BigData与数据仓库云的探讨




5                            © 2011 IBM Corporation
云计算环境的兴起与数据仓库
 云计算环境
    – 低成本
      • 大量PC服务器组合
    – 高扩展性 + 动态扩展
      • 设备自由扩充、应用动态部署、适应业务的伸缩
    – 大容量、大数据量
      • 数以千计服务器
    – 采用冗余技术支持高可用性
 数据仓库领域看到了机会
    – BigData
      • 分布式并行文件系统
      • Map Reduce数据分割与访问执行
    – SQL支持
      • 以Hive为代表的SQL界面支持
    – 在BigData技术上构建下一代数据仓库成为热门话题
      • IBM与联通某省的试验项目
         – 历史详单数据
      • 阿里巴巴
         – 约1600台PC服务器构建Hadoop + Hive数据库
6                                          © 2011 IBM Corporation
内容提要

   从数据获取价值
   商业智能与云计算环境
   数据仓库一体机解决方案 —— Netezza
   关于BigData与数据仓库云的探讨




7                            © 2011 IBM Corporation
传统数据仓库系统的松散构建模式

BI Applications          Client                          RDBMS

                                         ODBC
                                         JDBC
                                         OLE DB
                                         SQL/92/99


                                                           Server



                                                     RDBMS
                                                          +
                                                     Server
                                                          + Storage
                                                      Storage




    Local Applications


8                                                                © 2011 IBM Corporation
数据仓库中数据库服务器的关键特征
     数据仓库的访问特征:大查询、复杂查询
     – 涉及的数据量大、范围大
         • 传统细颗粒索引作用有限
         • 顺序扫描压力增大
     – 多表连接
     – 涉及的聚合运算量大
     – 并发请求数较少
     分解大查询为多个小任务在各个节点上运行
     – 负载均衡多个查询请求已不是系统调优的主要目的
     各个节点间如何保证不互相影响、等待
     – 最大程度减少节点间的交互 – 彻底并行
     – Share Nothing or Share Everything (Share Disk)
         • Share Nothing是数据仓库的典型结构



9                                                       © 2011 IBM Corporation
非共享体系结构(Share Nothing)
     分区数据库模型
        数据库被分成多个分区
        数据库分区运行在各个节点上
        每个数据库分区具有自己的资源 (Engine, LogMg., LockMg., Caches,
         etc.)
        数据库协调所有分区进行并行处理
        对用户和应用来看,是一个单独的系统
                                 Fast communication manager




      Database
      Partition
                  data   log   data   log      data    log    data   log


                  Data   Log




                                              追求线性扩展能力!
10                                                                         © 2011 IBM Corporation
Balanced Configuration Unit - 所要达到的效果
                                                                    实际吞吐量
         传统的方法
                                        存储
                  系统       Share
                                               每个Array 中
         100%             Nothing      LUN部署   LUN的数量 磁盘容量
                                                                  RAID      50%
                  软件        架构

               查询性能得到有效地提高
                               30%+ 消耗在 I/O
                               较高的 I/O 等待
                               处理器使用较低
                               BI 性能问题 60%以上和I/O相关
     BCU 方法

                               服务器                       存储
         100%    数据库架构                                                       100%
                         内存     CPUs    群集/    架构   部署   LUNs 磁盘     RAID
                                                              容量
                                         SMP


                    +                  + TotalStorage®        =    高效的吞吐

         一体机的前身……

11                                                                       © 2011 IBM Corporation
IBM Netezza走在再聚合技术的前沿



                                   ODBC
                                   JDBC
                                  OLE DB
                                  SQL/92/99




                                              RDBMS
                                                +
                                              Server
                                                +
                                              Storage
     Local Applications


12                                                       Page 12
                                                    © 2011 IBM Corporation
Netezza AMPP™架构


              FPGA   CPU
                                           高级分析
                                           高级分析
                Memory


                                                 BI应用
                                                 BI应用
              FPGA   CPU
                                  hosts
                Memory             Hosts
                                                   ETL
                                                   ETL


              FPGA   CPU
                                           数据加载
                                           数据加载
                Memory


      磁盘阵列柜                网络结构            应用
              S-Blades™

               Netezza 一体机
 13                                        © 2011 IBM Corporation
传统的数据仓库架构:
服务器和存储之间的数据流存在重大瓶颈!!
                           大批的数据从磁盘中
                           “搬移”到内存,成为
                            整个系统的瓶颈


                    数据


查询结果




                   查询请求

       服务器      关系型数据库软件       存储


             数据首先被搬运到
             内存,然后由 SQL
               进行处理                       Confidential


 14                                 © 2011 IBM Corporation
Netezza数据仓库专用设备:
  性能的革命性突破

                   Netezza数据仓库设备
           CPU:
           仅为现有
           系统的2%
                         网络流量:
                         仅为现有
查询结果                     系统的1%




                      查询请求
       SMP主机                 MPP “智能存储”:
       (2-4 CPU)             数据处理单元与存储相结合

                     数据在进入到内存之前,已经经
                        过流式的数据处理                  Confidential


 15                                         © 2011 IBM Corporation
Disk
Netezza数据库加速卡
                  Memory
           CPUs
“只返回答案,而
不是原始数据”




                           FPGA




16                         © 2011 IBM Corporation
FPGA 简要说明

 FPGA (Field Programmable Gate Array) 即现场可编程门阵列
     – 它是在PAL, GAL, EPLD等可编程器件的基础上进一步发展的产物
 FPGA是作为专业集成电路(ASIC)领域中的一种半定制电路而出现的
     – 既解决了定制电路的灵活性不足
     – 又克服了原有可编程器件门电路数有限的缺点
 FPGA的使用非常灵活
     – 同一片FPGA通过不同的编程数据可以产程不同的电路功能
 FPGA在通信、数据处理、网络、仪器、工业控制、军事和航空航天
  等众多领域得到广泛的应用
     – FPGA是通用集成电路器件
 随着功耗和成本的进一步降低,FPGA还将进入更多的应用领域
     – Netezza把FPGA带入了数据库一体机的领域!




17                                         © 2011 IBM Corporation
FPGA 技术 – Bit流处理

       FPGAs跟踪业界领先的优势半导体技术
       这种技术的可定制化让我们得以不断增加新特性
       它的灵活性促使其在消费类电子产品中得以快速应用
        –   DVD播放器
        –   等离子显示器
        –   HDTV
        –   3D TV
       军事领域利用其实现低能耗下的高性能




       实时video 和 audio 处理




 18                               © 2011 IBM Corporation
Netezza数据流处理程序
SELECT DISTRICT,
       PRODUCTGRP,
       SUM(NRX)
From MTHLY_RX_TERR_DATA               FPGA Core                        CPU Core
WHERE MONTH=‘20091201’
AND MARKET=509123
AND SPECIALTY=‘GASTRO’




    Slice of TABLE
                                                                        聚合 ∑
MTHLY_RX_TERR_DATA
                          解压             投影(列)       过滤(行)
    (compressed)                                                      连接, 汇总, 等.


                          SELECT DISTRICT,       WHERE                   SUM(NRX)
                                                 MONTH=‘20091201’
                          PRODUCTGRP,            AND MARKET=509123
                                SUM(NRX)         AND
                                                 SPECIALTY=‘GASTRO’
每个 “Snippet处理器” (FPGA+CPU) 以高于115MB/秒的速度处理数据库的                              FPGA 的实际处理吞吐量:
                数据; 高压缩率 = 性能的提高                                                  460MB/s*


19                                                                                  © 2011 IBM Corporation
Netezza TwinFin™ 设备


                                用户数据切片
      磁盘阵列柜                     互换和镜像分区
                                高速数据流


                                SQL编译器
        SMP主机                   查询计划
                                优化管理



           Snippet              处理器 &
          Blades™               数据库逻辑流
      (S-Blades™)               高性能数据库引擎流加载,
                                聚合,排序等


                 Confidential


 20                                      © 2011 IBMPage 20
                                                    Corporation
Netezza S-Blade™




                             Page 21
 21                © 2011 IBM Corporation
Netezza S-Blade 构件




        IBM刀片服务器     Netezza数据库加速器


22                              © 2011 IBM Corporation
Netezza TwinFin™12系统规格

                                       • 8 个磁盘阵列柜
                                  • 96个1TB SAS 硬盘 (4 热备份)
                                         • RAID 1 镜像



                                        • 2个主机 (1主1备):
                                • 2 个Quad-Core Intel 2.6 GHz CPUs
                                       • 7x146 GB SAS硬盘
                                     • Red Hat Linux 5 64-bit

                                      • 12个Netezza S-Blades™:
                                 • 2 Intel Quad-Core 2+ GHz CPUs
                                  • 4 Dual-Engine 125 MHz FPGAs
                                         • 16 GB DDR2 RAM
                                        • Linux 64-bit Kernel


 • 用户数据容量:        128 TB**
                                     • 电源要求:                           7.6 kW
 • 数据扫描速度:        145 TB/hr**
                                     • 制冷要求:                           7.8 kW
 • 装载速度 (每个系统):   2+ TB/hr
                  **: 假设4倍压缩比

 23                                                                 © 2011 IBM Corporation
数据镜像(Disk Mirroring)和故障保护(Failover)

      主空间

      镜像空间

      临时空间




     所有用户数据和临时空间镜像保护

     磁盘故障对查询和交易透明

     故障磁盘驱动的数据自动重生成

     坏数据区自动重写以及自动迁移至新安全区

 24                                   © 2011 IBM Corporation
TwinFin™ 存储和网络连接
                       “(TF6) 模块构建”



Disk Enclosures                       32x3 Gb/s SAS



 SAS Switches
                                      4x3 Gb/s SAS

     S-Blades™

                                        2x GigE

     IP Switches                         10 GigE

       Hosts



25                                       © 2011 IBM Corporation
高可用性 – 系统关键数据的三重保护
     磁盘层面的数据镜像以及故障保护技术
     磁盘层面的数据镜像以及故障保护技术

     Raid 1实现不同磁盘之间的数据镜像
     Raid 1实现不同磁盘之间的数据镜像
      每个S-Blade均有Failover盘,支持磁盘级别的自动恢复上线
      每个S-Blade均有Failover盘,支持磁盘级别的自动恢复上线
      支持在线更换损坏磁盘
      支持在线更换损坏磁盘

     S-Blade层面的互备
     S-Blade层面的互备

      磁盘驱动器自动重分配给相同底架上的活动的S-Blades。支持在线
      磁盘驱动器自动重分配给相同底架上的活动的S-Blades。支持在线
     更换S-Blade
     更换S-Blade
      只读查询 (还没有返回数据的) 自动重新开始
      只读查询 (还没有返回数据的) 自动重新开始
      交易事物和装载中断-装载自动从上一成功的 checkpoint处重新开始
      交易事物和装载中断-装载自动从上一成功的 checkpoint处重新开始

     Linux HA + 分布式块复制设备(DRDB Protocol C)
     Linux HA + 分布式块复制设备(DRDB Protocol C)

      Linux HA 支持主机(HOST)的高可用性
      Linux HA 支持主机(HOST)的高可用性
      分布式块复制设备采用严格同步的模式,保证主备机关键数据库文
      分布式块复制设备采用严格同步的模式,保证主备机关键数据库文
     件所在的目录保持严格同步,避免任何可能的控制文件丢失
     件所在的目录保持严格同步,避免任何可能的控制文件丢失

26                                          © 2011 IBM Corporation
好的分布: 2.2万亿条记录




27               © 2011 IBM Corporation
TM
Zone Maps – “自由”的存在,自动维护,无需干预
  每个磁盘extent包含来自于各个
   表的记录
  我们在每个extent上跟踪字段的
   最大最小值
  Zone maps可以对
   date, timestamp, byteint,
   smallint, integer和bigint型数据生
   效
  当数据被loaded / updated /
   deleted时Zone maps自动更新
  没有对load / update / delete 速度
   的影响




28                                © 2011 IBM Corporation
Zone Maps…自动分区
 Zone Maps
      – 利用内在的数据顺序
      – 在一个数据切片内….
         • 为表中的每一列(Integers, timestamps, dates型)
           – 按每个extent收集最大最小值
           – 每条搜集到的记录插入zonemap中为该表准备的数据区中.
 当一个查询运行时, 数据切片减少到只扫描一部分extents
 自动配置
      – 在搜集统计信息时Stats
      – 在Loads时
      – 在inserts, updates, loads和reclaims时.




 29                                                © 2011 IBM Corporation
Zone Maps
 •    Zone Maps可以用于只扫描相关数据
 •    系统知道数据在不在extents上,并只扫描有关的表extents

                                      …

                                      …

                                      …

                                      …

                                      …

                                      …

                                      …

 30
                               Base Table   © 2011 IBM Corporation
后台表整理Table Grooming
                                整理好的表
      整理好的记录




       删除的记录




      新增加的记录




 简单,一步命令聚拢数据 并召回reclaim未使用空间
 在一个原子操作时磁盘extents的区域整理 一次
 作为后台过程运行,对执行查询的终端用户透明
 31                                © 2011 IBM Corporation
简单的工作负载限制
 可以在系统级设定一些简单的工作负载限制
 这些限制可以在全局设,按 group 设或按 user 设
 它们立即生效
 极少需要应用基础级别的全局控制




32                                © 2011 IBM Corporation
工作负载管理
工作负载管理 (WLM) 提供可选的功能来管理资源,在不同的多用户环境下设定资源使
  用的优先级,来满足混合用户工作负载下的需求
 保障资源分配(GRA)
     – 在多用户环境下在多组用户中分配 NPS资源的机制
 分优先级查询执行 (PQE)
     – 更细粒度的控制资源分配,从计划到执行层面进一步扩充查询优先级的
       控制
 短查询倾向(SQB)
     – 在系统工作负载量很大的情况下,保证执行短查询的用户获得更快速的
       高优先级的查询响应时间
 工作负载限制(GRA)
     – 可以利用group定义的JOB MAXIMUM属性来控制被本组提交的活动的运
       行任务的数量




33                                    © 2011 IBM Corporation
工作负载管理控制: GRA




     当三个资源组都有任务在系统上运行时,GRA计划器开始工作来平衡任务和资源利用的关系,
     如下图所示:




34                                        © 2011 IBM Corporation
GRA + PQE: 权重low=1, normal=2, high=4, critical=8


      因而,critical任务将会获得Analysts组的50%分配资源中的80%,即总资源的40%。 Normal任
      务将获得50%中20%,即总资源的10%




 35                                                     © 2011 IBM Corporation
缺省的工作负载管理: SQB

 短查询倾向 (SQB)
     – 短查询优先于长时间运行的查询
     – 对执行短查询的用户实时响应
     – 在大型混合工作负载环境中SQB是非常重要的特征



                         8 Items or Less




                         Full Carts Here




                         Full Carts Here


36                                         © 2011 IBM Corporation
利用IBM Tivoli做的典型BAR配置
                                                                             Backup Media
                        Tivoli Storage Manager Server
                                                                      TAPE    TAPE   TAPE
                                                                       LIB     LIB    LIB




                                                 SAN (Optional)
               LAN


      Client         Client   Client




                                                         TSM Client



                                                        Backup Script


                                                         Linux Host                         SPUs
                                                             Netezza Performance Server
 37                                                                                           © 2011 IBM Corporation
备份与恢复特征
  与第三方BAR工具的企业级集成和认证
     –   利用主流的backup和restore工具简化部署
     –   支持X/Open Backup Services API (XBSA)
     –   经过IBM Tivoli Storage Manager认证
     –   经过Symantec的Veritas NetBackup™ 认证
  增量backup和restore
     – 与全量备份比较显著缩短备份时间
     – 在NZBACKUP工具中可用
     – 全部或部分恢复选项



         Sun      Mon      Tue     Wed      Thu          Fri      Sat
     Full




               Diff     Diff             Diff     Diff         Diff
                                 Cum


38                                                                      © 2011 IBM Corporation
Netezza TwinFin 可靠的可扩展性

                            基于share-nothing -- 数据仓库级被证明最有效的架构
                            基于share-nothing 数据仓库级被证明最有效的架构
                                                                          1               10




                                                                                  ...
                            严格遵循MPP的原则,充分发挥系统资源的潜能:
                            严格遵循MPP的原则,充分发挥系统资源的潜能:
                            1颗CPU Core  1颗FPGA Core  1个DISK
                            1颗CPU Core  1颗FPGA Core  1个DISK

                   TF3      TF6   TF12     TF24        ...   TF48   ...        TF120
                            TwinFin之间通过SAS Switch直接相连,减少可能的
                            TwinFin之间通过SAS Switch直接相连,减少可能的
Snippet 处理器         24      48     96     192          384                       960
                            网络瓶颈
                            网络瓶颈
     容量 (TB)        8       16    32        64               128                 320

     压缩 (TB)        32      64   128      256
                            以上特性配合Netezza独特的硬件流性加速技术512                         1280
                            以上特性配合Netezza独特的硬件流性加速技术
                            (FPGA),使TwinFin轻松达到PB级的数据可扩展
                            (FPGA),使TwinFin轻松达到PB级的数据可扩展
                            性
                            性



     容量        = 用户数据空间
     压缩        = 有效用户数据空间




39                                                                            © 2011 IBM Corporation
Netezza 的管理简单




40              © 2011 IBM Corporation
Netezza一体机数据查询与装载

报表&分析                                          数据集成




                          OLE-DB




                                   OLE-DB
Actuate
                                               Ab Initio
Business Objects/SAP
                                               Business
Cognos (IBM)                                   Objects/SAP
Information Builders                           Composite




                          JDBC




                                   JDBC
Kalido                                         Software

KXEN                                           Expressor

MicroStrategy          数据检出             数据载入   Software
                                               GoldenGate
                          ODBC




                                   ODBC
Oracle OBIEE                                   Software (Oracle)
QlikTech                                       Informatica
Quest Software                                 IBM Information
                          SQL




                                   SQL
SAS                                            Server

SPSS (IBM)                                     Sunopsis (Oracle)

Unica (IBM)                                    WisdomForce




41                                               © 2011 IBM Corporation
复杂查询…
SELECT
                                                  ADMIN.MBR_GIFT_HIST.AMT_CD,           FROM                                                                                   ADMIN.MBR_BY_GIFT.FSCL_YTD_AVG,
sum(ADMIN.MBR_GIFT_HIST.GIFT_AMT),                                                       ADMIN.MBR_NM_ADDR,
                                                   ADMIN.MBR_GIFT_HIST.LOT_CD,                                                                                                 ADMIN.MBR_BY_GIFT.PREV_FSCL_YR_AVG,
count(ADMIN.MBR_GIFT_HIST.GIFT_DT),                                                      ADMIN.MBR_PRFL LEFT OUTER JOIN ADMIN.REF_RCNCY_CD Member_Recency_CD ON                ADMIN.MBR_BY_GIFT.LFTM_AVG,
                                                   ADMIN.MBR_GIFT_HIST.CARE_GVNG_CD,    Member_Recency_CD.RCNCY_CD=ADMIN.MBR_PRFL.RCNCY_CD LEFT OUTER JOIN                     ADMIN.MBR_GIFT_HIST.MAIL_KEY_CD,
count(distinct ADMIN.MBR_GIFT_HIST.MBR_ID),
                                                   ADMIN.MBR_GIFT_HIST.SRC_CD,          ADMIN.REF_FREQ_CD Member_Frequecncy_CD ON                                              ADMIN.MBR_GIFT_HIST.CPGN_TYP,
ADMIN.MBR_NM_ADDR.ADDR_TYP,
                                                                                        Member_Frequecncy_CD.FREQ_CD=ADMIN.MBR_PRFL.FREQ_CD LEFT OUTER JOIN                    Gift_Campaign_Type.CPGN_TYP_DESC,
                                                   Gift_Caregiver.CARE_GVNG_CD_DESC,
ADMIN.MBR_NM_ADDR.ADDR_LINE_1,                                                          ADMIN.REF_AMT_CD Member_Amount_CD ON                                                   ADMIN.MBR_GIFT_HIST.DONOR_CLASS_CD,
                                                   ADMIN.MBR_GIFT_HIST.RSP_CD,          Member_Amount_CD.AMT_CD=ADMIN.MBR_PRFL.AMT_CD,
ADMIN.MBR_NM_ADDR.ADDR_LINE_2,                                                                                                                                                 Gift_Donor_Class.DONOR_CLASS_CD_DESC,
                                                   Gift_Source_CD.SRC_CD,                ADMIN.MBR_BY_GIFT,                                                                    ADMIN.MBR_GIFT_HIST.CPGN_AUDNC_CD,
ADMIN.MBR_NM_ADDR.CITY,
                                                   ADMIN.MBR_GIFT_HIST.PREM_TYP,         ADMIN.MBR_GIFT_HIST LEFT OUTER JOIN ADMIN.REF_CPGN_TYP Gift_Campaign_Type ON          Gift_Cpgn_Audience.CPGN_AUDNC_CD_DESC,
ADMIN.MBR_NM_ADDR.STATE_CD,                                                             ADMIN.MBR_GIFT_HIST.CPGN_TYP=Gift_Campaign_Type.CPGN_TYP LEFT OUTER JOIN               ADMIN.MBR_GIFT_HIST.CPGN_YR,
                                                   Gift_Response_Code.RSP_CD_DESC,      ADMIN.REF_DONOR_CLASS_CD Gift_Donor_Class ON
ADMIN.MBR_NM_ADDR.ZIP_CD_BASE,                                                                                                                                                 ADMIN.MBR_GIFT_HIST.PRFL_CD,
                                                   Gift_Premium_Type.PREM_TYP_DESC,     ADMIN.MBR_GIFT_HIST.DONOR_CLASS_CD=Gift_Donor_Class.DONOR_CLASS_CD LEFT OUTER JOIN     ADMIN.MBR_GIFT_HIST.CPGN_NUM,
ADMIN.MBR_NM_ADDR.ZIP_CD_SUFX,
                                                   ADMIN.MBR_GIFT_HIST.MBR_ID,          ADMIN.REF_CPGN_AUDNC_CD Gift_Cpgn_Audience ON                                          ADMIN.MBR_GIFT_HIST.PKG_CD,
ADMIN.MBR_PRFL.RCNCY_CD,                                                                ADMIN.MBR_GIFT_HIST.CPGN_AUDNC_CD=Gift_Cpgn_Audience.CPGN_AUDNC_CD LEFT OUTER JOIN
                                                   ADMIN.MBR_GIFT_HIST.GIFT_DT,                                                                                                Gift_Profile_CD.PRFL_CD_DESC,
ADMIN.MBR_PRFL.FREQ_CD,                                                                 ADMIN.REF_PRFL_CD Gift_Profile_CD ON Gift_Profile_CD.PRFL_CD=ADMIN.MBR_GIFT_HIST.PRFL_CD
                                                                                                                                                                               ADMIN.MBR_GIFT_HIST.RCNCY_CD,
                                                   ADMIN.MBR_GIFT_HIST.GIFT_AMT,        LEFT OUTER JOIN ADMIN.REF_RCNCY_CD Gift_Recency_CD ON                                  ADMIN.MBR_GIFT_HIST.FREQ_CD,
Member_Recency_CD.RCNCY_CD_DESC,
                                                   ADMIN.MBR_GIFT_HIST.AFFL_CD,         Gift_Recency_CD.RCNCY_CD=ADMIN.MBR_GIFT_HIST.RCNCY_CD LEFT OUTER JOIN                  Gift_Recency_CD.RCNCY_CD_DESC,
ADMIN.MBR_PRFL.AMT_CD,
                                                  ADMIN.MBR_GIFT_HIST.UPDT_NUM,         ADMIN.REF_FREQ_CD Gift_Frequency_CD ON                                                 ADMIN.MBR_GIFT_HIST.AMT_CD,
 ADMIN.MBR_PRFL.RCNCY_CD || ADMIN.MBR_PRFL.FREQ_CD,                                     ADMIN.MBR_GIFT_HIST.FREQ_CD=Gift_Frequency_CD.FREQ_CD LEFT OUTER JOIN                  Gift_Frequency_CD.FREQ_CD_DESC,
                                                  ADMIN.MBR_GIFT_HIST.LAST_UPDT_DT,     ADMIN.REF_AMT_CD Gift_Amount_CD ON ADMIN.MBR_GIFT_HIST.AMT_CD=Gift_Amount_CD.AMT_CD
 ADMIN.MBR_PRFL.RCNCY_CD || ADMIN.MBR_PRFL.FREQ_CD ||                                                                                                                          ADMIN.MBR_GIFT_HIST.RCNCY_CD ||
                                                  ADMIN.MBR_NM_ADDR.SALU_LINE_1,        LEFT OUTER JOIN ADMIN.REF_RSP_CD Gift_Response_Code ON                                ADMIN.MBR_GIFT_HIST.FREQ_CD,
ADMIN.MBR_PRFL.AMT_CD,
                                                  ADMIN.MBR_NM_ADDR.SALU_LINE_2,        Gift_Response_Code.RSP_CD=ADMIN.MBR_GIFT_HIST.RSP_CD LEFT OUTER JOIN                   Gift_Amount_CD.AMT_CD_DESC,
 Member_Frequecncy_CD.FREQ_CD_DESC,                                                     ADMIN.REF_SRC_CD Gift_Source_CD ON Gift_Source_CD.SRC_CD=ADMIN.MBR_GIFT_HIST.SRC_CD
                                                  ADMIN.MBR_NM_ADDR.SALU_LINE_3,                                                                                               ADMIN.MBR_GIFT_HIST.RCNCY_CD ||
 Member_Amount_CD.AMT_CD_DESC,                                                          LEFT OUTER JOIN ADMIN.REF_PREM_TYP Gift_Premium_Type ON                               ADMIN.MBR_GIFT_HIST.FREQ_CD || ADMIN.MBR_GIFT_HIST.AMT_CD,



                                                                                       通过BO拖拽生成的 …
                                                  ADMIN.MBR_PRFL.UPDT_NUM,              Gift_Premium_Type.PREM_TYP=ADMIN.MBR_GIFT_HIST.PREM_TYP LEFT OUTER JOIN                ADMIN.MBR_GIFT_HIST.LOT_CD,
 Member_Recency_CD.RCNCY_CD_DESC || ' ' ||
                                                  ADMIN.MBR_PRFL.LAST_UPDT_DT,          ADMIN.REF_CARE_GVNG_CD Gift_Caregiver ON                                               ADMIN.MBR_GIFT_HIST.CARE_GVNG_CD,
Member_Frequecncy_CD.FREQ_CD_DESC,
                                                  ADMIN.MBR_NM_ADDR.INSIDE_SALU_NM,     ADMIN.MBR_GIFT_HIST.CARE_GVNG_CD=Gift_Caregiver.CARE_GVNG_CD                           ADMIN.MBR_GIFT_HIST.SRC_CD,
 Member_Recency_CD.RCNCY_CD_DESC || ' ' ||                                              WHERE                                                                                  Gift_Caregiver.CARE_GVNG_CD_DESC,
                                                  ADMIN.MBR_PRFL.MBR_ID,                 ( ADMIN.MBR_NM_ADDR.MBR_ID=ADMIN.MBR_PRFL.MBR_ID )
Member_Frequecncy_CD.FREQ_CD_DESC || ' ' ||                                                                                                                                    ADMIN.MBR_GIFT_HIST.RSP_CD,
                                                  ADMIN.MBR_PRFL.ACCT_TYP,               AND ( ADMIN.MBR_BY_GIFT.MBR_ID=ADMIN.MBR_PRFL.MBR_ID )                                Gift_Source_CD.SRC_CD,
Member_Amount_CD.AMT_CD_DESC,
                                                  ADMIN.MBR_PRFL.ACCT_CAT_CD,            AND ( ADMIN.MBR_PRFL.MBR_ID=ADMIN.MBR_GIFT_HIST.MBR_ID )                              ADMIN.MBR_GIFT_HIST.PREM_TYP,
 ADMIN.MBR_BY_GIFT.FRST_GIFT_AMT,                                                        AND (
                                                  ADMIN.MBR_PRFL.AFFL_CD,                                                                                                      Gift_Response_Code.RSP_CD_DESC,
 ADMIN.MBR_BY_GIFT.FRST_GIFT_DT,                                                         ADMIN.MBR_PRFL.MBR_ID = '00331415'                                                    Gift_Premium_Type.PREM_TYP_DESC,


                                                                                       6亿条记录的事实表
                                                  ADMIN.MBR_PRFL.CHAP_IND,               )                                                                                     ADMIN.MBR_GIFT_HIST.MBR_ID,
 ADMIN.MBR_BY_GIFT.LAST_GIFT_AMT,
                                                  ADMIN.MBR_PRFL.RSP_CD,                GROUP BY                                                                               ADMIN.MBR_GIFT_HIST.GIFT_DT,
 ADMIN.MBR_BY_GIFT.LAST_GIFT_DT,
                                                  ADMIN.MBR_PRFL.NEW_MBR_FLG,            ADMIN.MBR_NM_ADDR.ADDR_TYP,                                                           ADMIN.MBR_GIFT_HIST.GIFT_AMT,
 ADMIN.MBR_BY_GIFT.HGST_GIFT_AMT,                                                        ADMIN.MBR_NM_ADDR.ADDR_LINE_1,                                                        ADMIN.MBR_GIFT_HIST.AFFL_CD,
                                                  ADMIN.MBR_PRFL.SEED_FLG,               ADMIN.MBR_NM_ADDR.ADDR_LINE_2,
 ADMIN.MBR_BY_GIFT.HGST_GIFT_DT,                                                                                                                                               ADMIN.MBR_GIFT_HIST.UPDT_NUM,
                                                  ADMIN.MBR_PRFL.SLCITN_CD               ADMIN.MBR_NM_ADDR.CITY,                                                               ADMIN.MBR_GIFT_HIST.LAST_UPDT_DT,
 ADMIN.MBR_BY_GIFT.HGST_GIFT_LAST_24_MTH,
                                                                                         ADMIN.MBR_NM_ADDR.STATE_CD,                                                           ADMIN.MBR_NM_ADDR.SALU_LINE_1,
ADMIN.MBR_BY_GIFT.FSCL_YTD_AVG,                                                          ADMIN.MBR_NM_ADDR.ZIP_CD_BASE,                                                        ADMIN.MBR_NM_ADDR.SALU_LINE_2,



                                                                                       13个join
ADMIN.MBR_BY_GIFT.PREV_FSCL_YR_AVG,                                                      ADMIN.MBR_NM_ADDR.ZIP_CD_SUFX,                                                        ADMIN.MBR_NM_ADDR.SALU_LINE_3,
ADMIN.MBR_BY_GIFT.LFTM_AVG,                                                              ADMIN.MBR_PRFL.RCNCY_CD,                                                              ADMIN.MBR_PRFL.UPDT_NUM,
                                                                                         ADMIN.MBR_PRFL.FREQ_CD,                                                               ADMIN.MBR_PRFL.LAST_UPDT_DT,
ADMIN.MBR_GIFT_HIST.MAIL_KEY_CD,                                                         Member_Recency_CD.RCNCY_CD_DESC,                                                      ADMIN.MBR_NM_ADDR.INSIDE_SALU_NM,
ADMIN.MBR_GIFT_HIST.CPGN_TYP,                                                            ADMIN.MBR_PRFL.AMT_CD,                                                                ADMIN.MBR_PRFL.MBR_ID,
Gift_Campaign_Type.CPGN_TYP_DESC,                                                        ADMIN.MBR_PRFL.RCNCY_CD || ADMIN.MBR_PRFL.FREQ_CD,                                    ADMIN.MBR_PRFL.ACCT_TYP,
                                                                                         ADMIN.MBR_PRFL.RCNCY_CD || ADMIN.MBR_PRFL.FREQ_CD || ADMIN.MBR_PRFL.AMT_CD,           ADMIN.MBR_PRFL.ACCT_CAT_CD,
ADMIN.MBR_GIFT_HIST.DONOR_CLASS_CD,
                                                                                         Member_Frequecncy_CD.FREQ_CD_DESC,                                                    ADMIN.MBR_PRFL.AFFL_CD,
Gift_Donor_Class.DONOR_CLASS_CD_DESC,                                                    Member_Amount_CD.AMT_CD_DESC,                                                         ADMIN.MBR_PRFL.CHAP_IND,


                                                                                       75个group by
ADMIN.MBR_GIFT_HIST.CPGN_AUDNC_CD,                                                       Member_Recency_CD.RCNCY_CD_DESC || ' ' || Member_Frequecncy_CD.FREQ_CD_DESC,          ADMIN.MBR_PRFL.RSP_CD,
Gift_Cpgn_Audience.CPGN_AUDNC_CD_DESC,                                                   Member_Recency_CD.RCNCY_CD_DESC || ' ' || Member_Frequecncy_CD.FREQ_CD_DESC || ' ' || ADMIN.MBR_PRFL.NEW_MBR_FLG,
                                                                                        Member_Amount_CD.AMT_CD_DESC,                                                          ADMIN.MBR_PRFL.SEED_FLG,
ADMIN.MBR_GIFT_HIST.CPGN_YR,                                                             ADMIN.MBR_BY_GIFT.FRST_GIFT_AMT,                                                      ADMIN.MBR_PRFL.SLCITN_CD;
ADMIN.MBR_GIFT_HIST.PRFL_CD,                                                             ADMIN.MBR_BY_GIFT.FRST_GIFT_DT,
ADMIN.MBR_GIFT_HIST.CPGN_NUM,                                                            ADMIN.MBR_BY_GIFT.LAST_GIFT_AMT,
                                                                                         ADMIN.MBR_BY_GIFT.LAST_GIFT_DT,
ADMIN.MBR_GIFT_HIST.PKG_CD,
                                                                                         ADMIN.MBR_BY_GIFT.HGST_GIFT_AMT,
Gift_Profile_CD.PRFL_CD_DESC,


                                                                                       Oracle: 用了数小时完成
                                                                                         ADMIN.MBR_BY_GIFT.HGST_GIFT_DT,
ADMIN.MBR_GIFT_HIST.RCNCY_CD,                                                            ADMIN.MBR_BY_GIFT.HGST_GIFT_LAST_24_MTH,
ADMIN.MBR_GIFT_HIST.FREQ_CD,
Gift_Recency_CD.RCNCY_CD_DESC,
ADMIN.MBR_GIFT_HIST.AMT_CD,
Gift_Frequency_CD.FREQ_CD_DESC,
ADMIN.MBR_GIFT_HIST.RCNCY_CD || ADMIN.MBR_GIFT_HIST.FREQ_CD,



                                                                                       Netezza: 只用了3分钟
Gift_Amount_CD.AMT_CD_DESC,
ADMIN.MBR_GIFT_HIST.RCNCY_CD || ADMIN.MBR_GIFT_HIST.FREQ_CD ||




         42                                                                                                                                                                                           © 2011 IBM Corporation
管理 Netezza
        不需要索引 indexes 和调优 tuning


        不需要存储管理

       没有dbspace/tablespace容量规划和配置
       无需redo/physical/Logical log的规划和配置
       无需表的page/block 规划和配置
       无需 表的extent规划和配置
       无需临时空间Temp space分配和监控
       无需dbspaces 级RAID级别选择
       无需文件的逻辑卷logical volume创建
       无需推荐OS kernel 的集成
       无需操作系统OS建议补丁级别的维护
       无需 JAD sessions 的 host/network/storage配置

        不需要软件安装




 43                                                © 2011 IBM Corporation
Netezza的技术方向选择正确吗? 历史证明:
 October 2006 – NPS 3.1 系统软件 在 3代硬件上
   – 比大多数竞争性数据库快100x倍

 August 2007 – NPS 4.0 系统软件 在3代硬件上
   – 比NPS 3.1 SW获得100%的性能提升. 没有HW变化.

 May 2008 NPS 4.5 系统软件 在 3代硬件上
   – 比NPS 4.0 SW获得100%的性能提升. 没有HW变化.

 August 2009 Netezza TwinFin 4代一体机 NPS 5.0 SW
   – 比NPS 4.5 SW和3代HW 获得2x到10x倍的性能提升.

 October 2010 NPS 6.0 系统软件
   – 比NPS 5.0 SW获得100%的性能提升. 没有HW变化.

 对于我们发布的每一代一体机,在同等硬件条件下仅通过软件更新,我们就证明了2x
  到10x倍的性能提升!

 没有其他RDBMS厂商显示出这种让同样的一组硬件在速度上不断提升的先例,我们
  独一无二的做到了.

 我们期望我们的性能提升按这种步伐持续下去…

 44                                              © 2011 IBM Corporation
Gartner报告: 一体机(Appliance)是企业数据仓库的未来

                          Gartner把一项新产品走向成熟
                          的生命周期分为“技术触发、期望
                          膨胀、理性回归、增长上升、高
                          原稳定”五个阶段。

                          Gartner 2010年7月的分析报告
                          认为:“一体机”已经进入“增长上
                          升期”,两年内将被各行业大规模
                          应用。




                          到2015年,全球将有
                          至少50%的企业选择
                          一体机作为自己的数
                          据仓库解决方案



45                                  © 2011 IBM Corporation
内容提要

    从数据获取价值
    商业智能与云计算环境
    数据仓库一体机解决方案 —— Netezza
    关于BigData与数据仓库云的探讨




46                            © 2011 IBM Corporation
数据仓库一体机的特点
 集成度更高
     – 一个标准机箱最大限度完成特定任务
 配置更合理、速度更快
     – 存储、控制器、I/O通道、内存、CPU、网络均衡设计
      • 针对数据仓库访问最优设计
     – 比传统类似平台高出一个数量级以上
 整体能耗更低
     – 同等计算任务,能耗最低
 系统更加稳定可靠
     – 消除各种单点故障环节
     – 统一个部件、器件的品质和标准
 管理维护费用低
     – 数据仓库的常规管理全部集成
     – 大大简化物理设计环节
 可规划和预见的系统扩容、升级路线图
     – 系统扩充、软件升级、旧设备回收
47                                  © 2011 IBM Corporation
云计算环境作为数据仓库平台考虑
 互联网应用系统的构建              数据仓库系统的构建
     – 客户群体不确定            – 用户群体明确
      • 从无到有、从少到多          • 管理层
     – 系统规模不确定             • 业务分析人员
      • 与业务发展关系密切          • 业务操作人员
     – 系统投资不固定            – 数据仓库规模可估算
      • 与业务发展关系密切          •   与业务规模有联系但不是一一对应
     – 业务应用有很清晰的并行分割特征     •   数据仓库有起始规模
      • 互联网搜索              •   数据仓库与业务分析的需求有关
      • 电子商务               •   数据仓库与业务系统的规模可控
                          – 数据仓库的系统投资与业务分析的
                            价值和回报相关
云计算平台构建数据仓库 —— 需要深入研究!     • 与业务发展的规模只是有联系但非绑
                             定
                          – 商业智能应用属于整体应用
                           • 并行分割特征有自身特点
                               – 与传统云计算模式不同
                          – SAAS模式构建数据仓库系统
                           • 需要探讨的业务模式

48                                       © 2011 IBM Corporation
BigData与云环境数据仓库
 BigData作为数据分析服务器底层技术的局限
     – 实现分布式并行数据库服务器要做的工作与BigData层面重叠
      • 传统数据库厂商对BigData实现数据仓库不是很热心 – Why?
      • 数据库服务器需要实现数据查询和操作逻辑
       – 这些逻辑的实现层面不能不考虑数据的分布
       – 这些逻辑的实现与现有BigData的实现层面相互重叠且无法相互替代
          > 在BigData之上实现的“数据库”都难免瘸腿 – e.g. Hive
          > 数据库技术的趋势,更是逻辑下推 – e.g. IBM Netezza & Oracle Exadata
 云环境中的数据仓库 – 动态伸缩的非共享并行数据库应是方向
     – 把BigData当一个大数据库文件并发使用或切成小块分割使用
      • 均非上层数据库所需要
       – 小块分割浪费了功能、效率不高
     – 数据库只需要简单高效的存储管理
      • 有限多节点 + 并行 + 容错
       – IBM研究院的实验课题
          > 赵邑新博士:zhaoyix@cn.ibm.com
     – 数据库要解决的问题是动态伸缩部署
      • 各并行处理节点的数据重分布

49                                                       © 2011 IBM Corporation
云计算环境的未来发展的探讨

 云计算环境中基本计算单元的分化
     – 当前的基本计算单元常常是普通PC服务器
      • 小组大以及大划小的问题
     – 如同多细胞生物体的进化,未来的云计算环境中可能出现“细胞分化”,从
       而进化成高级生物:
      •   存储单元
      •   计算单元
      •   协调单元
      •   通信单元 ……
     – 一体机以及专用设备在云环境中的角色
      • 一体机不再是云计算的对立面,而是云计算的一分子
 公共云业务模式的探讨
     – 涉及底层的专门应用 – 对provision管理的挑战
      • WebEx,展示互动
     – 传统应用与数据仓库的SAAS模式
      • 业务发展的挑战


50                                   © 2011 IBM Corporation
Bdwf11 netezza james_zheng
Bdwf11 netezza james_zheng

More Related Content

What's hot

淘宝Java中间件之路 it168
淘宝Java中间件之路 it168淘宝Java中间件之路 it168
淘宝Java中间件之路 it168vanadies10
 
淘宝双11双12案例分享
淘宝双11双12案例分享淘宝双11双12案例分享
淘宝双11双12案例分享vanadies10
 
数据分析架构实例与安全的云挖掘
数据分析架构实例与安全的云挖掘数据分析架构实例与安全的云挖掘
数据分析架构实例与安全的云挖掘mysqlops
 
Hadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research InstituteHadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research InstituteXu Wang
 
2010数据库技术大会思考分享
2010数据库技术大会思考分享2010数据库技术大会思考分享
2010数据库技术大会思考分享guest42b682b4
 
Zh Tw Introduction To H Base
Zh Tw Introduction To H BaseZh Tw Introduction To H Base
Zh Tw Introduction To H Basekevin liao
 
淘宝Java中间件之路
淘宝Java中间件之路淘宝Java中间件之路
淘宝Java中间件之路mysqlops
 
Zh Tw Introduction To Hadoop And Hdfs
Zh Tw Introduction To Hadoop And HdfsZh Tw Introduction To Hadoop And Hdfs
Zh Tw Introduction To Hadoop And Hdfskevin liao
 
云计算在电信业务中的应用分析 罗圣美
云计算在电信业务中的应用分析 罗圣美云计算在电信业务中的应用分析 罗圣美
云计算在电信业务中的应用分析 罗圣美Riquelme624
 
新时代的分析型云数据库 Greenplum
新时代的分析型云数据库 Greenplum新时代的分析型云数据库 Greenplum
新时代的分析型云数据库 Greenplum锐 张
 
Zh Tw Introduction To Map Reduce
Zh Tw Introduction To Map ReduceZh Tw Introduction To Map Reduce
Zh Tw Introduction To Map Reducekevin liao
 
浅谈 MySQL 性能调优
浅谈 MySQL 性能调优浅谈 MySQL 性能调优
浅谈 MySQL 性能调优Sky Jian
 
Accelerate Database as a Service(DBaaS) in Cloud era
Accelerate Database as a Service(DBaaS) in Cloud eraAccelerate Database as a Service(DBaaS) in Cloud era
Accelerate Database as a Service(DBaaS) in Cloud eraJunchi Zhang
 
Cibank arch-zhouweiran-qcon
Cibank arch-zhouweiran-qconCibank arch-zhouweiran-qcon
Cibank arch-zhouweiran-qconYiwei Ma
 
MySQL性能调优最佳实践
MySQL性能调优最佳实践MySQL性能调优最佳实践
MySQL性能调优最佳实践Sky Jian
 
IBM System X
IBM System XIBM System X
IBM System Xyangfan
 

What's hot (18)

淘宝Java中间件之路 it168
淘宝Java中间件之路 it168淘宝Java中间件之路 it168
淘宝Java中间件之路 it168
 
淘宝双11双12案例分享
淘宝双11双12案例分享淘宝双11双12案例分享
淘宝双11双12案例分享
 
Ibm solid db_基础
Ibm solid db_基础Ibm solid db_基础
Ibm solid db_基础
 
数据分析架构实例与安全的云挖掘
数据分析架构实例与安全的云挖掘数据分析架构实例与安全的云挖掘
数据分析架构实例与安全的云挖掘
 
Hadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research InstituteHadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research Institute
 
2010数据库技术大会思考分享
2010数据库技术大会思考分享2010数据库技术大会思考分享
2010数据库技术大会思考分享
 
Zh Tw Introduction To H Base
Zh Tw Introduction To H BaseZh Tw Introduction To H Base
Zh Tw Introduction To H Base
 
淘宝Java中间件之路
淘宝Java中间件之路淘宝Java中间件之路
淘宝Java中间件之路
 
Zh Tw Introduction To Hadoop And Hdfs
Zh Tw Introduction To Hadoop And HdfsZh Tw Introduction To Hadoop And Hdfs
Zh Tw Introduction To Hadoop And Hdfs
 
云计算在电信业务中的应用分析 罗圣美
云计算在电信业务中的应用分析 罗圣美云计算在电信业务中的应用分析 罗圣美
云计算在电信业务中的应用分析 罗圣美
 
新时代的分析型云数据库 Greenplum
新时代的分析型云数据库 Greenplum新时代的分析型云数据库 Greenplum
新时代的分析型云数据库 Greenplum
 
Zh Tw Introduction To Map Reduce
Zh Tw Introduction To Map ReduceZh Tw Introduction To Map Reduce
Zh Tw Introduction To Map Reduce
 
浅谈 MySQL 性能调优
浅谈 MySQL 性能调优浅谈 MySQL 性能调优
浅谈 MySQL 性能调优
 
Accelerate Database as a Service(DBaaS) in Cloud era
Accelerate Database as a Service(DBaaS) in Cloud eraAccelerate Database as a Service(DBaaS) in Cloud era
Accelerate Database as a Service(DBaaS) in Cloud era
 
Cibank arch-zhouweiran-qcon
Cibank arch-zhouweiran-qconCibank arch-zhouweiran-qcon
Cibank arch-zhouweiran-qcon
 
MySQL性能调优最佳实践
MySQL性能调优最佳实践MySQL性能调优最佳实践
MySQL性能调优最佳实践
 
Hp云管理平台3.0
Hp云管理平台3.0Hp云管理平台3.0
Hp云管理平台3.0
 
IBM System X
IBM System XIBM System X
IBM System X
 

Viewers also liked

Big Data World Forum
Big Data World ForumBig Data World Forum
Big Data World Forumbigdatawf
 
Big Data World Forum
Big Data World ForumBig Data World Forum
Big Data World Forumbigdatawf
 
Big Data World Forum
Big Data World ForumBig Data World Forum
Big Data World Forumbigdatawf
 
Big Data World Forum
Big Data World ForumBig Data World Forum
Big Data World Forumbigdatawf
 
Big Data World Forum
Big Data World ForumBig Data World Forum
Big Data World Forumbigdatawf
 
Big Data World Forum
Big Data World ForumBig Data World Forum
Big Data World Forumbigdatawf
 
Nao permitas que me chamem velho
Nao permitas que me chamem velhoNao permitas que me chamem velho
Nao permitas que me chamem velhoespertalhacos
 

Viewers also liked (7)

Big Data World Forum
Big Data World ForumBig Data World Forum
Big Data World Forum
 
Big Data World Forum
Big Data World ForumBig Data World Forum
Big Data World Forum
 
Big Data World Forum
Big Data World ForumBig Data World Forum
Big Data World Forum
 
Big Data World Forum
Big Data World ForumBig Data World Forum
Big Data World Forum
 
Big Data World Forum
Big Data World ForumBig Data World Forum
Big Data World Forum
 
Big Data World Forum
Big Data World ForumBig Data World Forum
Big Data World Forum
 
Nao permitas que me chamem velho
Nao permitas que me chamem velhoNao permitas que me chamem velho
Nao permitas que me chamem velho
 

Similar to Bdwf11 netezza james_zheng

利用统一存储获得无与伦比的速度,简化系统,并节省更多
利用统一存储获得无与伦比的速度,简化系统,并节省更多利用统一存储获得无与伦比的速度,简化系统,并节省更多
利用统一存储获得无与伦比的速度,简化系统,并节省更多ITband
 
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結James Chen
 
王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计YANGL *
 
淘宝对象存储与Cdn系统到服务
淘宝对象存储与Cdn系统到服务淘宝对象存储与Cdn系统到服务
淘宝对象存储与Cdn系统到服务drewz lin
 
Taobao图片存储与cdn系统到服务
Taobao图片存储与cdn系统到服务Taobao图片存储与cdn系统到服务
Taobao图片存储与cdn系统到服务Wensong Zhang
 
浅谈 My sql 性能调优
浅谈 My sql 性能调优浅谈 My sql 性能调优
浅谈 My sql 性能调优thinkinlamp
 
MySQL应用优化实践
MySQL应用优化实践MySQL应用优化实践
MySQL应用优化实践mysqlops
 
Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來Etu Solution
 
众行业公司系统架构案例介绍
众行业公司系统架构案例介绍众行业公司系统架构案例介绍
众行业公司系统架构案例介绍mysqlops
 
企业系统商务智能设计
企业系统商务智能设计企业系统商务智能设计
企业系统商务智能设计George Ang
 
Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu Solution
 
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索liu sheng
 
中大型规模的网站架构运维 Saac
中大型规模的网站架构运维 Saac中大型规模的网站架构运维 Saac
中大型规模的网站架构运维 SaacChao Zhu
 
MySQL 網路參考架構
MySQL 網路參考架構MySQL 網路參考架構
MySQL 網路參考架構郁萍 王
 
Ocean base海量结构化数据存储系统 hadoop in china
Ocean base海量结构化数据存储系统 hadoop in chinaOcean base海量结构化数据存储系统 hadoop in china
Ocean base海量结构化数据存储系统 hadoop in chinaknuthocean
 
Oracle db 12c 加速企业转型之十大功能
Oracle db 12c 加速企业转型之十大功能Oracle db 12c 加速企业转型之十大功能
Oracle db 12c 加速企业转型之十大功能Ethan M. Liu
 
E tom ngoss规范及siebel系统在电信行业的应用 陈永林
E tom ngoss规范及siebel系统在电信行业的应用 陈永林E tom ngoss规范及siebel系统在电信行业的应用 陈永林
E tom ngoss规范及siebel系统在电信行业的应用 陈永林corlin chen
 
Taobao数据库这5年
Taobao数据库这5年Taobao数据库这5年
Taobao数据库这5年yp_fangdong
 

Similar to Bdwf11 netezza james_zheng (20)

利用统一存储获得无与伦比的速度,简化系统,并节省更多
利用统一存储获得无与伦比的速度,简化系统,并节省更多利用统一存储获得无与伦比的速度,简化系统,并节省更多
利用统一存储获得无与伦比的速度,简化系统,并节省更多
 
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結
 
王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计
 
内存数据库[1]
内存数据库[1]内存数据库[1]
内存数据库[1]
 
淘宝对象存储与Cdn系统到服务
淘宝对象存储与Cdn系统到服务淘宝对象存储与Cdn系统到服务
淘宝对象存储与Cdn系统到服务
 
Taobao图片存储与cdn系统到服务
Taobao图片存储与cdn系统到服务Taobao图片存储与cdn系统到服务
Taobao图片存储与cdn系统到服务
 
浅谈 My sql 性能调优
浅谈 My sql 性能调优浅谈 My sql 性能调优
浅谈 My sql 性能调优
 
MySQL应用优化实践
MySQL应用优化实践MySQL应用优化实践
MySQL应用优化实践
 
Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來
 
众行业公司系统架构案例介绍
众行业公司系统架构案例介绍众行业公司系统架构案例介绍
众行业公司系统架构案例介绍
 
企业系统商务智能设计
企业系统商务智能设计企业系统商务智能设计
企业系统商务智能设计
 
Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能
 
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
 
中大型规模的网站架构运维 Saac
中大型规模的网站架构运维 Saac中大型规模的网站架构运维 Saac
中大型规模的网站架构运维 Saac
 
MySQL调优
MySQL调优MySQL调优
MySQL调优
 
MySQL 網路參考架構
MySQL 網路參考架構MySQL 網路參考架構
MySQL 網路參考架構
 
Ocean base海量结构化数据存储系统 hadoop in china
Ocean base海量结构化数据存储系统 hadoop in chinaOcean base海量结构化数据存储系统 hadoop in china
Ocean base海量结构化数据存储系统 hadoop in china
 
Oracle db 12c 加速企业转型之十大功能
Oracle db 12c 加速企业转型之十大功能Oracle db 12c 加速企业转型之十大功能
Oracle db 12c 加速企业转型之十大功能
 
E tom ngoss规范及siebel系统在电信行业的应用 陈永林
E tom ngoss规范及siebel系统在电信行业的应用 陈永林E tom ngoss规范及siebel系统在电信行业的应用 陈永林
E tom ngoss规范及siebel系统在电信行业的应用 陈永林
 
Taobao数据库这5年
Taobao数据库这5年Taobao数据库这5年
Taobao数据库这5年
 

Bdwf11 netezza james_zheng

  • 1.
  • 2. Netezza & BigData —— 从数据获取商业价值 郑晓军 Netezza数据仓库 渠道经理 IBM(中国)有限公司 软件部
  • 3. 内容提要  从数据获取价值  商业智能与云计算环境  数据仓库一体机解决方案 —— Netezza  关于BigData与数据仓库云的探讨 3 © 2011 IBM Corporation
  • 4. 从数据获得价值  信息的重要性不言而喻 – 业务重心从流程自动化转向对市场的把握 – 不确定性领域成为业务竞争焦点 – 拥有信息 = 拥有财富  IT的发展为数据的积累和采集提供了坚实的基础 – 传统业务系统的普及促进数据的积累 – 互联网、IT技术发展促进数据的采集  数据的分析并将决策应用于业务是未来IT业最具发展潜力的一块 – 数据仓库在中国历经10多年发展 • 近两年依然势头不减,并有加速发展的趋势 – IBM:“智慧地球”、”智慧城市” – 切身体会: • 移动客户呼叫行为分析 – 2000 • 证交所内幕交易监测 – 2003 • 移动通信公司竞争分析 – 2004 • 公安系统案发特点分析 – 2008 • 股指期货套利 – 2010 4 © 2011 IBM Corporation
  • 5. 内容提要  从数据获取价值  商业智能与云计算环境  数据仓库一体机解决方案 —— Netezza  关于BigData与数据仓库云的探讨 5 © 2011 IBM Corporation
  • 6. 云计算环境的兴起与数据仓库  云计算环境 – 低成本 • 大量PC服务器组合 – 高扩展性 + 动态扩展 • 设备自由扩充、应用动态部署、适应业务的伸缩 – 大容量、大数据量 • 数以千计服务器 – 采用冗余技术支持高可用性  数据仓库领域看到了机会 – BigData • 分布式并行文件系统 • Map Reduce数据分割与访问执行 – SQL支持 • 以Hive为代表的SQL界面支持 – 在BigData技术上构建下一代数据仓库成为热门话题 • IBM与联通某省的试验项目 – 历史详单数据 • 阿里巴巴 – 约1600台PC服务器构建Hadoop + Hive数据库 6 © 2011 IBM Corporation
  • 7. 内容提要  从数据获取价值  商业智能与云计算环境  数据仓库一体机解决方案 —— Netezza  关于BigData与数据仓库云的探讨 7 © 2011 IBM Corporation
  • 8. 传统数据仓库系统的松散构建模式 BI Applications Client RDBMS ODBC JDBC OLE DB SQL/92/99 Server RDBMS + Server + Storage Storage Local Applications 8 © 2011 IBM Corporation
  • 9. 数据仓库中数据库服务器的关键特征  数据仓库的访问特征:大查询、复杂查询 – 涉及的数据量大、范围大 • 传统细颗粒索引作用有限 • 顺序扫描压力增大 – 多表连接 – 涉及的聚合运算量大 – 并发请求数较少  分解大查询为多个小任务在各个节点上运行 – 负载均衡多个查询请求已不是系统调优的主要目的  各个节点间如何保证不互相影响、等待 – 最大程度减少节点间的交互 – 彻底并行 – Share Nothing or Share Everything (Share Disk) • Share Nothing是数据仓库的典型结构 9 © 2011 IBM Corporation
  • 10. 非共享体系结构(Share Nothing) 分区数据库模型  数据库被分成多个分区  数据库分区运行在各个节点上  每个数据库分区具有自己的资源 (Engine, LogMg., LockMg., Caches, etc.)  数据库协调所有分区进行并行处理  对用户和应用来看,是一个单独的系统 Fast communication manager Database Partition data log data log data log data log Data Log 追求线性扩展能力! 10 © 2011 IBM Corporation
  • 11. Balanced Configuration Unit - 所要达到的效果 实际吞吐量 传统的方法 存储 系统 Share 每个Array 中 100% Nothing LUN部署 LUN的数量 磁盘容量 RAID 50% 软件 架构  查询性能得到有效地提高  30%+ 消耗在 I/O  较高的 I/O 等待  处理器使用较低  BI 性能问题 60%以上和I/O相关 BCU 方法 服务器 存储 100% 数据库架构 100% 内存 CPUs 群集/ 架构 部署 LUNs 磁盘 RAID 容量 SMP + + TotalStorage® = 高效的吞吐 一体机的前身…… 11 © 2011 IBM Corporation
  • 12. IBM Netezza走在再聚合技术的前沿 ODBC JDBC OLE DB SQL/92/99 RDBMS + Server + Storage Local Applications 12 Page 12 © 2011 IBM Corporation
  • 13. Netezza AMPP™架构 FPGA CPU 高级分析 高级分析 Memory BI应用 BI应用 FPGA CPU hosts Memory Hosts ETL ETL FPGA CPU 数据加载 数据加载 Memory 磁盘阵列柜 网络结构 应用 S-Blades™ Netezza 一体机 13 © 2011 IBM Corporation
  • 14. 传统的数据仓库架构: 服务器和存储之间的数据流存在重大瓶颈!! 大批的数据从磁盘中 “搬移”到内存,成为 整个系统的瓶颈 数据 查询结果 查询请求 服务器 关系型数据库软件 存储 数据首先被搬运到 内存,然后由 SQL 进行处理 Confidential 14 © 2011 IBM Corporation
  • 15. Netezza数据仓库专用设备: 性能的革命性突破 Netezza数据仓库设备 CPU: 仅为现有 系统的2% 网络流量: 仅为现有 查询结果 系统的1% 查询请求 SMP主机 MPP “智能存储”: (2-4 CPU) 数据处理单元与存储相结合 数据在进入到内存之前,已经经 过流式的数据处理 Confidential 15 © 2011 IBM Corporation
  • 16. Disk Netezza数据库加速卡 Memory CPUs “只返回答案,而 不是原始数据” FPGA 16 © 2011 IBM Corporation
  • 17. FPGA 简要说明  FPGA (Field Programmable Gate Array) 即现场可编程门阵列 – 它是在PAL, GAL, EPLD等可编程器件的基础上进一步发展的产物  FPGA是作为专业集成电路(ASIC)领域中的一种半定制电路而出现的 – 既解决了定制电路的灵活性不足 – 又克服了原有可编程器件门电路数有限的缺点  FPGA的使用非常灵活 – 同一片FPGA通过不同的编程数据可以产程不同的电路功能  FPGA在通信、数据处理、网络、仪器、工业控制、军事和航空航天 等众多领域得到广泛的应用 – FPGA是通用集成电路器件  随着功耗和成本的进一步降低,FPGA还将进入更多的应用领域 – Netezza把FPGA带入了数据库一体机的领域! 17 © 2011 IBM Corporation
  • 18. FPGA 技术 – Bit流处理  FPGAs跟踪业界领先的优势半导体技术  这种技术的可定制化让我们得以不断增加新特性  它的灵活性促使其在消费类电子产品中得以快速应用 – DVD播放器 – 等离子显示器 – HDTV – 3D TV  军事领域利用其实现低能耗下的高性能  实时video 和 audio 处理 18 © 2011 IBM Corporation
  • 19. Netezza数据流处理程序 SELECT DISTRICT, PRODUCTGRP, SUM(NRX) From MTHLY_RX_TERR_DATA FPGA Core CPU Core WHERE MONTH=‘20091201’ AND MARKET=509123 AND SPECIALTY=‘GASTRO’ Slice of TABLE 聚合 ∑ MTHLY_RX_TERR_DATA 解压 投影(列) 过滤(行) (compressed) 连接, 汇总, 等. SELECT DISTRICT, WHERE SUM(NRX) MONTH=‘20091201’ PRODUCTGRP, AND MARKET=509123 SUM(NRX) AND SPECIALTY=‘GASTRO’ 每个 “Snippet处理器” (FPGA+CPU) 以高于115MB/秒的速度处理数据库的 FPGA 的实际处理吞吐量: 数据; 高压缩率 = 性能的提高 460MB/s* 19 © 2011 IBM Corporation
  • 20. Netezza TwinFin™ 设备 用户数据切片 磁盘阵列柜 互换和镜像分区 高速数据流 SQL编译器 SMP主机 查询计划 优化管理 Snippet 处理器 & Blades™ 数据库逻辑流 (S-Blades™) 高性能数据库引擎流加载, 聚合,排序等 Confidential 20 © 2011 IBMPage 20 Corporation
  • 21. Netezza S-Blade™ Page 21 21 © 2011 IBM Corporation
  • 22. Netezza S-Blade 构件 IBM刀片服务器 Netezza数据库加速器 22 © 2011 IBM Corporation
  • 23. Netezza TwinFin™12系统规格 • 8 个磁盘阵列柜 • 96个1TB SAS 硬盘 (4 热备份) • RAID 1 镜像 • 2个主机 (1主1备): • 2 个Quad-Core Intel 2.6 GHz CPUs • 7x146 GB SAS硬盘 • Red Hat Linux 5 64-bit • 12个Netezza S-Blades™: • 2 Intel Quad-Core 2+ GHz CPUs • 4 Dual-Engine 125 MHz FPGAs • 16 GB DDR2 RAM • Linux 64-bit Kernel • 用户数据容量: 128 TB** • 电源要求: 7.6 kW • 数据扫描速度: 145 TB/hr** • 制冷要求: 7.8 kW • 装载速度 (每个系统): 2+ TB/hr **: 假设4倍压缩比 23 © 2011 IBM Corporation
  • 24. 数据镜像(Disk Mirroring)和故障保护(Failover) 主空间 镜像空间 临时空间  所有用户数据和临时空间镜像保护  磁盘故障对查询和交易透明  故障磁盘驱动的数据自动重生成  坏数据区自动重写以及自动迁移至新安全区 24 © 2011 IBM Corporation
  • 25. TwinFin™ 存储和网络连接 “(TF6) 模块构建” Disk Enclosures 32x3 Gb/s SAS SAS Switches 4x3 Gb/s SAS S-Blades™ 2x GigE IP Switches 10 GigE Hosts 25 © 2011 IBM Corporation
  • 26. 高可用性 – 系统关键数据的三重保护 磁盘层面的数据镜像以及故障保护技术 磁盘层面的数据镜像以及故障保护技术 Raid 1实现不同磁盘之间的数据镜像 Raid 1实现不同磁盘之间的数据镜像  每个S-Blade均有Failover盘,支持磁盘级别的自动恢复上线  每个S-Blade均有Failover盘,支持磁盘级别的自动恢复上线  支持在线更换损坏磁盘  支持在线更换损坏磁盘 S-Blade层面的互备 S-Blade层面的互备  磁盘驱动器自动重分配给相同底架上的活动的S-Blades。支持在线  磁盘驱动器自动重分配给相同底架上的活动的S-Blades。支持在线 更换S-Blade 更换S-Blade  只读查询 (还没有返回数据的) 自动重新开始  只读查询 (还没有返回数据的) 自动重新开始  交易事物和装载中断-装载自动从上一成功的 checkpoint处重新开始  交易事物和装载中断-装载自动从上一成功的 checkpoint处重新开始 Linux HA + 分布式块复制设备(DRDB Protocol C) Linux HA + 分布式块复制设备(DRDB Protocol C)  Linux HA 支持主机(HOST)的高可用性  Linux HA 支持主机(HOST)的高可用性  分布式块复制设备采用严格同步的模式,保证主备机关键数据库文  分布式块复制设备采用严格同步的模式,保证主备机关键数据库文 件所在的目录保持严格同步,避免任何可能的控制文件丢失 件所在的目录保持严格同步,避免任何可能的控制文件丢失 26 © 2011 IBM Corporation
  • 27. 好的分布: 2.2万亿条记录 27 © 2011 IBM Corporation
  • 28. TM Zone Maps – “自由”的存在,自动维护,无需干预  每个磁盘extent包含来自于各个 表的记录  我们在每个extent上跟踪字段的 最大最小值  Zone maps可以对 date, timestamp, byteint, smallint, integer和bigint型数据生 效  当数据被loaded / updated / deleted时Zone maps自动更新  没有对load / update / delete 速度 的影响 28 © 2011 IBM Corporation
  • 29. Zone Maps…自动分区  Zone Maps – 利用内在的数据顺序 – 在一个数据切片内…. • 为表中的每一列(Integers, timestamps, dates型) – 按每个extent收集最大最小值 – 每条搜集到的记录插入zonemap中为该表准备的数据区中.  当一个查询运行时, 数据切片减少到只扫描一部分extents  自动配置 – 在搜集统计信息时Stats – 在Loads时 – 在inserts, updates, loads和reclaims时. 29 © 2011 IBM Corporation
  • 30. Zone Maps • Zone Maps可以用于只扫描相关数据 • 系统知道数据在不在extents上,并只扫描有关的表extents … … … … … … … 30 Base Table © 2011 IBM Corporation
  • 31. 后台表整理Table Grooming 整理好的表 整理好的记录 删除的记录 新增加的记录  简单,一步命令聚拢数据 并召回reclaim未使用空间  在一个原子操作时磁盘extents的区域整理 一次  作为后台过程运行,对执行查询的终端用户透明 31 © 2011 IBM Corporation
  • 32. 简单的工作负载限制  可以在系统级设定一些简单的工作负载限制  这些限制可以在全局设,按 group 设或按 user 设  它们立即生效  极少需要应用基础级别的全局控制 32 © 2011 IBM Corporation
  • 33. 工作负载管理 工作负载管理 (WLM) 提供可选的功能来管理资源,在不同的多用户环境下设定资源使 用的优先级,来满足混合用户工作负载下的需求  保障资源分配(GRA) – 在多用户环境下在多组用户中分配 NPS资源的机制  分优先级查询执行 (PQE) – 更细粒度的控制资源分配,从计划到执行层面进一步扩充查询优先级的 控制  短查询倾向(SQB) – 在系统工作负载量很大的情况下,保证执行短查询的用户获得更快速的 高优先级的查询响应时间  工作负载限制(GRA) – 可以利用group定义的JOB MAXIMUM属性来控制被本组提交的活动的运 行任务的数量 33 © 2011 IBM Corporation
  • 34. 工作负载管理控制: GRA 当三个资源组都有任务在系统上运行时,GRA计划器开始工作来平衡任务和资源利用的关系, 如下图所示: 34 © 2011 IBM Corporation
  • 35. GRA + PQE: 权重low=1, normal=2, high=4, critical=8 因而,critical任务将会获得Analysts组的50%分配资源中的80%,即总资源的40%。 Normal任 务将获得50%中20%,即总资源的10% 35 © 2011 IBM Corporation
  • 36. 缺省的工作负载管理: SQB  短查询倾向 (SQB) – 短查询优先于长时间运行的查询 – 对执行短查询的用户实时响应 – 在大型混合工作负载环境中SQB是非常重要的特征 8 Items or Less Full Carts Here Full Carts Here 36 © 2011 IBM Corporation
  • 37. 利用IBM Tivoli做的典型BAR配置 Backup Media Tivoli Storage Manager Server TAPE TAPE TAPE LIB LIB LIB SAN (Optional) LAN Client Client Client TSM Client Backup Script Linux Host SPUs Netezza Performance Server 37 © 2011 IBM Corporation
  • 38. 备份与恢复特征  与第三方BAR工具的企业级集成和认证 – 利用主流的backup和restore工具简化部署 – 支持X/Open Backup Services API (XBSA) – 经过IBM Tivoli Storage Manager认证 – 经过Symantec的Veritas NetBackup™ 认证  增量backup和restore – 与全量备份比较显著缩短备份时间 – 在NZBACKUP工具中可用 – 全部或部分恢复选项 Sun Mon Tue Wed Thu Fri Sat Full Diff Diff Diff Diff Diff Cum 38 © 2011 IBM Corporation
  • 39. Netezza TwinFin 可靠的可扩展性 基于share-nothing -- 数据仓库级被证明最有效的架构 基于share-nothing 数据仓库级被证明最有效的架构 1 10 ... 严格遵循MPP的原则,充分发挥系统资源的潜能: 严格遵循MPP的原则,充分发挥系统资源的潜能: 1颗CPU Core  1颗FPGA Core  1个DISK 1颗CPU Core  1颗FPGA Core  1个DISK TF3 TF6 TF12 TF24 ... TF48 ... TF120 TwinFin之间通过SAS Switch直接相连,减少可能的 TwinFin之间通过SAS Switch直接相连,减少可能的 Snippet 处理器 24 48 96 192 384 960 网络瓶颈 网络瓶颈 容量 (TB) 8 16 32 64 128 320 压缩 (TB) 32 64 128 256 以上特性配合Netezza独特的硬件流性加速技术512 1280 以上特性配合Netezza独特的硬件流性加速技术 (FPGA),使TwinFin轻松达到PB级的数据可扩展 (FPGA),使TwinFin轻松达到PB级的数据可扩展 性 性 容量 = 用户数据空间 压缩 = 有效用户数据空间 39 © 2011 IBM Corporation
  • 40. Netezza 的管理简单 40 © 2011 IBM Corporation
  • 41. Netezza一体机数据查询与装载 报表&分析 数据集成 OLE-DB OLE-DB Actuate Ab Initio Business Objects/SAP Business Cognos (IBM) Objects/SAP Information Builders Composite JDBC JDBC Kalido Software KXEN Expressor MicroStrategy 数据检出 数据载入 Software GoldenGate ODBC ODBC Oracle OBIEE Software (Oracle) QlikTech Informatica Quest Software IBM Information SQL SQL SAS Server SPSS (IBM) Sunopsis (Oracle) Unica (IBM) WisdomForce 41 © 2011 IBM Corporation
  • 42. 复杂查询… SELECT ADMIN.MBR_GIFT_HIST.AMT_CD, FROM ADMIN.MBR_BY_GIFT.FSCL_YTD_AVG, sum(ADMIN.MBR_GIFT_HIST.GIFT_AMT), ADMIN.MBR_NM_ADDR, ADMIN.MBR_GIFT_HIST.LOT_CD, ADMIN.MBR_BY_GIFT.PREV_FSCL_YR_AVG, count(ADMIN.MBR_GIFT_HIST.GIFT_DT), ADMIN.MBR_PRFL LEFT OUTER JOIN ADMIN.REF_RCNCY_CD Member_Recency_CD ON ADMIN.MBR_BY_GIFT.LFTM_AVG, ADMIN.MBR_GIFT_HIST.CARE_GVNG_CD, Member_Recency_CD.RCNCY_CD=ADMIN.MBR_PRFL.RCNCY_CD LEFT OUTER JOIN ADMIN.MBR_GIFT_HIST.MAIL_KEY_CD, count(distinct ADMIN.MBR_GIFT_HIST.MBR_ID), ADMIN.MBR_GIFT_HIST.SRC_CD, ADMIN.REF_FREQ_CD Member_Frequecncy_CD ON ADMIN.MBR_GIFT_HIST.CPGN_TYP, ADMIN.MBR_NM_ADDR.ADDR_TYP, Member_Frequecncy_CD.FREQ_CD=ADMIN.MBR_PRFL.FREQ_CD LEFT OUTER JOIN Gift_Campaign_Type.CPGN_TYP_DESC, Gift_Caregiver.CARE_GVNG_CD_DESC, ADMIN.MBR_NM_ADDR.ADDR_LINE_1, ADMIN.REF_AMT_CD Member_Amount_CD ON ADMIN.MBR_GIFT_HIST.DONOR_CLASS_CD, ADMIN.MBR_GIFT_HIST.RSP_CD, Member_Amount_CD.AMT_CD=ADMIN.MBR_PRFL.AMT_CD, ADMIN.MBR_NM_ADDR.ADDR_LINE_2, Gift_Donor_Class.DONOR_CLASS_CD_DESC, Gift_Source_CD.SRC_CD, ADMIN.MBR_BY_GIFT, ADMIN.MBR_GIFT_HIST.CPGN_AUDNC_CD, ADMIN.MBR_NM_ADDR.CITY, ADMIN.MBR_GIFT_HIST.PREM_TYP, ADMIN.MBR_GIFT_HIST LEFT OUTER JOIN ADMIN.REF_CPGN_TYP Gift_Campaign_Type ON Gift_Cpgn_Audience.CPGN_AUDNC_CD_DESC, ADMIN.MBR_NM_ADDR.STATE_CD, ADMIN.MBR_GIFT_HIST.CPGN_TYP=Gift_Campaign_Type.CPGN_TYP LEFT OUTER JOIN ADMIN.MBR_GIFT_HIST.CPGN_YR, Gift_Response_Code.RSP_CD_DESC, ADMIN.REF_DONOR_CLASS_CD Gift_Donor_Class ON ADMIN.MBR_NM_ADDR.ZIP_CD_BASE, ADMIN.MBR_GIFT_HIST.PRFL_CD, Gift_Premium_Type.PREM_TYP_DESC, ADMIN.MBR_GIFT_HIST.DONOR_CLASS_CD=Gift_Donor_Class.DONOR_CLASS_CD LEFT OUTER JOIN ADMIN.MBR_GIFT_HIST.CPGN_NUM, ADMIN.MBR_NM_ADDR.ZIP_CD_SUFX, ADMIN.MBR_GIFT_HIST.MBR_ID, ADMIN.REF_CPGN_AUDNC_CD Gift_Cpgn_Audience ON ADMIN.MBR_GIFT_HIST.PKG_CD, ADMIN.MBR_PRFL.RCNCY_CD, ADMIN.MBR_GIFT_HIST.CPGN_AUDNC_CD=Gift_Cpgn_Audience.CPGN_AUDNC_CD LEFT OUTER JOIN ADMIN.MBR_GIFT_HIST.GIFT_DT, Gift_Profile_CD.PRFL_CD_DESC, ADMIN.MBR_PRFL.FREQ_CD, ADMIN.REF_PRFL_CD Gift_Profile_CD ON Gift_Profile_CD.PRFL_CD=ADMIN.MBR_GIFT_HIST.PRFL_CD ADMIN.MBR_GIFT_HIST.RCNCY_CD, ADMIN.MBR_GIFT_HIST.GIFT_AMT, LEFT OUTER JOIN ADMIN.REF_RCNCY_CD Gift_Recency_CD ON ADMIN.MBR_GIFT_HIST.FREQ_CD, Member_Recency_CD.RCNCY_CD_DESC, ADMIN.MBR_GIFT_HIST.AFFL_CD, Gift_Recency_CD.RCNCY_CD=ADMIN.MBR_GIFT_HIST.RCNCY_CD LEFT OUTER JOIN Gift_Recency_CD.RCNCY_CD_DESC, ADMIN.MBR_PRFL.AMT_CD, ADMIN.MBR_GIFT_HIST.UPDT_NUM, ADMIN.REF_FREQ_CD Gift_Frequency_CD ON ADMIN.MBR_GIFT_HIST.AMT_CD, ADMIN.MBR_PRFL.RCNCY_CD || ADMIN.MBR_PRFL.FREQ_CD, ADMIN.MBR_GIFT_HIST.FREQ_CD=Gift_Frequency_CD.FREQ_CD LEFT OUTER JOIN Gift_Frequency_CD.FREQ_CD_DESC, ADMIN.MBR_GIFT_HIST.LAST_UPDT_DT, ADMIN.REF_AMT_CD Gift_Amount_CD ON ADMIN.MBR_GIFT_HIST.AMT_CD=Gift_Amount_CD.AMT_CD ADMIN.MBR_PRFL.RCNCY_CD || ADMIN.MBR_PRFL.FREQ_CD || ADMIN.MBR_GIFT_HIST.RCNCY_CD || ADMIN.MBR_NM_ADDR.SALU_LINE_1, LEFT OUTER JOIN ADMIN.REF_RSP_CD Gift_Response_Code ON ADMIN.MBR_GIFT_HIST.FREQ_CD, ADMIN.MBR_PRFL.AMT_CD, ADMIN.MBR_NM_ADDR.SALU_LINE_2, Gift_Response_Code.RSP_CD=ADMIN.MBR_GIFT_HIST.RSP_CD LEFT OUTER JOIN Gift_Amount_CD.AMT_CD_DESC, Member_Frequecncy_CD.FREQ_CD_DESC, ADMIN.REF_SRC_CD Gift_Source_CD ON Gift_Source_CD.SRC_CD=ADMIN.MBR_GIFT_HIST.SRC_CD ADMIN.MBR_NM_ADDR.SALU_LINE_3, ADMIN.MBR_GIFT_HIST.RCNCY_CD || Member_Amount_CD.AMT_CD_DESC, LEFT OUTER JOIN ADMIN.REF_PREM_TYP Gift_Premium_Type ON ADMIN.MBR_GIFT_HIST.FREQ_CD || ADMIN.MBR_GIFT_HIST.AMT_CD, 通过BO拖拽生成的 … ADMIN.MBR_PRFL.UPDT_NUM, Gift_Premium_Type.PREM_TYP=ADMIN.MBR_GIFT_HIST.PREM_TYP LEFT OUTER JOIN ADMIN.MBR_GIFT_HIST.LOT_CD, Member_Recency_CD.RCNCY_CD_DESC || ' ' || ADMIN.MBR_PRFL.LAST_UPDT_DT, ADMIN.REF_CARE_GVNG_CD Gift_Caregiver ON ADMIN.MBR_GIFT_HIST.CARE_GVNG_CD, Member_Frequecncy_CD.FREQ_CD_DESC, ADMIN.MBR_NM_ADDR.INSIDE_SALU_NM, ADMIN.MBR_GIFT_HIST.CARE_GVNG_CD=Gift_Caregiver.CARE_GVNG_CD ADMIN.MBR_GIFT_HIST.SRC_CD, Member_Recency_CD.RCNCY_CD_DESC || ' ' || WHERE Gift_Caregiver.CARE_GVNG_CD_DESC, ADMIN.MBR_PRFL.MBR_ID, ( ADMIN.MBR_NM_ADDR.MBR_ID=ADMIN.MBR_PRFL.MBR_ID ) Member_Frequecncy_CD.FREQ_CD_DESC || ' ' || ADMIN.MBR_GIFT_HIST.RSP_CD, ADMIN.MBR_PRFL.ACCT_TYP, AND ( ADMIN.MBR_BY_GIFT.MBR_ID=ADMIN.MBR_PRFL.MBR_ID ) Gift_Source_CD.SRC_CD, Member_Amount_CD.AMT_CD_DESC, ADMIN.MBR_PRFL.ACCT_CAT_CD, AND ( ADMIN.MBR_PRFL.MBR_ID=ADMIN.MBR_GIFT_HIST.MBR_ID ) ADMIN.MBR_GIFT_HIST.PREM_TYP, ADMIN.MBR_BY_GIFT.FRST_GIFT_AMT, AND ( ADMIN.MBR_PRFL.AFFL_CD, Gift_Response_Code.RSP_CD_DESC, ADMIN.MBR_BY_GIFT.FRST_GIFT_DT, ADMIN.MBR_PRFL.MBR_ID = '00331415' Gift_Premium_Type.PREM_TYP_DESC, 6亿条记录的事实表 ADMIN.MBR_PRFL.CHAP_IND, ) ADMIN.MBR_GIFT_HIST.MBR_ID, ADMIN.MBR_BY_GIFT.LAST_GIFT_AMT, ADMIN.MBR_PRFL.RSP_CD, GROUP BY ADMIN.MBR_GIFT_HIST.GIFT_DT, ADMIN.MBR_BY_GIFT.LAST_GIFT_DT, ADMIN.MBR_PRFL.NEW_MBR_FLG, ADMIN.MBR_NM_ADDR.ADDR_TYP, ADMIN.MBR_GIFT_HIST.GIFT_AMT, ADMIN.MBR_BY_GIFT.HGST_GIFT_AMT, ADMIN.MBR_NM_ADDR.ADDR_LINE_1, ADMIN.MBR_GIFT_HIST.AFFL_CD, ADMIN.MBR_PRFL.SEED_FLG, ADMIN.MBR_NM_ADDR.ADDR_LINE_2, ADMIN.MBR_BY_GIFT.HGST_GIFT_DT, ADMIN.MBR_GIFT_HIST.UPDT_NUM, ADMIN.MBR_PRFL.SLCITN_CD ADMIN.MBR_NM_ADDR.CITY, ADMIN.MBR_GIFT_HIST.LAST_UPDT_DT, ADMIN.MBR_BY_GIFT.HGST_GIFT_LAST_24_MTH, ADMIN.MBR_NM_ADDR.STATE_CD, ADMIN.MBR_NM_ADDR.SALU_LINE_1, ADMIN.MBR_BY_GIFT.FSCL_YTD_AVG, ADMIN.MBR_NM_ADDR.ZIP_CD_BASE, ADMIN.MBR_NM_ADDR.SALU_LINE_2, 13个join ADMIN.MBR_BY_GIFT.PREV_FSCL_YR_AVG, ADMIN.MBR_NM_ADDR.ZIP_CD_SUFX, ADMIN.MBR_NM_ADDR.SALU_LINE_3, ADMIN.MBR_BY_GIFT.LFTM_AVG, ADMIN.MBR_PRFL.RCNCY_CD, ADMIN.MBR_PRFL.UPDT_NUM, ADMIN.MBR_PRFL.FREQ_CD, ADMIN.MBR_PRFL.LAST_UPDT_DT, ADMIN.MBR_GIFT_HIST.MAIL_KEY_CD, Member_Recency_CD.RCNCY_CD_DESC, ADMIN.MBR_NM_ADDR.INSIDE_SALU_NM, ADMIN.MBR_GIFT_HIST.CPGN_TYP, ADMIN.MBR_PRFL.AMT_CD, ADMIN.MBR_PRFL.MBR_ID, Gift_Campaign_Type.CPGN_TYP_DESC, ADMIN.MBR_PRFL.RCNCY_CD || ADMIN.MBR_PRFL.FREQ_CD, ADMIN.MBR_PRFL.ACCT_TYP, ADMIN.MBR_PRFL.RCNCY_CD || ADMIN.MBR_PRFL.FREQ_CD || ADMIN.MBR_PRFL.AMT_CD, ADMIN.MBR_PRFL.ACCT_CAT_CD, ADMIN.MBR_GIFT_HIST.DONOR_CLASS_CD, Member_Frequecncy_CD.FREQ_CD_DESC, ADMIN.MBR_PRFL.AFFL_CD, Gift_Donor_Class.DONOR_CLASS_CD_DESC, Member_Amount_CD.AMT_CD_DESC, ADMIN.MBR_PRFL.CHAP_IND, 75个group by ADMIN.MBR_GIFT_HIST.CPGN_AUDNC_CD, Member_Recency_CD.RCNCY_CD_DESC || ' ' || Member_Frequecncy_CD.FREQ_CD_DESC, ADMIN.MBR_PRFL.RSP_CD, Gift_Cpgn_Audience.CPGN_AUDNC_CD_DESC, Member_Recency_CD.RCNCY_CD_DESC || ' ' || Member_Frequecncy_CD.FREQ_CD_DESC || ' ' || ADMIN.MBR_PRFL.NEW_MBR_FLG, Member_Amount_CD.AMT_CD_DESC, ADMIN.MBR_PRFL.SEED_FLG, ADMIN.MBR_GIFT_HIST.CPGN_YR, ADMIN.MBR_BY_GIFT.FRST_GIFT_AMT, ADMIN.MBR_PRFL.SLCITN_CD; ADMIN.MBR_GIFT_HIST.PRFL_CD, ADMIN.MBR_BY_GIFT.FRST_GIFT_DT, ADMIN.MBR_GIFT_HIST.CPGN_NUM, ADMIN.MBR_BY_GIFT.LAST_GIFT_AMT, ADMIN.MBR_BY_GIFT.LAST_GIFT_DT, ADMIN.MBR_GIFT_HIST.PKG_CD, ADMIN.MBR_BY_GIFT.HGST_GIFT_AMT, Gift_Profile_CD.PRFL_CD_DESC, Oracle: 用了数小时完成 ADMIN.MBR_BY_GIFT.HGST_GIFT_DT, ADMIN.MBR_GIFT_HIST.RCNCY_CD, ADMIN.MBR_BY_GIFT.HGST_GIFT_LAST_24_MTH, ADMIN.MBR_GIFT_HIST.FREQ_CD, Gift_Recency_CD.RCNCY_CD_DESC, ADMIN.MBR_GIFT_HIST.AMT_CD, Gift_Frequency_CD.FREQ_CD_DESC, ADMIN.MBR_GIFT_HIST.RCNCY_CD || ADMIN.MBR_GIFT_HIST.FREQ_CD, Netezza: 只用了3分钟 Gift_Amount_CD.AMT_CD_DESC, ADMIN.MBR_GIFT_HIST.RCNCY_CD || ADMIN.MBR_GIFT_HIST.FREQ_CD || 42 © 2011 IBM Corporation
  • 43. 管理 Netezza 不需要索引 indexes 和调优 tuning 不需要存储管理  没有dbspace/tablespace容量规划和配置  无需redo/physical/Logical log的规划和配置  无需表的page/block 规划和配置  无需 表的extent规划和配置  无需临时空间Temp space分配和监控  无需dbspaces 级RAID级别选择  无需文件的逻辑卷logical volume创建  无需推荐OS kernel 的集成  无需操作系统OS建议补丁级别的维护  无需 JAD sessions 的 host/network/storage配置 不需要软件安装 43 © 2011 IBM Corporation
  • 44. Netezza的技术方向选择正确吗? 历史证明:  October 2006 – NPS 3.1 系统软件 在 3代硬件上 – 比大多数竞争性数据库快100x倍  August 2007 – NPS 4.0 系统软件 在3代硬件上 – 比NPS 3.1 SW获得100%的性能提升. 没有HW变化.  May 2008 NPS 4.5 系统软件 在 3代硬件上 – 比NPS 4.0 SW获得100%的性能提升. 没有HW变化.  August 2009 Netezza TwinFin 4代一体机 NPS 5.0 SW – 比NPS 4.5 SW和3代HW 获得2x到10x倍的性能提升.  October 2010 NPS 6.0 系统软件 – 比NPS 5.0 SW获得100%的性能提升. 没有HW变化.  对于我们发布的每一代一体机,在同等硬件条件下仅通过软件更新,我们就证明了2x 到10x倍的性能提升!  没有其他RDBMS厂商显示出这种让同样的一组硬件在速度上不断提升的先例,我们 独一无二的做到了.  我们期望我们的性能提升按这种步伐持续下去… 44 © 2011 IBM Corporation
  • 45. Gartner报告: 一体机(Appliance)是企业数据仓库的未来 Gartner把一项新产品走向成熟 的生命周期分为“技术触发、期望 膨胀、理性回归、增长上升、高 原稳定”五个阶段。 Gartner 2010年7月的分析报告 认为:“一体机”已经进入“增长上 升期”,两年内将被各行业大规模 应用。 到2015年,全球将有 至少50%的企业选择 一体机作为自己的数 据仓库解决方案 45 © 2011 IBM Corporation
  • 46. 内容提要  从数据获取价值  商业智能与云计算环境  数据仓库一体机解决方案 —— Netezza  关于BigData与数据仓库云的探讨 46 © 2011 IBM Corporation
  • 47. 数据仓库一体机的特点  集成度更高 – 一个标准机箱最大限度完成特定任务  配置更合理、速度更快 – 存储、控制器、I/O通道、内存、CPU、网络均衡设计 • 针对数据仓库访问最优设计 – 比传统类似平台高出一个数量级以上  整体能耗更低 – 同等计算任务,能耗最低  系统更加稳定可靠 – 消除各种单点故障环节 – 统一个部件、器件的品质和标准  管理维护费用低 – 数据仓库的常规管理全部集成 – 大大简化物理设计环节  可规划和预见的系统扩容、升级路线图 – 系统扩充、软件升级、旧设备回收 47 © 2011 IBM Corporation
  • 48. 云计算环境作为数据仓库平台考虑  互联网应用系统的构建  数据仓库系统的构建 – 客户群体不确定 – 用户群体明确 • 从无到有、从少到多 • 管理层 – 系统规模不确定 • 业务分析人员 • 与业务发展关系密切 • 业务操作人员 – 系统投资不固定 – 数据仓库规模可估算 • 与业务发展关系密切 • 与业务规模有联系但不是一一对应 – 业务应用有很清晰的并行分割特征 • 数据仓库有起始规模 • 互联网搜索 • 数据仓库与业务分析的需求有关 • 电子商务 • 数据仓库与业务系统的规模可控 – 数据仓库的系统投资与业务分析的 价值和回报相关 云计算平台构建数据仓库 —— 需要深入研究! • 与业务发展的规模只是有联系但非绑 定 – 商业智能应用属于整体应用 • 并行分割特征有自身特点 – 与传统云计算模式不同 – SAAS模式构建数据仓库系统 • 需要探讨的业务模式 48 © 2011 IBM Corporation
  • 49. BigData与云环境数据仓库  BigData作为数据分析服务器底层技术的局限 – 实现分布式并行数据库服务器要做的工作与BigData层面重叠 • 传统数据库厂商对BigData实现数据仓库不是很热心 – Why? • 数据库服务器需要实现数据查询和操作逻辑 – 这些逻辑的实现层面不能不考虑数据的分布 – 这些逻辑的实现与现有BigData的实现层面相互重叠且无法相互替代 > 在BigData之上实现的“数据库”都难免瘸腿 – e.g. Hive > 数据库技术的趋势,更是逻辑下推 – e.g. IBM Netezza & Oracle Exadata  云环境中的数据仓库 – 动态伸缩的非共享并行数据库应是方向 – 把BigData当一个大数据库文件并发使用或切成小块分割使用 • 均非上层数据库所需要 – 小块分割浪费了功能、效率不高 – 数据库只需要简单高效的存储管理 • 有限多节点 + 并行 + 容错 – IBM研究院的实验课题 > 赵邑新博士:zhaoyix@cn.ibm.com – 数据库要解决的问题是动态伸缩部署 • 各并行处理节点的数据重分布 49 © 2011 IBM Corporation
  • 50. 云计算环境的未来发展的探讨  云计算环境中基本计算单元的分化 – 当前的基本计算单元常常是普通PC服务器 • 小组大以及大划小的问题 – 如同多细胞生物体的进化,未来的云计算环境中可能出现“细胞分化”,从 而进化成高级生物: • 存储单元 • 计算单元 • 协调单元 • 通信单元 …… – 一体机以及专用设备在云环境中的角色 • 一体机不再是云计算的对立面,而是云计算的一分子  公共云业务模式的探讨 – 涉及底层的专门应用 – 对provision管理的挑战 • WebEx,展示互动 – 传统应用与数据仓库的SAAS模式 • 业务发展的挑战 50 © 2011 IBM Corporation