Bdwf11 netezza james_zheng
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

Bdwf11 netezza james_zheng

on

  • 971 views

 

Statistics

Views

Total Views
971
Views on SlideShare
971
Embed Views
0

Actions

Likes
0
Downloads
36
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Bdwf11 netezza james_zheng Presentation Transcript

  • 1. Netezza & BigData—— 从数据获取商业价值 郑晓军 Netezza数据仓库 渠道经理 IBM(中国)有限公司 软件部
  • 2. 内容提要 从数据获取价值 商业智能与云计算环境 数据仓库一体机解决方案 —— Netezza 关于BigData与数据仓库云的探讨3 © 2011 IBM Corporation
  • 3. 从数据获得价值 信息的重要性不言而喻 – 业务重心从流程自动化转向对市场的把握 – 不确定性领域成为业务竞争焦点 – 拥有信息 = 拥有财富 IT的发展为数据的积累和采集提供了坚实的基础 – 传统业务系统的普及促进数据的积累 – 互联网、IT技术发展促进数据的采集 数据的分析并将决策应用于业务是未来IT业最具发展潜力的一块 – 数据仓库在中国历经10多年发展 • 近两年依然势头不减,并有加速发展的趋势 – IBM:“智慧地球”、”智慧城市” – 切身体会: • 移动客户呼叫行为分析 – 2000 • 证交所内幕交易监测 – 2003 • 移动通信公司竞争分析 – 2004 • 公安系统案发特点分析 – 2008 • 股指期货套利 – 20104 © 2011 IBM Corporation
  • 4. 内容提要 从数据获取价值 商业智能与云计算环境 数据仓库一体机解决方案 —— Netezza 关于BigData与数据仓库云的探讨5 © 2011 IBM Corporation
  • 5. 云计算环境的兴起与数据仓库 云计算环境 – 低成本 • 大量PC服务器组合 – 高扩展性 + 动态扩展 • 设备自由扩充、应用动态部署、适应业务的伸缩 – 大容量、大数据量 • 数以千计服务器 – 采用冗余技术支持高可用性 数据仓库领域看到了机会 – BigData • 分布式并行文件系统 • Map Reduce数据分割与访问执行 – SQL支持 • 以Hive为代表的SQL界面支持 – 在BigData技术上构建下一代数据仓库成为热门话题 • IBM与联通某省的试验项目 – 历史详单数据 • 阿里巴巴 – 约1600台PC服务器构建Hadoop + Hive数据库6 © 2011 IBM Corporation
  • 6. 内容提要 从数据获取价值 商业智能与云计算环境 数据仓库一体机解决方案 —— Netezza 关于BigData与数据仓库云的探讨7 © 2011 IBM Corporation
  • 7. 传统数据仓库系统的松散构建模式BI Applications Client RDBMS ODBC JDBC OLE DB SQL/92/99 Server RDBMS + Server + Storage Storage Local Applications8 © 2011 IBM Corporation
  • 8. 数据仓库中数据库服务器的关键特征  数据仓库的访问特征:大查询、复杂查询 – 涉及的数据量大、范围大 • 传统细颗粒索引作用有限 • 顺序扫描压力增大 – 多表连接 – 涉及的聚合运算量大 – 并发请求数较少  分解大查询为多个小任务在各个节点上运行 – 负载均衡多个查询请求已不是系统调优的主要目的  各个节点间如何保证不互相影响、等待 – 最大程度减少节点间的交互 – 彻底并行 – Share Nothing or Share Everything (Share Disk) • Share Nothing是数据仓库的典型结构9 © 2011 IBM Corporation
  • 9. 非共享体系结构(Share Nothing) 分区数据库模型  数据库被分成多个分区  数据库分区运行在各个节点上  每个数据库分区具有自己的资源 (Engine, LogMg., LockMg., Caches, etc.)  数据库协调所有分区进行并行处理  对用户和应用来看,是一个单独的系统 Fast communication manager Database Partition data log data log data log data log Data Log 追求线性扩展能力!10 © 2011 IBM Corporation
  • 10. Balanced Configuration Unit - 所要达到的效果 实际吞吐量 传统的方法 存储 系统 Share 每个Array 中 100% Nothing LUN部署 LUN的数量 磁盘容量 RAID 50% 软件 架构  查询性能得到有效地提高  30%+ 消耗在 I/O  较高的 I/O 等待  处理器使用较低  BI 性能问题 60%以上和I/O相关 BCU 方法 服务器 存储 100% 数据库架构 100% 内存 CPUs 群集/ 架构 部署 LUNs 磁盘 RAID 容量 SMP + + TotalStorage® = 高效的吞吐 一体机的前身……11 © 2011 IBM Corporation
  • 11. IBM Netezza走在再聚合技术的前沿 ODBC JDBC OLE DB SQL/92/99 RDBMS + Server + Storage Local Applications12 Page 12 © 2011 IBM Corporation
  • 12. Netezza AMPP™架构 FPGA CPU 高级分析 高级分析 Memory BI应用 BI应用 FPGA CPU hosts Memory Hosts ETL ETL FPGA CPU 数据加载 数据加载 Memory 磁盘阵列柜 网络结构 应用 S-Blades™ Netezza 一体机 13 © 2011 IBM Corporation
  • 13. 传统的数据仓库架构:服务器和存储之间的数据流存在重大瓶颈!! 大批的数据从磁盘中 “搬移”到内存,成为 整个系统的瓶颈 数据查询结果 查询请求 服务器 关系型数据库软件 存储 数据首先被搬运到 内存,然后由 SQL 进行处理 Confidential 14 © 2011 IBM Corporation
  • 14. Netezza数据仓库专用设备: 性能的革命性突破 Netezza数据仓库设备 CPU: 仅为现有 系统的2% 网络流量: 仅为现有查询结果 系统的1% 查询请求 SMP主机 MPP “智能存储”: (2-4 CPU) 数据处理单元与存储相结合 数据在进入到内存之前,已经经 过流式的数据处理 Confidential 15 © 2011 IBM Corporation
  • 15. DiskNetezza数据库加速卡 Memory CPUs“只返回答案,而不是原始数据” FPGA16 © 2011 IBM Corporation
  • 16. FPGA 简要说明 FPGA (Field Programmable Gate Array) 即现场可编程门阵列 – 它是在PAL, GAL, EPLD等可编程器件的基础上进一步发展的产物 FPGA是作为专业集成电路(ASIC)领域中的一种半定制电路而出现的 – 既解决了定制电路的灵活性不足 – 又克服了原有可编程器件门电路数有限的缺点 FPGA的使用非常灵活 – 同一片FPGA通过不同的编程数据可以产程不同的电路功能 FPGA在通信、数据处理、网络、仪器、工业控制、军事和航空航天 等众多领域得到广泛的应用 – FPGA是通用集成电路器件 随着功耗和成本的进一步降低,FPGA还将进入更多的应用领域 – Netezza把FPGA带入了数据库一体机的领域!17 © 2011 IBM Corporation
  • 17. FPGA 技术 – Bit流处理  FPGAs跟踪业界领先的优势半导体技术  这种技术的可定制化让我们得以不断增加新特性  它的灵活性促使其在消费类电子产品中得以快速应用 – DVD播放器 – 等离子显示器 – HDTV – 3D TV  军事领域利用其实现低能耗下的高性能  实时video 和 audio 处理 18 © 2011 IBM Corporation
  • 18. Netezza数据流处理程序SELECT DISTRICT, PRODUCTGRP, SUM(NRX)From MTHLY_RX_TERR_DATA FPGA Core CPU CoreWHERE MONTH=‘20091201’AND MARKET=509123AND SPECIALTY=‘GASTRO’ Slice of TABLE 聚合 ∑MTHLY_RX_TERR_DATA 解压 投影(列) 过滤(行) (compressed) 连接, 汇总, 等. SELECT DISTRICT, WHERE SUM(NRX) MONTH=‘20091201’ PRODUCTGRP, AND MARKET=509123 SUM(NRX) AND SPECIALTY=‘GASTRO’每个 “Snippet处理器” (FPGA+CPU) 以高于115MB/秒的速度处理数据库的 FPGA 的实际处理吞吐量: 数据; 高压缩率 = 性能的提高 460MB/s*19 © 2011 IBM Corporation
  • 19. Netezza TwinFin™ 设备 用户数据切片 磁盘阵列柜 互换和镜像分区 高速数据流 SQL编译器 SMP主机 查询计划 优化管理 Snippet 处理器 & Blades™ 数据库逻辑流 (S-Blades™) 高性能数据库引擎流加载, 聚合,排序等 Confidential 20 © 2011 IBMPage 20 Corporation
  • 20. Netezza S-Blade™ Page 21 21 © 2011 IBM Corporation
  • 21. Netezza S-Blade 构件 IBM刀片服务器 Netezza数据库加速器22 © 2011 IBM Corporation
  • 22. Netezza TwinFin™12系统规格 • 8 个磁盘阵列柜 • 96个1TB SAS 硬盘 (4 热备份) • RAID 1 镜像 • 2个主机 (1主1备): • 2 个Quad-Core Intel 2.6 GHz CPUs • 7x146 GB SAS硬盘 • Red Hat Linux 5 64-bit • 12个Netezza S-Blades™: • 2 Intel Quad-Core 2+ GHz CPUs • 4 Dual-Engine 125 MHz FPGAs • 16 GB DDR2 RAM • Linux 64-bit Kernel • 用户数据容量: 128 TB** • 电源要求: 7.6 kW • 数据扫描速度: 145 TB/hr** • 制冷要求: 7.8 kW • 装载速度 (每个系统): 2+ TB/hr **: 假设4倍压缩比 23 © 2011 IBM Corporation
  • 23. 数据镜像(Disk Mirroring)和故障保护(Failover) 主空间 镜像空间 临时空间  所有用户数据和临时空间镜像保护  磁盘故障对查询和交易透明  故障磁盘驱动的数据自动重生成  坏数据区自动重写以及自动迁移至新安全区 24 © 2011 IBM Corporation
  • 24. TwinFin™ 存储和网络连接 “(TF6) 模块构建”Disk Enclosures 32x3 Gb/s SAS SAS Switches 4x3 Gb/s SAS S-Blades™ 2x GigE IP Switches 10 GigE Hosts25 © 2011 IBM Corporation
  • 25. 高可用性 – 系统关键数据的三重保护 磁盘层面的数据镜像以及故障保护技术 磁盘层面的数据镜像以及故障保护技术 Raid 1实现不同磁盘之间的数据镜像 Raid 1实现不同磁盘之间的数据镜像  每个S-Blade均有Failover盘,支持磁盘级别的自动恢复上线  每个S-Blade均有Failover盘,支持磁盘级别的自动恢复上线  支持在线更换损坏磁盘  支持在线更换损坏磁盘 S-Blade层面的互备 S-Blade层面的互备  磁盘驱动器自动重分配给相同底架上的活动的S-Blades。支持在线  磁盘驱动器自动重分配给相同底架上的活动的S-Blades。支持在线 更换S-Blade 更换S-Blade  只读查询 (还没有返回数据的) 自动重新开始  只读查询 (还没有返回数据的) 自动重新开始  交易事物和装载中断-装载自动从上一成功的 checkpoint处重新开始  交易事物和装载中断-装载自动从上一成功的 checkpoint处重新开始 Linux HA + 分布式块复制设备(DRDB Protocol C) Linux HA + 分布式块复制设备(DRDB Protocol C)  Linux HA 支持主机(HOST)的高可用性  Linux HA 支持主机(HOST)的高可用性  分布式块复制设备采用严格同步的模式,保证主备机关键数据库文  分布式块复制设备采用严格同步的模式,保证主备机关键数据库文 件所在的目录保持严格同步,避免任何可能的控制文件丢失 件所在的目录保持严格同步,避免任何可能的控制文件丢失26 © 2011 IBM Corporation
  • 26. 好的分布: 2.2万亿条记录27 © 2011 IBM Corporation
  • 27. TMZone Maps – “自由”的存在,自动维护,无需干预  每个磁盘extent包含来自于各个 表的记录  我们在每个extent上跟踪字段的 最大最小值  Zone maps可以对 date, timestamp, byteint, smallint, integer和bigint型数据生 效  当数据被loaded / updated / deleted时Zone maps自动更新  没有对load / update / delete 速度 的影响28 © 2011 IBM Corporation
  • 28. Zone Maps…自动分区 Zone Maps – 利用内在的数据顺序 – 在一个数据切片内…. • 为表中的每一列(Integers, timestamps, dates型) – 按每个extent收集最大最小值 – 每条搜集到的记录插入zonemap中为该表准备的数据区中. 当一个查询运行时, 数据切片减少到只扫描一部分extents 自动配置 – 在搜集统计信息时Stats – 在Loads时 – 在inserts, updates, loads和reclaims时. 29 © 2011 IBM Corporation
  • 29. Zone Maps • Zone Maps可以用于只扫描相关数据 • 系统知道数据在不在extents上,并只扫描有关的表extents … … … … … … … 30 Base Table © 2011 IBM Corporation
  • 30. 后台表整理Table Grooming 整理好的表 整理好的记录 删除的记录 新增加的记录 简单,一步命令聚拢数据 并召回reclaim未使用空间 在一个原子操作时磁盘extents的区域整理 一次 作为后台过程运行,对执行查询的终端用户透明 31 © 2011 IBM Corporation
  • 31. 简单的工作负载限制 可以在系统级设定一些简单的工作负载限制 这些限制可以在全局设,按 group 设或按 user 设 它们立即生效 极少需要应用基础级别的全局控制32 © 2011 IBM Corporation
  • 32. 工作负载管理工作负载管理 (WLM) 提供可选的功能来管理资源,在不同的多用户环境下设定资源使 用的优先级,来满足混合用户工作负载下的需求 保障资源分配(GRA) – 在多用户环境下在多组用户中分配 NPS资源的机制 分优先级查询执行 (PQE) – 更细粒度的控制资源分配,从计划到执行层面进一步扩充查询优先级的 控制 短查询倾向(SQB) – 在系统工作负载量很大的情况下,保证执行短查询的用户获得更快速的 高优先级的查询响应时间 工作负载限制(GRA) – 可以利用group定义的JOB MAXIMUM属性来控制被本组提交的活动的运 行任务的数量33 © 2011 IBM Corporation
  • 33. 工作负载管理控制: GRA 当三个资源组都有任务在系统上运行时,GRA计划器开始工作来平衡任务和资源利用的关系, 如下图所示:34 © 2011 IBM Corporation
  • 34. GRA + PQE: 权重low=1, normal=2, high=4, critical=8 因而,critical任务将会获得Analysts组的50%分配资源中的80%,即总资源的40%。 Normal任 务将获得50%中20%,即总资源的10% 35 © 2011 IBM Corporation
  • 35. 缺省的工作负载管理: SQB 短查询倾向 (SQB) – 短查询优先于长时间运行的查询 – 对执行短查询的用户实时响应 – 在大型混合工作负载环境中SQB是非常重要的特征 8 Items or Less Full Carts Here Full Carts Here36 © 2011 IBM Corporation
  • 36. 利用IBM Tivoli做的典型BAR配置 Backup Media Tivoli Storage Manager Server TAPE TAPE TAPE LIB LIB LIB SAN (Optional) LAN Client Client Client TSM Client Backup Script Linux Host SPUs Netezza Performance Server 37 © 2011 IBM Corporation
  • 37. 备份与恢复特征  与第三方BAR工具的企业级集成和认证 – 利用主流的backup和restore工具简化部署 – 支持X/Open Backup Services API (XBSA) – 经过IBM Tivoli Storage Manager认证 – 经过Symantec的Veritas NetBackup™ 认证  增量backup和restore – 与全量备份比较显著缩短备份时间 – 在NZBACKUP工具中可用 – 全部或部分恢复选项 Sun Mon Tue Wed Thu Fri Sat Full Diff Diff Diff Diff Diff Cum38 © 2011 IBM Corporation
  • 38. Netezza TwinFin 可靠的可扩展性 基于share-nothing -- 数据仓库级被证明最有效的架构 基于share-nothing 数据仓库级被证明最有效的架构 1 10 ... 严格遵循MPP的原则,充分发挥系统资源的潜能: 严格遵循MPP的原则,充分发挥系统资源的潜能: 1颗CPU Core  1颗FPGA Core  1个DISK 1颗CPU Core  1颗FPGA Core  1个DISK TF3 TF6 TF12 TF24 ... TF48 ... TF120 TwinFin之间通过SAS Switch直接相连,减少可能的 TwinFin之间通过SAS Switch直接相连,减少可能的Snippet 处理器 24 48 96 192 384 960 网络瓶颈 网络瓶颈 容量 (TB) 8 16 32 64 128 320 压缩 (TB) 32 64 128 256 以上特性配合Netezza独特的硬件流性加速技术512 1280 以上特性配合Netezza独特的硬件流性加速技术 (FPGA),使TwinFin轻松达到PB级的数据可扩展 (FPGA),使TwinFin轻松达到PB级的数据可扩展 性 性 容量 = 用户数据空间 压缩 = 有效用户数据空间39 © 2011 IBM Corporation
  • 39. Netezza 的管理简单40 © 2011 IBM Corporation
  • 40. Netezza一体机数据查询与装载报表&分析 数据集成 OLE-DB OLE-DBActuate Ab InitioBusiness Objects/SAP BusinessCognos (IBM) Objects/SAPInformation Builders Composite JDBC JDBCKalido SoftwareKXEN ExpressorMicroStrategy 数据检出 数据载入 Software GoldenGate ODBC ODBCOracle OBIEE Software (Oracle)QlikTech InformaticaQuest Software IBM Information SQL SQLSAS ServerSPSS (IBM) Sunopsis (Oracle)Unica (IBM) WisdomForce41 © 2011 IBM Corporation
  • 41. 复杂查询…SELECT ADMIN.MBR_GIFT_HIST.AMT_CD, FROM ADMIN.MBR_BY_GIFT.FSCL_YTD_AVG,sum(ADMIN.MBR_GIFT_HIST.GIFT_AMT), ADMIN.MBR_NM_ADDR, ADMIN.MBR_GIFT_HIST.LOT_CD, ADMIN.MBR_BY_GIFT.PREV_FSCL_YR_AVG,count(ADMIN.MBR_GIFT_HIST.GIFT_DT), ADMIN.MBR_PRFL LEFT OUTER JOIN ADMIN.REF_RCNCY_CD Member_Recency_CD ON ADMIN.MBR_BY_GIFT.LFTM_AVG, ADMIN.MBR_GIFT_HIST.CARE_GVNG_CD, Member_Recency_CD.RCNCY_CD=ADMIN.MBR_PRFL.RCNCY_CD LEFT OUTER JOIN ADMIN.MBR_GIFT_HIST.MAIL_KEY_CD,count(distinct ADMIN.MBR_GIFT_HIST.MBR_ID), ADMIN.MBR_GIFT_HIST.SRC_CD, ADMIN.REF_FREQ_CD Member_Frequecncy_CD ON ADMIN.MBR_GIFT_HIST.CPGN_TYP,ADMIN.MBR_NM_ADDR.ADDR_TYP, Member_Frequecncy_CD.FREQ_CD=ADMIN.MBR_PRFL.FREQ_CD LEFT OUTER JOIN Gift_Campaign_Type.CPGN_TYP_DESC, Gift_Caregiver.CARE_GVNG_CD_DESC,ADMIN.MBR_NM_ADDR.ADDR_LINE_1, ADMIN.REF_AMT_CD Member_Amount_CD ON ADMIN.MBR_GIFT_HIST.DONOR_CLASS_CD, ADMIN.MBR_GIFT_HIST.RSP_CD, Member_Amount_CD.AMT_CD=ADMIN.MBR_PRFL.AMT_CD,ADMIN.MBR_NM_ADDR.ADDR_LINE_2, Gift_Donor_Class.DONOR_CLASS_CD_DESC, Gift_Source_CD.SRC_CD, ADMIN.MBR_BY_GIFT, ADMIN.MBR_GIFT_HIST.CPGN_AUDNC_CD,ADMIN.MBR_NM_ADDR.CITY, ADMIN.MBR_GIFT_HIST.PREM_TYP, ADMIN.MBR_GIFT_HIST LEFT OUTER JOIN ADMIN.REF_CPGN_TYP Gift_Campaign_Type ON Gift_Cpgn_Audience.CPGN_AUDNC_CD_DESC,ADMIN.MBR_NM_ADDR.STATE_CD, ADMIN.MBR_GIFT_HIST.CPGN_TYP=Gift_Campaign_Type.CPGN_TYP LEFT OUTER JOIN ADMIN.MBR_GIFT_HIST.CPGN_YR, Gift_Response_Code.RSP_CD_DESC, ADMIN.REF_DONOR_CLASS_CD Gift_Donor_Class ONADMIN.MBR_NM_ADDR.ZIP_CD_BASE, ADMIN.MBR_GIFT_HIST.PRFL_CD, Gift_Premium_Type.PREM_TYP_DESC, ADMIN.MBR_GIFT_HIST.DONOR_CLASS_CD=Gift_Donor_Class.DONOR_CLASS_CD LEFT OUTER JOIN ADMIN.MBR_GIFT_HIST.CPGN_NUM,ADMIN.MBR_NM_ADDR.ZIP_CD_SUFX, ADMIN.MBR_GIFT_HIST.MBR_ID, ADMIN.REF_CPGN_AUDNC_CD Gift_Cpgn_Audience ON ADMIN.MBR_GIFT_HIST.PKG_CD,ADMIN.MBR_PRFL.RCNCY_CD, ADMIN.MBR_GIFT_HIST.CPGN_AUDNC_CD=Gift_Cpgn_Audience.CPGN_AUDNC_CD LEFT OUTER JOIN ADMIN.MBR_GIFT_HIST.GIFT_DT, Gift_Profile_CD.PRFL_CD_DESC,ADMIN.MBR_PRFL.FREQ_CD, ADMIN.REF_PRFL_CD Gift_Profile_CD ON Gift_Profile_CD.PRFL_CD=ADMIN.MBR_GIFT_HIST.PRFL_CD ADMIN.MBR_GIFT_HIST.RCNCY_CD, ADMIN.MBR_GIFT_HIST.GIFT_AMT, LEFT OUTER JOIN ADMIN.REF_RCNCY_CD Gift_Recency_CD ON ADMIN.MBR_GIFT_HIST.FREQ_CD,Member_Recency_CD.RCNCY_CD_DESC, ADMIN.MBR_GIFT_HIST.AFFL_CD, Gift_Recency_CD.RCNCY_CD=ADMIN.MBR_GIFT_HIST.RCNCY_CD LEFT OUTER JOIN Gift_Recency_CD.RCNCY_CD_DESC,ADMIN.MBR_PRFL.AMT_CD, ADMIN.MBR_GIFT_HIST.UPDT_NUM, ADMIN.REF_FREQ_CD Gift_Frequency_CD ON ADMIN.MBR_GIFT_HIST.AMT_CD, ADMIN.MBR_PRFL.RCNCY_CD || ADMIN.MBR_PRFL.FREQ_CD, ADMIN.MBR_GIFT_HIST.FREQ_CD=Gift_Frequency_CD.FREQ_CD LEFT OUTER JOIN Gift_Frequency_CD.FREQ_CD_DESC, ADMIN.MBR_GIFT_HIST.LAST_UPDT_DT, ADMIN.REF_AMT_CD Gift_Amount_CD ON ADMIN.MBR_GIFT_HIST.AMT_CD=Gift_Amount_CD.AMT_CD ADMIN.MBR_PRFL.RCNCY_CD || ADMIN.MBR_PRFL.FREQ_CD || ADMIN.MBR_GIFT_HIST.RCNCY_CD || ADMIN.MBR_NM_ADDR.SALU_LINE_1, LEFT OUTER JOIN ADMIN.REF_RSP_CD Gift_Response_Code ON ADMIN.MBR_GIFT_HIST.FREQ_CD,ADMIN.MBR_PRFL.AMT_CD, ADMIN.MBR_NM_ADDR.SALU_LINE_2, Gift_Response_Code.RSP_CD=ADMIN.MBR_GIFT_HIST.RSP_CD LEFT OUTER JOIN Gift_Amount_CD.AMT_CD_DESC, Member_Frequecncy_CD.FREQ_CD_DESC, ADMIN.REF_SRC_CD Gift_Source_CD ON Gift_Source_CD.SRC_CD=ADMIN.MBR_GIFT_HIST.SRC_CD ADMIN.MBR_NM_ADDR.SALU_LINE_3, ADMIN.MBR_GIFT_HIST.RCNCY_CD || Member_Amount_CD.AMT_CD_DESC, LEFT OUTER JOIN ADMIN.REF_PREM_TYP Gift_Premium_Type ON ADMIN.MBR_GIFT_HIST.FREQ_CD || ADMIN.MBR_GIFT_HIST.AMT_CD, 通过BO拖拽生成的 … ADMIN.MBR_PRFL.UPDT_NUM, Gift_Premium_Type.PREM_TYP=ADMIN.MBR_GIFT_HIST.PREM_TYP LEFT OUTER JOIN ADMIN.MBR_GIFT_HIST.LOT_CD, Member_Recency_CD.RCNCY_CD_DESC || || ADMIN.MBR_PRFL.LAST_UPDT_DT, ADMIN.REF_CARE_GVNG_CD Gift_Caregiver ON ADMIN.MBR_GIFT_HIST.CARE_GVNG_CD,Member_Frequecncy_CD.FREQ_CD_DESC, ADMIN.MBR_NM_ADDR.INSIDE_SALU_NM, ADMIN.MBR_GIFT_HIST.CARE_GVNG_CD=Gift_Caregiver.CARE_GVNG_CD ADMIN.MBR_GIFT_HIST.SRC_CD, Member_Recency_CD.RCNCY_CD_DESC || || WHERE Gift_Caregiver.CARE_GVNG_CD_DESC, ADMIN.MBR_PRFL.MBR_ID, ( ADMIN.MBR_NM_ADDR.MBR_ID=ADMIN.MBR_PRFL.MBR_ID )Member_Frequecncy_CD.FREQ_CD_DESC || || ADMIN.MBR_GIFT_HIST.RSP_CD, ADMIN.MBR_PRFL.ACCT_TYP, AND ( ADMIN.MBR_BY_GIFT.MBR_ID=ADMIN.MBR_PRFL.MBR_ID ) Gift_Source_CD.SRC_CD,Member_Amount_CD.AMT_CD_DESC, ADMIN.MBR_PRFL.ACCT_CAT_CD, AND ( ADMIN.MBR_PRFL.MBR_ID=ADMIN.MBR_GIFT_HIST.MBR_ID ) ADMIN.MBR_GIFT_HIST.PREM_TYP, ADMIN.MBR_BY_GIFT.FRST_GIFT_AMT, AND ( ADMIN.MBR_PRFL.AFFL_CD, Gift_Response_Code.RSP_CD_DESC, ADMIN.MBR_BY_GIFT.FRST_GIFT_DT, ADMIN.MBR_PRFL.MBR_ID = 00331415 Gift_Premium_Type.PREM_TYP_DESC, 6亿条记录的事实表 ADMIN.MBR_PRFL.CHAP_IND, ) ADMIN.MBR_GIFT_HIST.MBR_ID, ADMIN.MBR_BY_GIFT.LAST_GIFT_AMT, ADMIN.MBR_PRFL.RSP_CD, GROUP BY ADMIN.MBR_GIFT_HIST.GIFT_DT, ADMIN.MBR_BY_GIFT.LAST_GIFT_DT, ADMIN.MBR_PRFL.NEW_MBR_FLG, ADMIN.MBR_NM_ADDR.ADDR_TYP, ADMIN.MBR_GIFT_HIST.GIFT_AMT, ADMIN.MBR_BY_GIFT.HGST_GIFT_AMT, ADMIN.MBR_NM_ADDR.ADDR_LINE_1, ADMIN.MBR_GIFT_HIST.AFFL_CD, ADMIN.MBR_PRFL.SEED_FLG, ADMIN.MBR_NM_ADDR.ADDR_LINE_2, ADMIN.MBR_BY_GIFT.HGST_GIFT_DT, ADMIN.MBR_GIFT_HIST.UPDT_NUM, ADMIN.MBR_PRFL.SLCITN_CD ADMIN.MBR_NM_ADDR.CITY, ADMIN.MBR_GIFT_HIST.LAST_UPDT_DT, ADMIN.MBR_BY_GIFT.HGST_GIFT_LAST_24_MTH, ADMIN.MBR_NM_ADDR.STATE_CD, ADMIN.MBR_NM_ADDR.SALU_LINE_1,ADMIN.MBR_BY_GIFT.FSCL_YTD_AVG, ADMIN.MBR_NM_ADDR.ZIP_CD_BASE, ADMIN.MBR_NM_ADDR.SALU_LINE_2, 13个joinADMIN.MBR_BY_GIFT.PREV_FSCL_YR_AVG, ADMIN.MBR_NM_ADDR.ZIP_CD_SUFX, ADMIN.MBR_NM_ADDR.SALU_LINE_3,ADMIN.MBR_BY_GIFT.LFTM_AVG, ADMIN.MBR_PRFL.RCNCY_CD, ADMIN.MBR_PRFL.UPDT_NUM, ADMIN.MBR_PRFL.FREQ_CD, ADMIN.MBR_PRFL.LAST_UPDT_DT,ADMIN.MBR_GIFT_HIST.MAIL_KEY_CD, Member_Recency_CD.RCNCY_CD_DESC, ADMIN.MBR_NM_ADDR.INSIDE_SALU_NM,ADMIN.MBR_GIFT_HIST.CPGN_TYP, ADMIN.MBR_PRFL.AMT_CD, ADMIN.MBR_PRFL.MBR_ID,Gift_Campaign_Type.CPGN_TYP_DESC, ADMIN.MBR_PRFL.RCNCY_CD || ADMIN.MBR_PRFL.FREQ_CD, ADMIN.MBR_PRFL.ACCT_TYP, ADMIN.MBR_PRFL.RCNCY_CD || ADMIN.MBR_PRFL.FREQ_CD || ADMIN.MBR_PRFL.AMT_CD, ADMIN.MBR_PRFL.ACCT_CAT_CD,ADMIN.MBR_GIFT_HIST.DONOR_CLASS_CD, Member_Frequecncy_CD.FREQ_CD_DESC, ADMIN.MBR_PRFL.AFFL_CD,Gift_Donor_Class.DONOR_CLASS_CD_DESC, Member_Amount_CD.AMT_CD_DESC, ADMIN.MBR_PRFL.CHAP_IND, 75个group byADMIN.MBR_GIFT_HIST.CPGN_AUDNC_CD, Member_Recency_CD.RCNCY_CD_DESC || || Member_Frequecncy_CD.FREQ_CD_DESC, ADMIN.MBR_PRFL.RSP_CD,Gift_Cpgn_Audience.CPGN_AUDNC_CD_DESC, Member_Recency_CD.RCNCY_CD_DESC || || Member_Frequecncy_CD.FREQ_CD_DESC || || ADMIN.MBR_PRFL.NEW_MBR_FLG, Member_Amount_CD.AMT_CD_DESC, ADMIN.MBR_PRFL.SEED_FLG,ADMIN.MBR_GIFT_HIST.CPGN_YR, ADMIN.MBR_BY_GIFT.FRST_GIFT_AMT, ADMIN.MBR_PRFL.SLCITN_CD;ADMIN.MBR_GIFT_HIST.PRFL_CD, ADMIN.MBR_BY_GIFT.FRST_GIFT_DT,ADMIN.MBR_GIFT_HIST.CPGN_NUM, ADMIN.MBR_BY_GIFT.LAST_GIFT_AMT, ADMIN.MBR_BY_GIFT.LAST_GIFT_DT,ADMIN.MBR_GIFT_HIST.PKG_CD, ADMIN.MBR_BY_GIFT.HGST_GIFT_AMT,Gift_Profile_CD.PRFL_CD_DESC, Oracle: 用了数小时完成 ADMIN.MBR_BY_GIFT.HGST_GIFT_DT,ADMIN.MBR_GIFT_HIST.RCNCY_CD, ADMIN.MBR_BY_GIFT.HGST_GIFT_LAST_24_MTH,ADMIN.MBR_GIFT_HIST.FREQ_CD,Gift_Recency_CD.RCNCY_CD_DESC,ADMIN.MBR_GIFT_HIST.AMT_CD,Gift_Frequency_CD.FREQ_CD_DESC,ADMIN.MBR_GIFT_HIST.RCNCY_CD || ADMIN.MBR_GIFT_HIST.FREQ_CD, Netezza: 只用了3分钟Gift_Amount_CD.AMT_CD_DESC,ADMIN.MBR_GIFT_HIST.RCNCY_CD || ADMIN.MBR_GIFT_HIST.FREQ_CD || 42 © 2011 IBM Corporation
  • 42. 管理 Netezza 不需要索引 indexes 和调优 tuning 不需要存储管理  没有dbspace/tablespace容量规划和配置  无需redo/physical/Logical log的规划和配置  无需表的page/block 规划和配置  无需 表的extent规划和配置  无需临时空间Temp space分配和监控  无需dbspaces 级RAID级别选择  无需文件的逻辑卷logical volume创建  无需推荐OS kernel 的集成  无需操作系统OS建议补丁级别的维护  无需 JAD sessions 的 host/network/storage配置 不需要软件安装 43 © 2011 IBM Corporation
  • 43. Netezza的技术方向选择正确吗? 历史证明: October 2006 – NPS 3.1 系统软件 在 3代硬件上 – 比大多数竞争性数据库快100x倍 August 2007 – NPS 4.0 系统软件 在3代硬件上 – 比NPS 3.1 SW获得100%的性能提升. 没有HW变化. May 2008 NPS 4.5 系统软件 在 3代硬件上 – 比NPS 4.0 SW获得100%的性能提升. 没有HW变化. August 2009 Netezza TwinFin 4代一体机 NPS 5.0 SW – 比NPS 4.5 SW和3代HW 获得2x到10x倍的性能提升. October 2010 NPS 6.0 系统软件 – 比NPS 5.0 SW获得100%的性能提升. 没有HW变化. 对于我们发布的每一代一体机,在同等硬件条件下仅通过软件更新,我们就证明了2x 到10x倍的性能提升! 没有其他RDBMS厂商显示出这种让同样的一组硬件在速度上不断提升的先例,我们 独一无二的做到了. 我们期望我们的性能提升按这种步伐持续下去… 44 © 2011 IBM Corporation
  • 44. Gartner报告: 一体机(Appliance)是企业数据仓库的未来 Gartner把一项新产品走向成熟 的生命周期分为“技术触发、期望 膨胀、理性回归、增长上升、高 原稳定”五个阶段。 Gartner 2010年7月的分析报告 认为:“一体机”已经进入“增长上 升期”,两年内将被各行业大规模 应用。 到2015年,全球将有 至少50%的企业选择 一体机作为自己的数 据仓库解决方案45 © 2011 IBM Corporation
  • 45. 内容提要 从数据获取价值 商业智能与云计算环境 数据仓库一体机解决方案 —— Netezza 关于BigData与数据仓库云的探讨46 © 2011 IBM Corporation
  • 46. 数据仓库一体机的特点 集成度更高 – 一个标准机箱最大限度完成特定任务 配置更合理、速度更快 – 存储、控制器、I/O通道、内存、CPU、网络均衡设计 • 针对数据仓库访问最优设计 – 比传统类似平台高出一个数量级以上 整体能耗更低 – 同等计算任务,能耗最低 系统更加稳定可靠 – 消除各种单点故障环节 – 统一个部件、器件的品质和标准 管理维护费用低 – 数据仓库的常规管理全部集成 – 大大简化物理设计环节 可规划和预见的系统扩容、升级路线图 – 系统扩充、软件升级、旧设备回收47 © 2011 IBM Corporation
  • 47. 云计算环境作为数据仓库平台考虑 互联网应用系统的构建  数据仓库系统的构建 – 客户群体不确定 – 用户群体明确 • 从无到有、从少到多 • 管理层 – 系统规模不确定 • 业务分析人员 • 与业务发展关系密切 • 业务操作人员 – 系统投资不固定 – 数据仓库规模可估算 • 与业务发展关系密切 • 与业务规模有联系但不是一一对应 – 业务应用有很清晰的并行分割特征 • 数据仓库有起始规模 • 互联网搜索 • 数据仓库与业务分析的需求有关 • 电子商务 • 数据仓库与业务系统的规模可控 – 数据仓库的系统投资与业务分析的 价值和回报相关云计算平台构建数据仓库 —— 需要深入研究! • 与业务发展的规模只是有联系但非绑 定 – 商业智能应用属于整体应用 • 并行分割特征有自身特点 – 与传统云计算模式不同 – SAAS模式构建数据仓库系统 • 需要探讨的业务模式48 © 2011 IBM Corporation
  • 48. BigData与云环境数据仓库 BigData作为数据分析服务器底层技术的局限 – 实现分布式并行数据库服务器要做的工作与BigData层面重叠 • 传统数据库厂商对BigData实现数据仓库不是很热心 – Why? • 数据库服务器需要实现数据查询和操作逻辑 – 这些逻辑的实现层面不能不考虑数据的分布 – 这些逻辑的实现与现有BigData的实现层面相互重叠且无法相互替代 > 在BigData之上实现的“数据库”都难免瘸腿 – e.g. Hive > 数据库技术的趋势,更是逻辑下推 – e.g. IBM Netezza & Oracle Exadata 云环境中的数据仓库 – 动态伸缩的非共享并行数据库应是方向 – 把BigData当一个大数据库文件并发使用或切成小块分割使用 • 均非上层数据库所需要 – 小块分割浪费了功能、效率不高 – 数据库只需要简单高效的存储管理 • 有限多节点 + 并行 + 容错 – IBM研究院的实验课题 > 赵邑新博士:zhaoyix@cn.ibm.com – 数据库要解决的问题是动态伸缩部署 • 各并行处理节点的数据重分布49 © 2011 IBM Corporation
  • 49. 云计算环境的未来发展的探讨 云计算环境中基本计算单元的分化 – 当前的基本计算单元常常是普通PC服务器 • 小组大以及大划小的问题 – 如同多细胞生物体的进化,未来的云计算环境中可能出现“细胞分化”,从 而进化成高级生物: • 存储单元 • 计算单元 • 协调单元 • 通信单元 …… – 一体机以及专用设备在云环境中的角色 • 一体机不再是云计算的对立面,而是云计算的一分子 公共云业务模式的探讨 – 涉及底层的专门应用 – 对provision管理的挑战 • WebEx,展示互动 – 传统应用与数据仓库的SAAS模式 • 业务发展的挑战50 © 2011 IBM Corporation