More Related Content
Similar to Bdwf11 netezza james_zheng
Similar to Bdwf11 netezza james_zheng (20)
Bdwf11 netezza james_zheng
- 3. 内容提要
从数据获取价值
商业智能与云计算环境
数据仓库一体机解决方案 —— Netezza
关于BigData与数据仓库云的探讨
3 © 2011 IBM Corporation
- 4. 从数据获得价值
信息的重要性不言而喻
– 业务重心从流程自动化转向对市场的把握
– 不确定性领域成为业务竞争焦点
– 拥有信息 = 拥有财富
IT的发展为数据的积累和采集提供了坚实的基础
– 传统业务系统的普及促进数据的积累
– 互联网、IT技术发展促进数据的采集
数据的分析并将决策应用于业务是未来IT业最具发展潜力的一块
– 数据仓库在中国历经10多年发展
• 近两年依然势头不减,并有加速发展的趋势
– IBM:“智慧地球”、”智慧城市”
– 切身体会:
• 移动客户呼叫行为分析 – 2000
• 证交所内幕交易监测 – 2003
• 移动通信公司竞争分析 – 2004
• 公安系统案发特点分析 – 2008
• 股指期货套利 – 2010
4 © 2011 IBM Corporation
- 5. 内容提要
从数据获取价值
商业智能与云计算环境
数据仓库一体机解决方案 —— Netezza
关于BigData与数据仓库云的探讨
5 © 2011 IBM Corporation
- 6. 云计算环境的兴起与数据仓库
云计算环境
– 低成本
• 大量PC服务器组合
– 高扩展性 + 动态扩展
• 设备自由扩充、应用动态部署、适应业务的伸缩
– 大容量、大数据量
• 数以千计服务器
– 采用冗余技术支持高可用性
数据仓库领域看到了机会
– BigData
• 分布式并行文件系统
• Map Reduce数据分割与访问执行
– SQL支持
• 以Hive为代表的SQL界面支持
– 在BigData技术上构建下一代数据仓库成为热门话题
• IBM与联通某省的试验项目
– 历史详单数据
• 阿里巴巴
– 约1600台PC服务器构建Hadoop + Hive数据库
6 © 2011 IBM Corporation
- 7. 内容提要
从数据获取价值
商业智能与云计算环境
数据仓库一体机解决方案 —— Netezza
关于BigData与数据仓库云的探讨
7 © 2011 IBM Corporation
- 8. 传统数据仓库系统的松散构建模式
BI Applications Client RDBMS
ODBC
JDBC
OLE DB
SQL/92/99
Server
RDBMS
+
Server
+ Storage
Storage
Local Applications
8 © 2011 IBM Corporation
- 9. 数据仓库中数据库服务器的关键特征
数据仓库的访问特征:大查询、复杂查询
– 涉及的数据量大、范围大
• 传统细颗粒索引作用有限
• 顺序扫描压力增大
– 多表连接
– 涉及的聚合运算量大
– 并发请求数较少
分解大查询为多个小任务在各个节点上运行
– 负载均衡多个查询请求已不是系统调优的主要目的
各个节点间如何保证不互相影响、等待
– 最大程度减少节点间的交互 – 彻底并行
– Share Nothing or Share Everything (Share Disk)
• Share Nothing是数据仓库的典型结构
9 © 2011 IBM Corporation
- 10. 非共享体系结构(Share Nothing)
分区数据库模型
数据库被分成多个分区
数据库分区运行在各个节点上
每个数据库分区具有自己的资源 (Engine, LogMg., LockMg., Caches,
etc.)
数据库协调所有分区进行并行处理
对用户和应用来看,是一个单独的系统
Fast communication manager
Database
Partition
data log data log data log data log
Data Log
追求线性扩展能力!
10 © 2011 IBM Corporation
- 11. Balanced Configuration Unit - 所要达到的效果
实际吞吐量
传统的方法
存储
系统 Share
每个Array 中
100% Nothing LUN部署 LUN的数量 磁盘容量
RAID 50%
软件 架构
查询性能得到有效地提高
30%+ 消耗在 I/O
较高的 I/O 等待
处理器使用较低
BI 性能问题 60%以上和I/O相关
BCU 方法
服务器 存储
100% 数据库架构 100%
内存 CPUs 群集/ 架构 部署 LUNs 磁盘 RAID
容量
SMP
+ + TotalStorage® = 高效的吞吐
一体机的前身……
11 © 2011 IBM Corporation
- 12. IBM Netezza走在再聚合技术的前沿
ODBC
JDBC
OLE DB
SQL/92/99
RDBMS
+
Server
+
Storage
Local Applications
12 Page 12
© 2011 IBM Corporation
- 13. Netezza AMPP™架构
FPGA CPU
高级分析
高级分析
Memory
BI应用
BI应用
FPGA CPU
hosts
Memory Hosts
ETL
ETL
FPGA CPU
数据加载
数据加载
Memory
磁盘阵列柜 网络结构 应用
S-Blades™
Netezza 一体机
13 © 2011 IBM Corporation
- 14. 传统的数据仓库架构:
服务器和存储之间的数据流存在重大瓶颈!!
大批的数据从磁盘中
“搬移”到内存,成为
整个系统的瓶颈
数据
查询结果
查询请求
服务器 关系型数据库软件 存储
数据首先被搬运到
内存,然后由 SQL
进行处理 Confidential
14 © 2011 IBM Corporation
- 15. Netezza数据仓库专用设备:
性能的革命性突破
Netezza数据仓库设备
CPU:
仅为现有
系统的2%
网络流量:
仅为现有
查询结果 系统的1%
查询请求
SMP主机 MPP “智能存储”:
(2-4 CPU) 数据处理单元与存储相结合
数据在进入到内存之前,已经经
过流式的数据处理 Confidential
15 © 2011 IBM Corporation
- 17. FPGA 简要说明
FPGA (Field Programmable Gate Array) 即现场可编程门阵列
– 它是在PAL, GAL, EPLD等可编程器件的基础上进一步发展的产物
FPGA是作为专业集成电路(ASIC)领域中的一种半定制电路而出现的
– 既解决了定制电路的灵活性不足
– 又克服了原有可编程器件门电路数有限的缺点
FPGA的使用非常灵活
– 同一片FPGA通过不同的编程数据可以产程不同的电路功能
FPGA在通信、数据处理、网络、仪器、工业控制、军事和航空航天
等众多领域得到广泛的应用
– FPGA是通用集成电路器件
随着功耗和成本的进一步降低,FPGA还将进入更多的应用领域
– Netezza把FPGA带入了数据库一体机的领域!
17 © 2011 IBM Corporation
- 18. FPGA 技术 – Bit流处理
FPGAs跟踪业界领先的优势半导体技术
这种技术的可定制化让我们得以不断增加新特性
它的灵活性促使其在消费类电子产品中得以快速应用
– DVD播放器
– 等离子显示器
– HDTV
– 3D TV
军事领域利用其实现低能耗下的高性能
实时video 和 audio 处理
18 © 2011 IBM Corporation
- 19. Netezza数据流处理程序
SELECT DISTRICT,
PRODUCTGRP,
SUM(NRX)
From MTHLY_RX_TERR_DATA FPGA Core CPU Core
WHERE MONTH=‘20091201’
AND MARKET=509123
AND SPECIALTY=‘GASTRO’
Slice of TABLE
聚合 ∑
MTHLY_RX_TERR_DATA
解压 投影(列) 过滤(行)
(compressed) 连接, 汇总, 等.
SELECT DISTRICT, WHERE SUM(NRX)
MONTH=‘20091201’
PRODUCTGRP, AND MARKET=509123
SUM(NRX) AND
SPECIALTY=‘GASTRO’
每个 “Snippet处理器” (FPGA+CPU) 以高于115MB/秒的速度处理数据库的 FPGA 的实际处理吞吐量:
数据; 高压缩率 = 性能的提高 460MB/s*
19 © 2011 IBM Corporation
- 20. Netezza TwinFin™ 设备
用户数据切片
磁盘阵列柜 互换和镜像分区
高速数据流
SQL编译器
SMP主机 查询计划
优化管理
Snippet 处理器 &
Blades™ 数据库逻辑流
(S-Blades™) 高性能数据库引擎流加载,
聚合,排序等
Confidential
20 © 2011 IBMPage 20
Corporation
- 23. Netezza TwinFin™12系统规格
• 8 个磁盘阵列柜
• 96个1TB SAS 硬盘 (4 热备份)
• RAID 1 镜像
• 2个主机 (1主1备):
• 2 个Quad-Core Intel 2.6 GHz CPUs
• 7x146 GB SAS硬盘
• Red Hat Linux 5 64-bit
• 12个Netezza S-Blades™:
• 2 Intel Quad-Core 2+ GHz CPUs
• 4 Dual-Engine 125 MHz FPGAs
• 16 GB DDR2 RAM
• Linux 64-bit Kernel
• 用户数据容量: 128 TB**
• 电源要求: 7.6 kW
• 数据扫描速度: 145 TB/hr**
• 制冷要求: 7.8 kW
• 装载速度 (每个系统): 2+ TB/hr
**: 假设4倍压缩比
23 © 2011 IBM Corporation
- 25. TwinFin™ 存储和网络连接
“(TF6) 模块构建”
Disk Enclosures 32x3 Gb/s SAS
SAS Switches
4x3 Gb/s SAS
S-Blades™
2x GigE
IP Switches 10 GigE
Hosts
25 © 2011 IBM Corporation
- 26. 高可用性 – 系统关键数据的三重保护
磁盘层面的数据镜像以及故障保护技术
磁盘层面的数据镜像以及故障保护技术
Raid 1实现不同磁盘之间的数据镜像
Raid 1实现不同磁盘之间的数据镜像
每个S-Blade均有Failover盘,支持磁盘级别的自动恢复上线
每个S-Blade均有Failover盘,支持磁盘级别的自动恢复上线
支持在线更换损坏磁盘
支持在线更换损坏磁盘
S-Blade层面的互备
S-Blade层面的互备
磁盘驱动器自动重分配给相同底架上的活动的S-Blades。支持在线
磁盘驱动器自动重分配给相同底架上的活动的S-Blades。支持在线
更换S-Blade
更换S-Blade
只读查询 (还没有返回数据的) 自动重新开始
只读查询 (还没有返回数据的) 自动重新开始
交易事物和装载中断-装载自动从上一成功的 checkpoint处重新开始
交易事物和装载中断-装载自动从上一成功的 checkpoint处重新开始
Linux HA + 分布式块复制设备(DRDB Protocol C)
Linux HA + 分布式块复制设备(DRDB Protocol C)
Linux HA 支持主机(HOST)的高可用性
Linux HA 支持主机(HOST)的高可用性
分布式块复制设备采用严格同步的模式,保证主备机关键数据库文
分布式块复制设备采用严格同步的模式,保证主备机关键数据库文
件所在的目录保持严格同步,避免任何可能的控制文件丢失
件所在的目录保持严格同步,避免任何可能的控制文件丢失
26 © 2011 IBM Corporation
- 28. TM
Zone Maps – “自由”的存在,自动维护,无需干预
每个磁盘extent包含来自于各个
表的记录
我们在每个extent上跟踪字段的
最大最小值
Zone maps可以对
date, timestamp, byteint,
smallint, integer和bigint型数据生
效
当数据被loaded / updated /
deleted时Zone maps自动更新
没有对load / update / delete 速度
的影响
28 © 2011 IBM Corporation
- 29. Zone Maps…自动分区
Zone Maps
– 利用内在的数据顺序
– 在一个数据切片内….
• 为表中的每一列(Integers, timestamps, dates型)
– 按每个extent收集最大最小值
– 每条搜集到的记录插入zonemap中为该表准备的数据区中.
当一个查询运行时, 数据切片减少到只扫描一部分extents
自动配置
– 在搜集统计信息时Stats
– 在Loads时
– 在inserts, updates, loads和reclaims时.
29 © 2011 IBM Corporation
- 30. Zone Maps
• Zone Maps可以用于只扫描相关数据
• 系统知道数据在不在extents上,并只扫描有关的表extents
…
…
…
…
…
…
…
30
Base Table © 2011 IBM Corporation
- 31. 后台表整理Table Grooming
整理好的表
整理好的记录
删除的记录
新增加的记录
简单,一步命令聚拢数据 并召回reclaim未使用空间
在一个原子操作时磁盘extents的区域整理 一次
作为后台过程运行,对执行查询的终端用户透明
31 © 2011 IBM Corporation
- 33. 工作负载管理
工作负载管理 (WLM) 提供可选的功能来管理资源,在不同的多用户环境下设定资源使
用的优先级,来满足混合用户工作负载下的需求
保障资源分配(GRA)
– 在多用户环境下在多组用户中分配 NPS资源的机制
分优先级查询执行 (PQE)
– 更细粒度的控制资源分配,从计划到执行层面进一步扩充查询优先级的
控制
短查询倾向(SQB)
– 在系统工作负载量很大的情况下,保证执行短查询的用户获得更快速的
高优先级的查询响应时间
工作负载限制(GRA)
– 可以利用group定义的JOB MAXIMUM属性来控制被本组提交的活动的运
行任务的数量
33 © 2011 IBM Corporation
- 34. 工作负载管理控制: GRA
当三个资源组都有任务在系统上运行时,GRA计划器开始工作来平衡任务和资源利用的关系,
如下图所示:
34 © 2011 IBM Corporation
- 35. GRA + PQE: 权重low=1, normal=2, high=4, critical=8
因而,critical任务将会获得Analysts组的50%分配资源中的80%,即总资源的40%。 Normal任
务将获得50%中20%,即总资源的10%
35 © 2011 IBM Corporation
- 36. 缺省的工作负载管理: SQB
短查询倾向 (SQB)
– 短查询优先于长时间运行的查询
– 对执行短查询的用户实时响应
– 在大型混合工作负载环境中SQB是非常重要的特征
8 Items or Less
Full Carts Here
Full Carts Here
36 © 2011 IBM Corporation
- 37. 利用IBM Tivoli做的典型BAR配置
Backup Media
Tivoli Storage Manager Server
TAPE TAPE TAPE
LIB LIB LIB
SAN (Optional)
LAN
Client Client Client
TSM Client
Backup Script
Linux Host SPUs
Netezza Performance Server
37 © 2011 IBM Corporation
- 38. 备份与恢复特征
与第三方BAR工具的企业级集成和认证
– 利用主流的backup和restore工具简化部署
– 支持X/Open Backup Services API (XBSA)
– 经过IBM Tivoli Storage Manager认证
– 经过Symantec的Veritas NetBackup™ 认证
增量backup和restore
– 与全量备份比较显著缩短备份时间
– 在NZBACKUP工具中可用
– 全部或部分恢复选项
Sun Mon Tue Wed Thu Fri Sat
Full
Diff Diff Diff Diff Diff
Cum
38 © 2011 IBM Corporation
- 39. Netezza TwinFin 可靠的可扩展性
基于share-nothing -- 数据仓库级被证明最有效的架构
基于share-nothing 数据仓库级被证明最有效的架构
1 10
...
严格遵循MPP的原则,充分发挥系统资源的潜能:
严格遵循MPP的原则,充分发挥系统资源的潜能:
1颗CPU Core 1颗FPGA Core 1个DISK
1颗CPU Core 1颗FPGA Core 1个DISK
TF3 TF6 TF12 TF24 ... TF48 ... TF120
TwinFin之间通过SAS Switch直接相连,减少可能的
TwinFin之间通过SAS Switch直接相连,减少可能的
Snippet 处理器 24 48 96 192 384 960
网络瓶颈
网络瓶颈
容量 (TB) 8 16 32 64 128 320
压缩 (TB) 32 64 128 256
以上特性配合Netezza独特的硬件流性加速技术512 1280
以上特性配合Netezza独特的硬件流性加速技术
(FPGA),使TwinFin轻松达到PB级的数据可扩展
(FPGA),使TwinFin轻松达到PB级的数据可扩展
性
性
容量 = 用户数据空间
压缩 = 有效用户数据空间
39 © 2011 IBM Corporation
- 41. Netezza一体机数据查询与装载
报表&分析 数据集成
OLE-DB
OLE-DB
Actuate
Ab Initio
Business Objects/SAP
Business
Cognos (IBM) Objects/SAP
Information Builders Composite
JDBC
JDBC
Kalido Software
KXEN Expressor
MicroStrategy 数据检出 数据载入 Software
GoldenGate
ODBC
ODBC
Oracle OBIEE Software (Oracle)
QlikTech Informatica
Quest Software IBM Information
SQL
SQL
SAS Server
SPSS (IBM) Sunopsis (Oracle)
Unica (IBM) WisdomForce
41 © 2011 IBM Corporation
- 42. 复杂查询…
SELECT
ADMIN.MBR_GIFT_HIST.AMT_CD, FROM ADMIN.MBR_BY_GIFT.FSCL_YTD_AVG,
sum(ADMIN.MBR_GIFT_HIST.GIFT_AMT), ADMIN.MBR_NM_ADDR,
ADMIN.MBR_GIFT_HIST.LOT_CD, ADMIN.MBR_BY_GIFT.PREV_FSCL_YR_AVG,
count(ADMIN.MBR_GIFT_HIST.GIFT_DT), ADMIN.MBR_PRFL LEFT OUTER JOIN ADMIN.REF_RCNCY_CD Member_Recency_CD ON ADMIN.MBR_BY_GIFT.LFTM_AVG,
ADMIN.MBR_GIFT_HIST.CARE_GVNG_CD, Member_Recency_CD.RCNCY_CD=ADMIN.MBR_PRFL.RCNCY_CD LEFT OUTER JOIN ADMIN.MBR_GIFT_HIST.MAIL_KEY_CD,
count(distinct ADMIN.MBR_GIFT_HIST.MBR_ID),
ADMIN.MBR_GIFT_HIST.SRC_CD, ADMIN.REF_FREQ_CD Member_Frequecncy_CD ON ADMIN.MBR_GIFT_HIST.CPGN_TYP,
ADMIN.MBR_NM_ADDR.ADDR_TYP,
Member_Frequecncy_CD.FREQ_CD=ADMIN.MBR_PRFL.FREQ_CD LEFT OUTER JOIN Gift_Campaign_Type.CPGN_TYP_DESC,
Gift_Caregiver.CARE_GVNG_CD_DESC,
ADMIN.MBR_NM_ADDR.ADDR_LINE_1, ADMIN.REF_AMT_CD Member_Amount_CD ON ADMIN.MBR_GIFT_HIST.DONOR_CLASS_CD,
ADMIN.MBR_GIFT_HIST.RSP_CD, Member_Amount_CD.AMT_CD=ADMIN.MBR_PRFL.AMT_CD,
ADMIN.MBR_NM_ADDR.ADDR_LINE_2, Gift_Donor_Class.DONOR_CLASS_CD_DESC,
Gift_Source_CD.SRC_CD, ADMIN.MBR_BY_GIFT, ADMIN.MBR_GIFT_HIST.CPGN_AUDNC_CD,
ADMIN.MBR_NM_ADDR.CITY,
ADMIN.MBR_GIFT_HIST.PREM_TYP, ADMIN.MBR_GIFT_HIST LEFT OUTER JOIN ADMIN.REF_CPGN_TYP Gift_Campaign_Type ON Gift_Cpgn_Audience.CPGN_AUDNC_CD_DESC,
ADMIN.MBR_NM_ADDR.STATE_CD, ADMIN.MBR_GIFT_HIST.CPGN_TYP=Gift_Campaign_Type.CPGN_TYP LEFT OUTER JOIN ADMIN.MBR_GIFT_HIST.CPGN_YR,
Gift_Response_Code.RSP_CD_DESC, ADMIN.REF_DONOR_CLASS_CD Gift_Donor_Class ON
ADMIN.MBR_NM_ADDR.ZIP_CD_BASE, ADMIN.MBR_GIFT_HIST.PRFL_CD,
Gift_Premium_Type.PREM_TYP_DESC, ADMIN.MBR_GIFT_HIST.DONOR_CLASS_CD=Gift_Donor_Class.DONOR_CLASS_CD LEFT OUTER JOIN ADMIN.MBR_GIFT_HIST.CPGN_NUM,
ADMIN.MBR_NM_ADDR.ZIP_CD_SUFX,
ADMIN.MBR_GIFT_HIST.MBR_ID, ADMIN.REF_CPGN_AUDNC_CD Gift_Cpgn_Audience ON ADMIN.MBR_GIFT_HIST.PKG_CD,
ADMIN.MBR_PRFL.RCNCY_CD, ADMIN.MBR_GIFT_HIST.CPGN_AUDNC_CD=Gift_Cpgn_Audience.CPGN_AUDNC_CD LEFT OUTER JOIN
ADMIN.MBR_GIFT_HIST.GIFT_DT, Gift_Profile_CD.PRFL_CD_DESC,
ADMIN.MBR_PRFL.FREQ_CD, ADMIN.REF_PRFL_CD Gift_Profile_CD ON Gift_Profile_CD.PRFL_CD=ADMIN.MBR_GIFT_HIST.PRFL_CD
ADMIN.MBR_GIFT_HIST.RCNCY_CD,
ADMIN.MBR_GIFT_HIST.GIFT_AMT, LEFT OUTER JOIN ADMIN.REF_RCNCY_CD Gift_Recency_CD ON ADMIN.MBR_GIFT_HIST.FREQ_CD,
Member_Recency_CD.RCNCY_CD_DESC,
ADMIN.MBR_GIFT_HIST.AFFL_CD, Gift_Recency_CD.RCNCY_CD=ADMIN.MBR_GIFT_HIST.RCNCY_CD LEFT OUTER JOIN Gift_Recency_CD.RCNCY_CD_DESC,
ADMIN.MBR_PRFL.AMT_CD,
ADMIN.MBR_GIFT_HIST.UPDT_NUM, ADMIN.REF_FREQ_CD Gift_Frequency_CD ON ADMIN.MBR_GIFT_HIST.AMT_CD,
ADMIN.MBR_PRFL.RCNCY_CD || ADMIN.MBR_PRFL.FREQ_CD, ADMIN.MBR_GIFT_HIST.FREQ_CD=Gift_Frequency_CD.FREQ_CD LEFT OUTER JOIN Gift_Frequency_CD.FREQ_CD_DESC,
ADMIN.MBR_GIFT_HIST.LAST_UPDT_DT, ADMIN.REF_AMT_CD Gift_Amount_CD ON ADMIN.MBR_GIFT_HIST.AMT_CD=Gift_Amount_CD.AMT_CD
ADMIN.MBR_PRFL.RCNCY_CD || ADMIN.MBR_PRFL.FREQ_CD || ADMIN.MBR_GIFT_HIST.RCNCY_CD ||
ADMIN.MBR_NM_ADDR.SALU_LINE_1, LEFT OUTER JOIN ADMIN.REF_RSP_CD Gift_Response_Code ON ADMIN.MBR_GIFT_HIST.FREQ_CD,
ADMIN.MBR_PRFL.AMT_CD,
ADMIN.MBR_NM_ADDR.SALU_LINE_2, Gift_Response_Code.RSP_CD=ADMIN.MBR_GIFT_HIST.RSP_CD LEFT OUTER JOIN Gift_Amount_CD.AMT_CD_DESC,
Member_Frequecncy_CD.FREQ_CD_DESC, ADMIN.REF_SRC_CD Gift_Source_CD ON Gift_Source_CD.SRC_CD=ADMIN.MBR_GIFT_HIST.SRC_CD
ADMIN.MBR_NM_ADDR.SALU_LINE_3, ADMIN.MBR_GIFT_HIST.RCNCY_CD ||
Member_Amount_CD.AMT_CD_DESC, LEFT OUTER JOIN ADMIN.REF_PREM_TYP Gift_Premium_Type ON ADMIN.MBR_GIFT_HIST.FREQ_CD || ADMIN.MBR_GIFT_HIST.AMT_CD,
通过BO拖拽生成的 …
ADMIN.MBR_PRFL.UPDT_NUM, Gift_Premium_Type.PREM_TYP=ADMIN.MBR_GIFT_HIST.PREM_TYP LEFT OUTER JOIN ADMIN.MBR_GIFT_HIST.LOT_CD,
Member_Recency_CD.RCNCY_CD_DESC || ' ' ||
ADMIN.MBR_PRFL.LAST_UPDT_DT, ADMIN.REF_CARE_GVNG_CD Gift_Caregiver ON ADMIN.MBR_GIFT_HIST.CARE_GVNG_CD,
Member_Frequecncy_CD.FREQ_CD_DESC,
ADMIN.MBR_NM_ADDR.INSIDE_SALU_NM, ADMIN.MBR_GIFT_HIST.CARE_GVNG_CD=Gift_Caregiver.CARE_GVNG_CD ADMIN.MBR_GIFT_HIST.SRC_CD,
Member_Recency_CD.RCNCY_CD_DESC || ' ' || WHERE Gift_Caregiver.CARE_GVNG_CD_DESC,
ADMIN.MBR_PRFL.MBR_ID, ( ADMIN.MBR_NM_ADDR.MBR_ID=ADMIN.MBR_PRFL.MBR_ID )
Member_Frequecncy_CD.FREQ_CD_DESC || ' ' || ADMIN.MBR_GIFT_HIST.RSP_CD,
ADMIN.MBR_PRFL.ACCT_TYP, AND ( ADMIN.MBR_BY_GIFT.MBR_ID=ADMIN.MBR_PRFL.MBR_ID ) Gift_Source_CD.SRC_CD,
Member_Amount_CD.AMT_CD_DESC,
ADMIN.MBR_PRFL.ACCT_CAT_CD, AND ( ADMIN.MBR_PRFL.MBR_ID=ADMIN.MBR_GIFT_HIST.MBR_ID ) ADMIN.MBR_GIFT_HIST.PREM_TYP,
ADMIN.MBR_BY_GIFT.FRST_GIFT_AMT, AND (
ADMIN.MBR_PRFL.AFFL_CD, Gift_Response_Code.RSP_CD_DESC,
ADMIN.MBR_BY_GIFT.FRST_GIFT_DT, ADMIN.MBR_PRFL.MBR_ID = '00331415' Gift_Premium_Type.PREM_TYP_DESC,
6亿条记录的事实表
ADMIN.MBR_PRFL.CHAP_IND, ) ADMIN.MBR_GIFT_HIST.MBR_ID,
ADMIN.MBR_BY_GIFT.LAST_GIFT_AMT,
ADMIN.MBR_PRFL.RSP_CD, GROUP BY ADMIN.MBR_GIFT_HIST.GIFT_DT,
ADMIN.MBR_BY_GIFT.LAST_GIFT_DT,
ADMIN.MBR_PRFL.NEW_MBR_FLG, ADMIN.MBR_NM_ADDR.ADDR_TYP, ADMIN.MBR_GIFT_HIST.GIFT_AMT,
ADMIN.MBR_BY_GIFT.HGST_GIFT_AMT, ADMIN.MBR_NM_ADDR.ADDR_LINE_1, ADMIN.MBR_GIFT_HIST.AFFL_CD,
ADMIN.MBR_PRFL.SEED_FLG, ADMIN.MBR_NM_ADDR.ADDR_LINE_2,
ADMIN.MBR_BY_GIFT.HGST_GIFT_DT, ADMIN.MBR_GIFT_HIST.UPDT_NUM,
ADMIN.MBR_PRFL.SLCITN_CD ADMIN.MBR_NM_ADDR.CITY, ADMIN.MBR_GIFT_HIST.LAST_UPDT_DT,
ADMIN.MBR_BY_GIFT.HGST_GIFT_LAST_24_MTH,
ADMIN.MBR_NM_ADDR.STATE_CD, ADMIN.MBR_NM_ADDR.SALU_LINE_1,
ADMIN.MBR_BY_GIFT.FSCL_YTD_AVG, ADMIN.MBR_NM_ADDR.ZIP_CD_BASE, ADMIN.MBR_NM_ADDR.SALU_LINE_2,
13个join
ADMIN.MBR_BY_GIFT.PREV_FSCL_YR_AVG, ADMIN.MBR_NM_ADDR.ZIP_CD_SUFX, ADMIN.MBR_NM_ADDR.SALU_LINE_3,
ADMIN.MBR_BY_GIFT.LFTM_AVG, ADMIN.MBR_PRFL.RCNCY_CD, ADMIN.MBR_PRFL.UPDT_NUM,
ADMIN.MBR_PRFL.FREQ_CD, ADMIN.MBR_PRFL.LAST_UPDT_DT,
ADMIN.MBR_GIFT_HIST.MAIL_KEY_CD, Member_Recency_CD.RCNCY_CD_DESC, ADMIN.MBR_NM_ADDR.INSIDE_SALU_NM,
ADMIN.MBR_GIFT_HIST.CPGN_TYP, ADMIN.MBR_PRFL.AMT_CD, ADMIN.MBR_PRFL.MBR_ID,
Gift_Campaign_Type.CPGN_TYP_DESC, ADMIN.MBR_PRFL.RCNCY_CD || ADMIN.MBR_PRFL.FREQ_CD, ADMIN.MBR_PRFL.ACCT_TYP,
ADMIN.MBR_PRFL.RCNCY_CD || ADMIN.MBR_PRFL.FREQ_CD || ADMIN.MBR_PRFL.AMT_CD, ADMIN.MBR_PRFL.ACCT_CAT_CD,
ADMIN.MBR_GIFT_HIST.DONOR_CLASS_CD,
Member_Frequecncy_CD.FREQ_CD_DESC, ADMIN.MBR_PRFL.AFFL_CD,
Gift_Donor_Class.DONOR_CLASS_CD_DESC, Member_Amount_CD.AMT_CD_DESC, ADMIN.MBR_PRFL.CHAP_IND,
75个group by
ADMIN.MBR_GIFT_HIST.CPGN_AUDNC_CD, Member_Recency_CD.RCNCY_CD_DESC || ' ' || Member_Frequecncy_CD.FREQ_CD_DESC, ADMIN.MBR_PRFL.RSP_CD,
Gift_Cpgn_Audience.CPGN_AUDNC_CD_DESC, Member_Recency_CD.RCNCY_CD_DESC || ' ' || Member_Frequecncy_CD.FREQ_CD_DESC || ' ' || ADMIN.MBR_PRFL.NEW_MBR_FLG,
Member_Amount_CD.AMT_CD_DESC, ADMIN.MBR_PRFL.SEED_FLG,
ADMIN.MBR_GIFT_HIST.CPGN_YR, ADMIN.MBR_BY_GIFT.FRST_GIFT_AMT, ADMIN.MBR_PRFL.SLCITN_CD;
ADMIN.MBR_GIFT_HIST.PRFL_CD, ADMIN.MBR_BY_GIFT.FRST_GIFT_DT,
ADMIN.MBR_GIFT_HIST.CPGN_NUM, ADMIN.MBR_BY_GIFT.LAST_GIFT_AMT,
ADMIN.MBR_BY_GIFT.LAST_GIFT_DT,
ADMIN.MBR_GIFT_HIST.PKG_CD,
ADMIN.MBR_BY_GIFT.HGST_GIFT_AMT,
Gift_Profile_CD.PRFL_CD_DESC,
Oracle: 用了数小时完成
ADMIN.MBR_BY_GIFT.HGST_GIFT_DT,
ADMIN.MBR_GIFT_HIST.RCNCY_CD, ADMIN.MBR_BY_GIFT.HGST_GIFT_LAST_24_MTH,
ADMIN.MBR_GIFT_HIST.FREQ_CD,
Gift_Recency_CD.RCNCY_CD_DESC,
ADMIN.MBR_GIFT_HIST.AMT_CD,
Gift_Frequency_CD.FREQ_CD_DESC,
ADMIN.MBR_GIFT_HIST.RCNCY_CD || ADMIN.MBR_GIFT_HIST.FREQ_CD,
Netezza: 只用了3分钟
Gift_Amount_CD.AMT_CD_DESC,
ADMIN.MBR_GIFT_HIST.RCNCY_CD || ADMIN.MBR_GIFT_HIST.FREQ_CD ||
42 © 2011 IBM Corporation
- 43. 管理 Netezza
不需要索引 indexes 和调优 tuning
不需要存储管理
没有dbspace/tablespace容量规划和配置
无需redo/physical/Logical log的规划和配置
无需表的page/block 规划和配置
无需 表的extent规划和配置
无需临时空间Temp space分配和监控
无需dbspaces 级RAID级别选择
无需文件的逻辑卷logical volume创建
无需推荐OS kernel 的集成
无需操作系统OS建议补丁级别的维护
无需 JAD sessions 的 host/network/storage配置
不需要软件安装
43 © 2011 IBM Corporation
- 44. Netezza的技术方向选择正确吗? 历史证明:
October 2006 – NPS 3.1 系统软件 在 3代硬件上
– 比大多数竞争性数据库快100x倍
August 2007 – NPS 4.0 系统软件 在3代硬件上
– 比NPS 3.1 SW获得100%的性能提升. 没有HW变化.
May 2008 NPS 4.5 系统软件 在 3代硬件上
– 比NPS 4.0 SW获得100%的性能提升. 没有HW变化.
August 2009 Netezza TwinFin 4代一体机 NPS 5.0 SW
– 比NPS 4.5 SW和3代HW 获得2x到10x倍的性能提升.
October 2010 NPS 6.0 系统软件
– 比NPS 5.0 SW获得100%的性能提升. 没有HW变化.
对于我们发布的每一代一体机,在同等硬件条件下仅通过软件更新,我们就证明了2x
到10x倍的性能提升!
没有其他RDBMS厂商显示出这种让同样的一组硬件在速度上不断提升的先例,我们
独一无二的做到了.
我们期望我们的性能提升按这种步伐持续下去…
44 © 2011 IBM Corporation
- 45. Gartner报告: 一体机(Appliance)是企业数据仓库的未来
Gartner把一项新产品走向成熟
的生命周期分为“技术触发、期望
膨胀、理性回归、增长上升、高
原稳定”五个阶段。
Gartner 2010年7月的分析报告
认为:“一体机”已经进入“增长上
升期”,两年内将被各行业大规模
应用。
到2015年,全球将有
至少50%的企业选择
一体机作为自己的数
据仓库解决方案
45 © 2011 IBM Corporation
- 46. 内容提要
从数据获取价值
商业智能与云计算环境
数据仓库一体机解决方案 —— Netezza
关于BigData与数据仓库云的探讨
46 © 2011 IBM Corporation
- 47. 数据仓库一体机的特点
集成度更高
– 一个标准机箱最大限度完成特定任务
配置更合理、速度更快
– 存储、控制器、I/O通道、内存、CPU、网络均衡设计
• 针对数据仓库访问最优设计
– 比传统类似平台高出一个数量级以上
整体能耗更低
– 同等计算任务,能耗最低
系统更加稳定可靠
– 消除各种单点故障环节
– 统一个部件、器件的品质和标准
管理维护费用低
– 数据仓库的常规管理全部集成
– 大大简化物理设计环节
可规划和预见的系统扩容、升级路线图
– 系统扩充、软件升级、旧设备回收
47 © 2011 IBM Corporation
- 48. 云计算环境作为数据仓库平台考虑
互联网应用系统的构建 数据仓库系统的构建
– 客户群体不确定 – 用户群体明确
• 从无到有、从少到多 • 管理层
– 系统规模不确定 • 业务分析人员
• 与业务发展关系密切 • 业务操作人员
– 系统投资不固定 – 数据仓库规模可估算
• 与业务发展关系密切 • 与业务规模有联系但不是一一对应
– 业务应用有很清晰的并行分割特征 • 数据仓库有起始规模
• 互联网搜索 • 数据仓库与业务分析的需求有关
• 电子商务 • 数据仓库与业务系统的规模可控
– 数据仓库的系统投资与业务分析的
价值和回报相关
云计算平台构建数据仓库 —— 需要深入研究! • 与业务发展的规模只是有联系但非绑
定
– 商业智能应用属于整体应用
• 并行分割特征有自身特点
– 与传统云计算模式不同
– SAAS模式构建数据仓库系统
• 需要探讨的业务模式
48 © 2011 IBM Corporation
- 49. BigData与云环境数据仓库
BigData作为数据分析服务器底层技术的局限
– 实现分布式并行数据库服务器要做的工作与BigData层面重叠
• 传统数据库厂商对BigData实现数据仓库不是很热心 – Why?
• 数据库服务器需要实现数据查询和操作逻辑
– 这些逻辑的实现层面不能不考虑数据的分布
– 这些逻辑的实现与现有BigData的实现层面相互重叠且无法相互替代
> 在BigData之上实现的“数据库”都难免瘸腿 – e.g. Hive
> 数据库技术的趋势,更是逻辑下推 – e.g. IBM Netezza & Oracle Exadata
云环境中的数据仓库 – 动态伸缩的非共享并行数据库应是方向
– 把BigData当一个大数据库文件并发使用或切成小块分割使用
• 均非上层数据库所需要
– 小块分割浪费了功能、效率不高
– 数据库只需要简单高效的存储管理
• 有限多节点 + 并行 + 容错
– IBM研究院的实验课题
> 赵邑新博士:zhaoyix@cn.ibm.com
– 数据库要解决的问题是动态伸缩部署
• 各并行处理节点的数据重分布
49 © 2011 IBM Corporation
- 50. 云计算环境的未来发展的探讨
云计算环境中基本计算单元的分化
– 当前的基本计算单元常常是普通PC服务器
• 小组大以及大划小的问题
– 如同多细胞生物体的进化,未来的云计算环境中可能出现“细胞分化”,从
而进化成高级生物:
• 存储单元
• 计算单元
• 协调单元
• 通信单元 ……
– 一体机以及专用设备在云环境中的角色
• 一体机不再是云计算的对立面,而是云计算的一分子
公共云业务模式的探讨
– 涉及底层的专门应用 – 对provision管理的挑战
• WebEx,展示互动
– 传统应用与数据仓库的SAAS模式
• 业务发展的挑战
50 © 2011 IBM Corporation