• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Greenplum技术
 

Greenplum技术

on

  • 1,138 views

 

Statistics

Views

Total Views
1,138
Views on SlideShare
1,072
Embed Views
66

Actions

Likes
1
Downloads
31
Comments
1

2 Embeds 66

http://www.note4u.net 65
http://cache.baidu.com 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel

11 of 1 previous next

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Greenplum技术 Greenplum技术 Presentation Transcript

    • 新一代分析型云数据库及数据库云计算平台 1
    • 目录• Greenplum• 案例和Greenplum基本架构和优势• 总结
    • IT 技术及市场发展趋势 PC 服务器性能爆发 • 2010年 CPU都有 6-8 核 • GigE & 10GigE 网已经很廉价 • 100 core 服务器集群耗资< ¥一百万 云计算及虚拟化 • 灵活地分配应用软件所需硬件资源 • 私有云和公共云 • 降低成本,提升敏捷性,合并硬件平台 高度竞争和难以预测的商业环境 • 商业智能在指引企业运营中起关键角色 • 降低成本必须
    • 超级云数据库的到来Greenplum分析型数据库软件为新一代数据分析所需的大规模数据 和复杂查询功能所设计 4
    • Greenplum 是数据分析应用的领航者• 由世界级的技术和市场专家 组成的团队 • Architect, Teradata Optimizer • Architect, Tandem Optimizer• 高端,大规模数据仓库、数据 • Architect, MS SQL Server Optimizer 分析的领导者 • Architect, Oracle Bit-Map Index • Architect, Oracle OLAP• 提供超高性价比的数据分析 • Architect, Informix Bit-Map Index 平台 • Architect, Tandem Transaction Manager• 新一代数据仓库架构 • Architect, MS SQL Server Transaction Manager “Enterprise Data Cloud 数 • Architect, MS SQL Server NLP 据云” 平台的先驱“我们认为Greenplum是数据仓库软件技术的领导者.” - Steve Hirsch, Chief Data Officer, NYSE Euronext
    • Greenplum 的竞争优势• 易用性 – 并行处理由系统自动完成 – 无需人工干预 – 没有复杂的调优需求 – 只需加载数据库和查询• 扩展性 – 可线性扩展到10,000个节点 – 每增加一个节点,查询、加载性能都成线性增长• 灵活性 – 完全并行处理支持 SQL92, SQL99, SQL2003 OLAP,列数据库,透 明压缩, MapReduce – 支持任何schema (star, snowflake, 3NF, hybrid, etc) – 丰富的扩展性和语言支持(Java , Perl, Python, R, C, etc)
    • 全球各地的代表性客户 7
    • 中国的客户 金融 交通 电信及互联网 其它 8
    • 案例一:中国电子商务领导者——阿里巴巴• 业务使用 • 通过分析用户的网络点击日志,进行产品关联分析,让客户可 以快速的找到相近产品 网站日志 交易数据 用户信息 。。。。。。• 原有解决方案及问题 详细数据 • Oracle RAC (2008) • 加载速度非常慢,真的令人无法接受——技术人员天天抱怨 • 做客户详细复杂的点击查询,要等上半天到一天,有时还出不 来结果,浪费我们大量的时间——业务经理已经忍无可忍了 •海量基础数据 • 现在系统无法满足海量的历史数据的分析应用 Greenplum •大数据量查询 加工数据• Greenplum是幕后的英雄 • 海量加载由Greenplum完成 • 汇集了Alibaba.com/支付宝等所有的历史数据 •门户网站真是一个超级的海量数据库软件! Oracle ——客户技术部门评价
    • 支付宝BI 2010系统架构图 企业数据中心数据源 数据收 资金/财务等 风控系统OLTP 系统 会员营销 KPI报表与业务报告 集分发 Data mart/模型计算平台 会员营销 客户服务 中心 数据仓库主库 Data mart/计算平台 服务 资金管理 定时仸务计算 财务分析 信用/CTU 业务指标仪表盘监控交易系统 60台 Data mart/计算平台 客户信用 CDC财务系统 报表 运营与营销数据分析 CDC 及仪 数据 数据仓库备库 在线 表盘销售系统 多维 综合 CDC 分发 查询 综合数据查询 抽取 分析 数据 … 60台 CDC 查询 商业智能账户系统 信息门户 挖掘分析报告 CDC 数据 数据历史库/挖掘 分发 挖掘工具集客服系统 40台 CDC 用户访问行为跟踪 日志挖掘服务器 日志收集 线上即时作弊判断网站访问 打点 H+1,20台 日志/行为模型计算 服务器 服务 20台 准实时,4台 线上即时个性化营销 竞争情报 数据仓库工具与管理平台/调度系统)管理 元数据(Meta Data)管理图例 已经上线greenplum集群,总共120台 即将上线查询集群 总共60台
    • 案例二:Reliance Communications(印度电信)• 业务问题 • CDR安全合规性和分析 响应时间 (分)• 已有方案 • Oracle• 数据规模 • 180TB,每天增长650GB• 优势 • 将响应时间缩短90% 以前的数据库“借助运行Greenplum数据库的Sun数据仓库设备,Reliance可以在快速发展,用户需求不断增加的数据环境中达到预期的高度响应能力。”- Reliance 的副总裁和主管(决策支持系统)Raj Joshi 11
    • 案例三:全球最大的电子商务商eBay也采用GP• 业务需求 • 分析eBay整个系统采集的详细的历史事件数据,分析功能:有业 绩分析,点击分析,欺诈监测等 网站日志 交易数据• 现有设施 用户信息 。。。。。。 • Teradata 详细数据• 特征 • 世界上最大的数据仓库 • 6.5 PB 数据量, 每天增长18 TB • 2 Master 节点使用Sun x4540 •海量基础数据 Greenplum •大数据量查询 • 96 Segment节点使用72 Sun x4540 and 24 Sun x4500 • 16 ETL 节点使用 Sun x4540 加工数据 • 采用1TB 7.2k rpm SATA硬盘 • 使用Solaris OS 及 ZFS 、 RAID Z • 采用Greenplum 实时压缩 (1:4) •企业指标数据 • 启用Segment Mirroring Teradata •高并发查询
    • 案例四: NYSE (纽约证券交易所)•业务需求证券交易的合法性及安全性监控•被替代厂商 2Oracle, Netezza• Data Size 1.5数据量400T,日增量数据从 1TB 增长到 2TB/day,34个节点 TB/day 1•Benefit 0.5高速的查询性能,满足海量数据的高度复杂分析 0 Jan 08 Jan 09 “Greenplum is reaching data loading speeds of over three terabytes per hour, and we know that the database can scale even further than that. Greenplum’s fast performance is critical for us.” ----Steven Hirsch, Chief Data Officer, NYSE Euronext
    • 案例五:征途游戏,相同的硬件环境下PK 测试项 测试结果 提升倍数 Oracle RAC 65个小时完整应用PK 80倍 Greenplum 48分钟 Oracle RAC 200分钟单项查询PK 120倍 Greenplum 1.5分钟
    • Greenplum的应用场景举例• 客户管理,数据仓库, BI,ODS,数据集市,数据挖掘,经营分析 ,网络分析,知识库管理,成本效益分析等项目• 可以高效、低成本的存储、访问当前及历史数据 – 利用Greenplum最低的TB数据成本(高性价比) – 利用Greenplum高效的数据加载能力,迅速将长期积累的数据入库 – 利用Greenplum的并行数据流技术,将企业遗留的文件数据加工入库 – 利用Greenplum的并行数据流技术,进行统计、访问和加工分析• 需要结合数据库并行处理外部数据 – 数据非常难以加工处理成数据库表数据来存放(非结构化数据) – 需要专用的处理程序处理(MapReduce) – 处理结果适合数据库保存,或者需要结合数据库数据进行分析
    • Greenplum 基本架构大规模并行处理MPP (Massively Parallel Processing) SQL MapReduce无共享架构 Shared-Nothing Architecture Master 节点 ... ... 生成查询计划并派发 汇总执行结果 Network Interconnect Segment 节点 ... ... 执行查询计划及数据 存储管理 外部数据源 并行装载或导出
    • MPP/无共享架构的优势 • 最易于扩展的架构 – 云数据库和数据分析的最佳选择 • 自动化的并行处理机制 Interconnect – 内部处理自动化并行,无需人工分区或优化 – 加载与访问方式与一般数据库相同 • 数据分布在所有的并行节点上 – 每个节点只处理其中一部分数据 • 最优化的I/O处理 Loading – 所有的节点同时进行并行处理 – 节点之间完全无共享,无I/O冲突 • 增加节点实现线性扩展 – 增加节点可线性增加存储、查询和加载性能12/23/2010 17
    • 动态在线系统扩容  数据自动在所有节点上重新分布  容量和性能在扩展后线性增长 步骤1:新节点初始化加入MPP集群 步骤2:数据在所有节点上重分布 Master 联网 seg1 seg2 seg3 seg4 seg5 seg6
    • 分析型应用体系架构Oracle 抽取、转换、加载 分析型应用 (ETL)SQLServerIBMDB2 Informatica SUN DataStage HP ORACLE •JavaEEMySQL …… IBM DB2 •.Net EMC •SAP BOPostgres Hitachi Cisco •Actuate •Oracle BIEE •Cognos •……数据文件 支持SQL直接并行访问 支持众多硬件平台 外部数据文件支持各种 支持各种 支持ODBC/JDBC等多 支持外部编程直接使用数据源 ETL工具 种接口 SQL并行访问数据库
    • Greenplum方案的优势现在的解决方案投资 Greenplum方案投资 20
    • Q&A