SlideShare a Scribd company logo
1 of 36
Download to read offline
© Copyright 2017 Pivotal Software, Inc. All rights Reserved. Version 1.0
Version 1.0
September 2017
Pivotal Presentation Kit
COLLECTION
5
Cover w/ Image
Pivotal Greenplum 5
新⼀代大数据平台
姚延栋
yyao@pivotal.io
BOSH
KUBO
结构化数据 ⽂本数据 图数据 GIS数据 图像数据
半结构化
⾼可⽤优化器
资源管理并⾏执⾏
数据分布
线性扩展
⾼速加载多态存储
Extensions
完善的 SQL ⽀持
TEXT GISBI Regression Classification Clustering Graph
PXF External TableUDT/UDA
Image
SQL 1992/1998/2003/2008
⼀次打包,到处运⾏:裸机、私有云、公有云
⼀次打包,到处运⾏:裸机、私有云、公有云
数据联邦、⼤量数据源
⼀次打包,到处运⾏:裸机、私有云、公有云
⼀次打包,到处运⾏:裸机、私有云、公有云
结构化数据 ⽂本数据 图数据 GIS数据 图像数据
半结构化
各种数据源:Hadoop、S3、数据库、⽂件
各种数据格式:结构化、半结构化、⾮结构化
⼀次打包,到处运⾏:裸机、私有云、公有云
结构化数据 ⽂本数据 图数据 GIS数据 图像数据
HStore
各种数据源:Hadoop、S3、数据库、⽂件
⼀次打包,到处运⾏:裸机、私有云、公有云
结构化数据 ⽂本数据 图数据 GIS数据 图像数据
半结构化
各种数据源:Hadoop、S3、数据库、⽂件
各种数据格式:结构化、半结构化、⾮结构化
⾼可⽤优化器
资源管理并⾏执⾏
数据分布
线性扩展
⾼速加载多态存储
⼀次打包,到处运⾏:裸机、私有云、公有云
结构化数据 ⽂本数据 图数据 GIS数据 图像数据
半结构化
各种数据源:Hadoop、S3、数据库、⽂件
各种数据格式:结构化、半结构化、⾮结构化
⾼可⽤优化器
资源管理并⾏执⾏
数据分布
线性扩展
⾼速加载多态存储
⼀次打包,到处运⾏:裸机、私有云、公有云
结构化数据 ⽂本数据 图数据 GIS数据 图像数据
半结构化
各种数据源:Hadoop、S3、数据库、⽂件
各种数据格式:结构化、半结构化、⾮结构化
⾼可⽤优化器
资源管理并⾏执⾏
数据分布
线性扩展
⾼速加载多态存储
Extensions PXF External TableUDT/UDA强⼤的灵活性、可扩展
⼀次打包,到处运⾏:裸机、私有云、公有云
结构化数据 ⽂本数据 图数据 GIS数据 图像数据
半结构化
各种数据源:Hadoop、S3、数据库、⽂件
各种数据格式:结构化、半结构化、⾮结构化
⾼可⽤优化器
资源管理并⾏执⾏
数据分布
线性扩展
⾼速加载多态存储
Extensions PXF External TableUDT/UDA
⼀次打包,到处运⾏:裸机、私有云、公有云
结构化数据 ⽂本数据 图数据 GIS数据 图像数据
半结构化
各种数据源:Hadoop、S3、数据库、⽂件
各种数据格式:结构化、半结构化、⾮结构化
⾼可⽤优化器
资源管理并⾏执⾏
数据分布
线性扩展
⾼速加载多态存储
Extensions PXF External TableUDT/UDA
完善的 SQL ⽀持SQL 1992/1998/2003/2008
强⼤的灵活性、可扩展
SQL回来了?不,从来没离开我们
⼀次打包,到处运⾏:裸机、私有云、公有云
结构化数据 ⽂本数据 图数据 GIS数据 图像数据
半结构化
各种数据源:Hadoop、S3、数据库、⽂件
各种数据格式:结构化、半结构化、⾮结构化
⾼可⽤优化器
资源管理并⾏执⾏
数据分布
线性扩展
⾼速加载多态存储
Extensions PXF External TableUDT/UDA
SQL 1992/1998/2003/2008
强⼤的灵活性、可扩展
完善的 SQL ⽀持
⼀次打包,到处运⾏:裸机、私有云、公有云
结构化数据 ⽂本数据 图数据 GIS数据 图像数据
半结构化
各种数据源:Hadoop、S3、数据库、⽂件
各种数据格式:结构化、半结构化、⾮结构化
⾼可⽤优化器
资源管理并⾏执⾏
数据分布
线性扩展
⾼速加载多态存储
Extensions PXF External TableUDT/UDA
完善的 SQL ⽀持SQL 1992/1998/2003/2008
强⼤的灵活性、可扩展
TEXT GISBI Regression Classification Clustering Graph Image
完善的标准⽀持:SQL、JDBC、ODBC
集成数据平台
⼀次打包,到处运⾏:裸机、私有云、公有云
结构化数据 ⽂本数据 图数据 GIS数据 图像数据
半结构化
各种数据源:Hadoop、S3、数据库、⽂件
各种数据格式:结构化、半结构化、⾮结构化
⾼可⽤优化器
资源管理并⾏执⾏
数据分布
线性扩展
⾼速加载多态存储
Extensions PXF External TableUDT/UDA
完善的 SQL ⽀持SQL 1992/1998/2003/2008
强⼤的灵活性、可扩展
TEXT GISBI Regression Classification Clustering Graph Image
SQL回来了?不,从来没离开我们
混合负载
⼀次打包,到处运⾏:裸机、私有云、公有云
结构化数据 ⽂本数据 图数据 GIS数据 图像数据
半结构化
各种数据源:Hadoop、S3、数据库、⽂件
各种数据格式:结构化、半结构化、⾮结构化
⾼可⽤优化器
资源管理并⾏执⾏
数据分布
线性扩展
⾼速加载多态存储
Extensions PXF External TableUDT/UDA
完善的 SQL ⽀持SQL 1992/1998/2003/2008
强⼤的灵活性、可扩展
TEXT GISBI Regression Classification Clustering Graph Image
完善的标准⽀持:SQL、JDBC、ODBC
开放源代码
集成数据平台:BI、⽂本、GIS、图、图像、流式、HTAP
⼀次打包,到处运⾏:裸机、私有云、公有云
结构化数据 ⽂本数据 图数据 GIS数据 图像数据
半结构化
各种数据源:Hadoop、S3、数据库、⽂件
各种数据格式:结构化、半结构化、⾮结构化
⾼可⽤优化器
资源管理并⾏执⾏
数据分布
线性扩展
⾼速加载多态存储
Extensions PXF External TableUDT/UDA
完善的 SQL ⽀持SQL 1992/1998/2003/2008
强⼤的灵活性、可扩展
TEXT GISBI Regression Classification Clustering Graph Image
完善的标准⽀持:SQL、JDBC、ODBC
集成数据平台:BI、⽂本、GIS、图、图像、流式、HTAP
⼀次打包,到处运⾏:裸机、私有云、公有云
结构化数据 ⽂本数据 图数据 GIS数据 图像数据
半结构化
各种数据源:Hadoop、S3、数据库、⽂件
各种数据格式:结构化、半结构化、⾮结构化
⾼可⽤优化器
资源管理并⾏执⾏
数据分布
线性扩展
⾼速加载多态存储
Extensions PXF External TableUDT/UDA
完善的 SQL ⽀持SQL 1992/1998/2003/2008
强⼤的灵活性、可扩展
TEXT GISBI Regression Classification Clustering Graph Image
完善的标准⽀持:SQL、JDBC、ODBC
集成数据平台:BI、⽂本、GIS、图、图像、流式
开放源代码、其持续⼤⼒投⼊
敏捷⽅法学:快速迭代、持续发布、质量内建
⼀次打包,到处运⾏:裸机、私有云、公有云
结构化数据 ⽂本数据 图数据 GIS数据 图像数据
半结构化
各种数据源:Hadoop、S3、数据库、⽂件
各种数据格式:结构化、半结构化、⾮结构化
⾼可⽤优化器
资源管理并⾏执⾏
数据分布
线性扩展
⾼速加载多态存储
Extensions PXF External TableUDT/UDA
完善的 SQL ⽀持SQL 1992/1998/2003/2008
强⼤的灵活性、可扩展
TEXT GISBI Regression Classification Clustering Graph Image
完善的标准⽀持:SQL、JDBC、ODBC
集成数据平台:BI、⽂本、GIS、图、图像、流式
开放源代码、其持续⼤⼒投⼊
⼀次打包,到处运⾏:裸机、私有云、公有云
结构化数据 ⽂本数据 图数据 GIS数据 图像数据
半结构化
各种数据源:Hadoop、S3、数据库、⽂件
各种数据格式:结构化、半结构化、⾮结构化
⾼可⽤优化器
资源管理并⾏执⾏
数据分布
线性扩展
⾼速加载多态存储
Extensions PXF External TableUDT/UDA
完善的 SQL ⽀持SQL 1992/1998/2003/2008
强⼤的灵活性、可扩展
TEXT GISBI Regression Classification Clustering Graph Image
完善的标准⽀持:SQL、JDBC、ODBC
集成数据平台:BI、⽂本、GIS、图、图像、流式
开放源代码、其持续⼤⼒投⼊
敏捷⽅法学:快速迭代、持续发布、质量内建
企业级稳定性、成熟⽣态系统
⼀次打包,到处运⾏:裸机、私有云、公有云
结构化数据 ⽂本数据 图数据 GIS数据 图像数据
半结构化
各种数据源:Hadoop、S3、数据库、⽂件
各种数据格式:结构化、半结构化、⾮结构化
⾼可⽤优化器
资源管理并⾏执⾏
数据分布
线性扩展
⾼速加载多态存储
Extensions PXF External TableUDT/UDA
完善的 SQL ⽀持SQL 1992/1998/2003/2008
强⼤的灵活性、可扩展
TEXT GISBI Regression Classification Clustering Graph Image
完善的标准⽀持:SQL、JDBC、ODBC
集成数据平台:BI、⽂本、GIS、图、图像、流式
开放源代码、其持续⼤⼒投⼊
敏捷⽅法学:快速迭代、持续发布、质量内建
⼀次打包,到处运⾏:裸机、私有云、公有云
结构化数据 ⽂本数据 图数据 GIS数据 图像数据
半结构化
各种数据源:Hadoop、S3、数据库、⽂件
各种数据格式:结构化、半结构化、⾮结构化
⾼可⽤优化器
资源管理并⾏执⾏
数据分布
线性扩展
⾼速加载多态存储
Extensions PXF External TableUDT/UDA
完善的 SQL ⽀持SQL 1992/1998/2003/2008
强⼤的灵活性、可扩展
TEXT GISBI Regression Classification Clustering Graph Image
完善的标准⽀持:SQL、JDBC、ODBC
集成数据平台:BI、⽂本、GIS、图、图像、流式
开放源代码、其持续⼤⼒投⼊
敏捷⽅法学:快速迭代、持续发布、质量内建
企业级稳定性、成熟⽣态系统
⼀次打包,到处运⾏:裸机、私有云、公有云
结构化数据 ⽂本数据 图数据 GIS数据 图像数据
半结构化
任意数据源:Hadoop、S3、数据库、⽂件
任意数据格式:结构化、半结构化、⾮结构化
⾼可⽤优化器
资源管理并⾏执⾏
数据分布
线性扩展
⾼速加载多态存储
Extensions PXF External TableUDT/UDA
完善的 SQL ⽀持SQL 1992/1998/2003/2008
强⼤的灵活性、可扩展
TEXT GISBI Regression Classification Clustering Graph Image
完善的标准⽀持:SQL、JDBC、ODBC
集成数据平台:BI、⽂本、GIS、图、图像、流式
开放源代码、其持续⼤⼒投⼊
敏捷⽅法学:快速迭代、持续发布、质量内建
企业级稳定性、成熟⽣态系统
结构化数据 ⽂本数据 图数据 GIS数据 图像数据
半结构化
⾼可⽤优化器
资源管理并⾏执⾏
数据分布
线性扩展
⾼速加载多态存储
Extensions
完善的 SQL ⽀持
TEXT GISBI Regression Classification Clustering Graph
PXF External TableUDT/UDA
Image
SQL 1992/1998/2003/2008
Greenplum 5.x
•  更新内核:升级为 PostgreSQL 8.3,3355 个提交,⼤量重构
和清理
•  更稳定:引⼊heap表校验码,即时报警防⽌错误数据蔓延;
Lazy XID 避免冲突
•  更快:⼤量性能改进点,譬如Analyze、ORCA优化器、备份
和恢复、异步调度器、聚集内存消耗降低
•  全新半结构化数据⽀持:JSON、Hstore
•  全新:资源管理器
Greenplum 5 资源管理器: 资源组 vs. 资源队列
特性 资源组 资源队列
并发控制 事务级别 语句级别
死锁 no yes
CPU 管理 基于比例, cgroup 基于优先级
CPU 空闲利用率 yes 部分
精细内存限制 yes no
组内共享内存 yes no
动态修改资源配置 yes some
排队 无slot或者内存配额时 无slot时
管理 DDL和 Utility, 管理超级用户查询 yes no
Segment级别监控管理 yes no
展望
-  持续内核升级
-  灾难恢复
-  流式数据加载
-  HTAP,短查询、更⼤并发
-  监控和管理
招聘
Greenplum 数据库开发职位热招
pivotalrnd_china_jobs@pivotal.io
© Copyright 2017 Pivotal Software, Inc. All rights Reserved. Version 1.0
Version 1.0
September 2017
Pivotal Presentation Kit
COLLECTION
5v5
Key Initiatives & Focus Areas Thoughts
•  Query Performance &
Optimizer Continued
Steady Improvement
•  Cluster Management for
Cloud Native Deployment
•  Hyper Focus on Data
Protection, Backup, DR
•  Mixed Workload, Short
Query Performance
•  Monitoring &
Instrumentation
•  PostgreSQL Merging
•  External Data Access
Greenplum: A Bigdata Platform

More Related Content

What's hot

Zh Tw Introduction To Map Reduce
Zh Tw Introduction To Map ReduceZh Tw Introduction To Map Reduce
Zh Tw Introduction To Map Reducekevin liao
 
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結James Chen
 
Zh Tw Introduction To Hadoop And Hdfs
Zh Tw Introduction To Hadoop And HdfsZh Tw Introduction To Hadoop And Hdfs
Zh Tw Introduction To Hadoop And Hdfskevin liao
 
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012James Chen
 
Azure Data Lake 簡介
Azure Data Lake 簡介Azure Data Lake 簡介
Azure Data Lake 簡介Herman Wu
 
Big Data Technology - Cloud Computing
Big Data Technology - Cloud ComputingBig Data Technology - Cloud Computing
Big Data Technology - Cloud ComputingRen-Hao (PAN) Pan
 
2010数据库技术大会思考分享
2010数据库技术大会思考分享2010数据库技术大会思考分享
2010数据库技术大会思考分享guest42b682b4
 
Ibm solid db overview v6.3 20090320
Ibm solid db overview v6.3 20090320Ibm solid db overview v6.3 20090320
Ibm solid db overview v6.3 20090320小新 制造
 
Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验Schubert Zhang
 
王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计YANGL *
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践hdhappy001
 
openGauss DBMind.pdf
openGauss DBMind.pdfopenGauss DBMind.pdf
openGauss DBMind.pdfwot chin
 
Data pipeline essential
Data pipeline essentialData pipeline essential
Data pipeline essentialBryan Yang
 
Mesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ DoubanMesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ DoubanZhong Bo Tian
 
企业系统商务智能设计
企业系统商务智能设计企业系统商务智能设计
企业系统商务智能设计George Ang
 
Data Engineering in Taiwan: PAST, NOW and FUTURE
Data Engineering in Taiwan: PAST, NOW and FUTUREData Engineering in Taiwan: PAST, NOW and FUTURE
Data Engineering in Taiwan: PAST, NOW and FUTUREJazz Yao-Tsung Wang
 
淘宝双11双12案例分享
淘宝双11双12案例分享淘宝双11双12案例分享
淘宝双11双12案例分享vanadies10
 
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Etu Solution
 

What's hot (20)

Zh Tw Introduction To Map Reduce
Zh Tw Introduction To Map ReduceZh Tw Introduction To Map Reduce
Zh Tw Introduction To Map Reduce
 
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結
 
IT03
IT03IT03
IT03
 
Zh Tw Introduction To Hadoop And Hdfs
Zh Tw Introduction To Hadoop And HdfsZh Tw Introduction To Hadoop And Hdfs
Zh Tw Introduction To Hadoop And Hdfs
 
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012
 
Azure Data Lake 簡介
Azure Data Lake 簡介Azure Data Lake 簡介
Azure Data Lake 簡介
 
Big Data Technology - Cloud Computing
Big Data Technology - Cloud ComputingBig Data Technology - Cloud Computing
Big Data Technology - Cloud Computing
 
2010数据库技术大会思考分享
2010数据库技术大会思考分享2010数据库技术大会思考分享
2010数据库技术大会思考分享
 
Ibm solid db overview v6.3 20090320
Ibm solid db overview v6.3 20090320Ibm solid db overview v6.3 20090320
Ibm solid db overview v6.3 20090320
 
Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验
 
王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践
 
Ibm solid db_基础
Ibm solid db_基础Ibm solid db_基础
Ibm solid db_基础
 
openGauss DBMind.pdf
openGauss DBMind.pdfopenGauss DBMind.pdf
openGauss DBMind.pdf
 
Data pipeline essential
Data pipeline essentialData pipeline essential
Data pipeline essential
 
Mesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ DoubanMesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ Douban
 
企业系统商务智能设计
企业系统商务智能设计企业系统商务智能设计
企业系统商务智能设计
 
Data Engineering in Taiwan: PAST, NOW and FUTURE
Data Engineering in Taiwan: PAST, NOW and FUTUREData Engineering in Taiwan: PAST, NOW and FUTURE
Data Engineering in Taiwan: PAST, NOW and FUTURE
 
淘宝双11双12案例分享
淘宝双11双12案例分享淘宝双11双12案例分享
淘宝双11双12案例分享
 
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
 

Similar to Greenplum: A Bigdata Platform

Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)Jazz Yao-Tsung Wang
 
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境drewz lin
 
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)Fred Chiang
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況Jazz Yao-Tsung Wang
 
Big Data, NoSQL, and MongoDB
Big Data, NoSQL, and MongoDBBig Data, NoSQL, and MongoDB
Big Data, NoSQL, and MongoDBMonster Supreme
 
選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲Herman Wu
 
达尔文信息云平台
达尔文信息云平台达尔文信息云平台
达尔文信息云平台SmartData
 
IDF2013大会分享——《使用新浪移动云开发全平台应用》
IDF2013大会分享——《使用新浪移动云开发全平台应用》IDF2013大会分享——《使用新浪移动云开发全平台应用》
IDF2013大会分享——《使用新浪移动云开发全平台应用》easychen
 
解读数据虚拟化支持的逻辑数据编织(Data Fabric)
解读数据虚拟化支持的逻辑数据编织(Data Fabric)解读数据虚拟化支持的逻辑数据编织(Data Fabric)
解读数据虚拟化支持的逻辑数据编织(Data Fabric)Denodo
 
Sequoia db 技术概述_sacc
Sequoia db 技术概述_saccSequoia db 技术概述_sacc
Sequoia db 技术概述_saccwangzhonnew
 
逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构Denodo
 
Cloud client : 达尔文信息云浏览器
Cloud client : 达尔文信息云浏览器Cloud client : 达尔文信息云浏览器
Cloud client : 达尔文信息云浏览器Ying LI
 
数据科学运营:企业人工智能之旅
数据科学运营:企业人工智能之旅数据科学运营:企业人工智能之旅
数据科学运营:企业人工智能之旅Denodo
 
淘宝分布式数据处理实践
淘宝分布式数据处理实践淘宝分布式数据处理实践
淘宝分布式数据处理实践isnull
 
Keynote: What Is the next Big Data?
Keynote: What Is the next Big Data?Keynote: What Is the next Big Data?
Keynote: What Is the next Big Data?Etu Solution
 
ESD 2012 Keynote: What Is the next Big Data?
ESD 2012 Keynote: What Is the next Big Data?ESD 2012 Keynote: What Is the next Big Data?
ESD 2012 Keynote: What Is the next Big Data?Fred Chiang
 
Dtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cnDtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cnyp_fangdong
 
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索liu sheng
 

Similar to Greenplum: A Bigdata Platform (20)

Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)
 
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
Top100summit 腾讯-周健-服务化与体系化解决大量定制小项目开发困境
 
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)
Big Data 102 - Crossovers 成長之旅導覽 (Keynote for Big Data Taiwan 2013)
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
 
Big Data, NoSQL, and MongoDB
Big Data, NoSQL, and MongoDBBig Data, NoSQL, and MongoDB
Big Data, NoSQL, and MongoDB
 
選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲
 
达尔文信息云平台
达尔文信息云平台达尔文信息云平台
达尔文信息云平台
 
IDF2013大会分享——《使用新浪移动云开发全平台应用》
IDF2013大会分享——《使用新浪移动云开发全平台应用》IDF2013大会分享——《使用新浪移动云开发全平台应用》
IDF2013大会分享——《使用新浪移动云开发全平台应用》
 
解读数据虚拟化支持的逻辑数据编织(Data Fabric)
解读数据虚拟化支持的逻辑数据编织(Data Fabric)解读数据虚拟化支持的逻辑数据编织(Data Fabric)
解读数据虚拟化支持的逻辑数据编织(Data Fabric)
 
Sequoia db 技术概述_sacc
Sequoia db 技术概述_saccSequoia db 技术概述_sacc
Sequoia db 技术概述_sacc
 
逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构
 
Cloud client : 达尔文信息云浏览器
Cloud client : 达尔文信息云浏览器Cloud client : 达尔文信息云浏览器
Cloud client : 达尔文信息云浏览器
 
数据科学运营:企业人工智能之旅
数据科学运营:企业人工智能之旅数据科学运营:企业人工智能之旅
数据科学运营:企业人工智能之旅
 
Emc keynote 1130 1200
Emc keynote 1130 1200Emc keynote 1130 1200
Emc keynote 1130 1200
 
淘宝分布式数据处理实践
淘宝分布式数据处理实践淘宝分布式数据处理实践
淘宝分布式数据处理实践
 
Keynote: What Is the next Big Data?
Keynote: What Is the next Big Data?Keynote: What Is the next Big Data?
Keynote: What Is the next Big Data?
 
ESD 2012 Keynote: What Is the next Big Data?
ESD 2012 Keynote: What Is the next Big Data?ESD 2012 Keynote: What Is the next Big Data?
ESD 2012 Keynote: What Is the next Big Data?
 
Hadoop 介紹 20141024
Hadoop 介紹 20141024Hadoop 介紹 20141024
Hadoop 介紹 20141024
 
Dtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cnDtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cn
 
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
 

Greenplum: A Bigdata Platform

  • 1. © Copyright 2017 Pivotal Software, Inc. All rights Reserved. Version 1.0 Version 1.0 September 2017 Pivotal Presentation Kit COLLECTION 5
  • 2. Cover w/ Image Pivotal Greenplum 5 新⼀代大数据平台 姚延栋 yyao@pivotal.io
  • 3.
  • 5.
  • 6. 结构化数据 ⽂本数据 图数据 GIS数据 图像数据 半结构化 ⾼可⽤优化器 资源管理并⾏执⾏ 数据分布 线性扩展 ⾼速加载多态存储 Extensions 完善的 SQL ⽀持 TEXT GISBI Regression Classification Clustering Graph PXF External TableUDT/UDA Image SQL 1992/1998/2003/2008
  • 8.
  • 11. ⼀次打包,到处运⾏:裸机、私有云、公有云 结构化数据 ⽂本数据 图数据 GIS数据 图像数据 半结构化 各种数据源:Hadoop、S3、数据库、⽂件 各种数据格式:结构化、半结构化、⾮结构化
  • 12. ⼀次打包,到处运⾏:裸机、私有云、公有云 结构化数据 ⽂本数据 图数据 GIS数据 图像数据 HStore 各种数据源:Hadoop、S3、数据库、⽂件
  • 13. ⼀次打包,到处运⾏:裸机、私有云、公有云 结构化数据 ⽂本数据 图数据 GIS数据 图像数据 半结构化 各种数据源:Hadoop、S3、数据库、⽂件 各种数据格式:结构化、半结构化、⾮结构化 ⾼可⽤优化器 资源管理并⾏执⾏ 数据分布 线性扩展 ⾼速加载多态存储
  • 14. ⼀次打包,到处运⾏:裸机、私有云、公有云 结构化数据 ⽂本数据 图数据 GIS数据 图像数据 半结构化 各种数据源:Hadoop、S3、数据库、⽂件 各种数据格式:结构化、半结构化、⾮结构化 ⾼可⽤优化器 资源管理并⾏执⾏ 数据分布 线性扩展 ⾼速加载多态存储
  • 15. ⼀次打包,到处运⾏:裸机、私有云、公有云 结构化数据 ⽂本数据 图数据 GIS数据 图像数据 半结构化 各种数据源:Hadoop、S3、数据库、⽂件 各种数据格式:结构化、半结构化、⾮结构化 ⾼可⽤优化器 资源管理并⾏执⾏ 数据分布 线性扩展 ⾼速加载多态存储 Extensions PXF External TableUDT/UDA强⼤的灵活性、可扩展
  • 16. ⼀次打包,到处运⾏:裸机、私有云、公有云 结构化数据 ⽂本数据 图数据 GIS数据 图像数据 半结构化 各种数据源:Hadoop、S3、数据库、⽂件 各种数据格式:结构化、半结构化、⾮结构化 ⾼可⽤优化器 资源管理并⾏执⾏ 数据分布 线性扩展 ⾼速加载多态存储 Extensions PXF External TableUDT/UDA
  • 17. ⼀次打包,到处运⾏:裸机、私有云、公有云 结构化数据 ⽂本数据 图数据 GIS数据 图像数据 半结构化 各种数据源:Hadoop、S3、数据库、⽂件 各种数据格式:结构化、半结构化、⾮结构化 ⾼可⽤优化器 资源管理并⾏执⾏ 数据分布 线性扩展 ⾼速加载多态存储 Extensions PXF External TableUDT/UDA 完善的 SQL ⽀持SQL 1992/1998/2003/2008 强⼤的灵活性、可扩展 SQL回来了?不,从来没离开我们
  • 18. ⼀次打包,到处运⾏:裸机、私有云、公有云 结构化数据 ⽂本数据 图数据 GIS数据 图像数据 半结构化 各种数据源:Hadoop、S3、数据库、⽂件 各种数据格式:结构化、半结构化、⾮结构化 ⾼可⽤优化器 资源管理并⾏执⾏ 数据分布 线性扩展 ⾼速加载多态存储 Extensions PXF External TableUDT/UDA SQL 1992/1998/2003/2008 强⼤的灵活性、可扩展 完善的 SQL ⽀持
  • 19. ⼀次打包,到处运⾏:裸机、私有云、公有云 结构化数据 ⽂本数据 图数据 GIS数据 图像数据 半结构化 各种数据源:Hadoop、S3、数据库、⽂件 各种数据格式:结构化、半结构化、⾮结构化 ⾼可⽤优化器 资源管理并⾏执⾏ 数据分布 线性扩展 ⾼速加载多态存储 Extensions PXF External TableUDT/UDA 完善的 SQL ⽀持SQL 1992/1998/2003/2008 强⼤的灵活性、可扩展 TEXT GISBI Regression Classification Clustering Graph Image 完善的标准⽀持:SQL、JDBC、ODBC 集成数据平台
  • 20. ⼀次打包,到处运⾏:裸机、私有云、公有云 结构化数据 ⽂本数据 图数据 GIS数据 图像数据 半结构化 各种数据源:Hadoop、S3、数据库、⽂件 各种数据格式:结构化、半结构化、⾮结构化 ⾼可⽤优化器 资源管理并⾏执⾏ 数据分布 线性扩展 ⾼速加载多态存储 Extensions PXF External TableUDT/UDA 完善的 SQL ⽀持SQL 1992/1998/2003/2008 强⼤的灵活性、可扩展 TEXT GISBI Regression Classification Clustering Graph Image SQL回来了?不,从来没离开我们 混合负载
  • 21. ⼀次打包,到处运⾏:裸机、私有云、公有云 结构化数据 ⽂本数据 图数据 GIS数据 图像数据 半结构化 各种数据源:Hadoop、S3、数据库、⽂件 各种数据格式:结构化、半结构化、⾮结构化 ⾼可⽤优化器 资源管理并⾏执⾏ 数据分布 线性扩展 ⾼速加载多态存储 Extensions PXF External TableUDT/UDA 完善的 SQL ⽀持SQL 1992/1998/2003/2008 强⼤的灵活性、可扩展 TEXT GISBI Regression Classification Clustering Graph Image 完善的标准⽀持:SQL、JDBC、ODBC 开放源代码 集成数据平台:BI、⽂本、GIS、图、图像、流式、HTAP
  • 22. ⼀次打包,到处运⾏:裸机、私有云、公有云 结构化数据 ⽂本数据 图数据 GIS数据 图像数据 半结构化 各种数据源:Hadoop、S3、数据库、⽂件 各种数据格式:结构化、半结构化、⾮结构化 ⾼可⽤优化器 资源管理并⾏执⾏ 数据分布 线性扩展 ⾼速加载多态存储 Extensions PXF External TableUDT/UDA 完善的 SQL ⽀持SQL 1992/1998/2003/2008 强⼤的灵活性、可扩展 TEXT GISBI Regression Classification Clustering Graph Image 完善的标准⽀持:SQL、JDBC、ODBC 集成数据平台:BI、⽂本、GIS、图、图像、流式、HTAP
  • 23. ⼀次打包,到处运⾏:裸机、私有云、公有云 结构化数据 ⽂本数据 图数据 GIS数据 图像数据 半结构化 各种数据源:Hadoop、S3、数据库、⽂件 各种数据格式:结构化、半结构化、⾮结构化 ⾼可⽤优化器 资源管理并⾏执⾏ 数据分布 线性扩展 ⾼速加载多态存储 Extensions PXF External TableUDT/UDA 完善的 SQL ⽀持SQL 1992/1998/2003/2008 强⼤的灵活性、可扩展 TEXT GISBI Regression Classification Clustering Graph Image 完善的标准⽀持:SQL、JDBC、ODBC 集成数据平台:BI、⽂本、GIS、图、图像、流式 开放源代码、其持续⼤⼒投⼊ 敏捷⽅法学:快速迭代、持续发布、质量内建
  • 24. ⼀次打包,到处运⾏:裸机、私有云、公有云 结构化数据 ⽂本数据 图数据 GIS数据 图像数据 半结构化 各种数据源:Hadoop、S3、数据库、⽂件 各种数据格式:结构化、半结构化、⾮结构化 ⾼可⽤优化器 资源管理并⾏执⾏ 数据分布 线性扩展 ⾼速加载多态存储 Extensions PXF External TableUDT/UDA 完善的 SQL ⽀持SQL 1992/1998/2003/2008 强⼤的灵活性、可扩展 TEXT GISBI Regression Classification Clustering Graph Image 完善的标准⽀持:SQL、JDBC、ODBC 集成数据平台:BI、⽂本、GIS、图、图像、流式 开放源代码、其持续⼤⼒投⼊
  • 25. ⼀次打包,到处运⾏:裸机、私有云、公有云 结构化数据 ⽂本数据 图数据 GIS数据 图像数据 半结构化 各种数据源:Hadoop、S3、数据库、⽂件 各种数据格式:结构化、半结构化、⾮结构化 ⾼可⽤优化器 资源管理并⾏执⾏ 数据分布 线性扩展 ⾼速加载多态存储 Extensions PXF External TableUDT/UDA 完善的 SQL ⽀持SQL 1992/1998/2003/2008 强⼤的灵活性、可扩展 TEXT GISBI Regression Classification Clustering Graph Image 完善的标准⽀持:SQL、JDBC、ODBC 集成数据平台:BI、⽂本、GIS、图、图像、流式 开放源代码、其持续⼤⼒投⼊ 敏捷⽅法学:快速迭代、持续发布、质量内建 企业级稳定性、成熟⽣态系统
  • 26. ⼀次打包,到处运⾏:裸机、私有云、公有云 结构化数据 ⽂本数据 图数据 GIS数据 图像数据 半结构化 各种数据源:Hadoop、S3、数据库、⽂件 各种数据格式:结构化、半结构化、⾮结构化 ⾼可⽤优化器 资源管理并⾏执⾏ 数据分布 线性扩展 ⾼速加载多态存储 Extensions PXF External TableUDT/UDA 完善的 SQL ⽀持SQL 1992/1998/2003/2008 强⼤的灵活性、可扩展 TEXT GISBI Regression Classification Clustering Graph Image 完善的标准⽀持:SQL、JDBC、ODBC 集成数据平台:BI、⽂本、GIS、图、图像、流式 开放源代码、其持续⼤⼒投⼊ 敏捷⽅法学:快速迭代、持续发布、质量内建
  • 27. ⼀次打包,到处运⾏:裸机、私有云、公有云 结构化数据 ⽂本数据 图数据 GIS数据 图像数据 半结构化 各种数据源:Hadoop、S3、数据库、⽂件 各种数据格式:结构化、半结构化、⾮结构化 ⾼可⽤优化器 资源管理并⾏执⾏ 数据分布 线性扩展 ⾼速加载多态存储 Extensions PXF External TableUDT/UDA 完善的 SQL ⽀持SQL 1992/1998/2003/2008 强⼤的灵活性、可扩展 TEXT GISBI Regression Classification Clustering Graph Image 完善的标准⽀持:SQL、JDBC、ODBC 集成数据平台:BI、⽂本、GIS、图、图像、流式 开放源代码、其持续⼤⼒投⼊ 敏捷⽅法学:快速迭代、持续发布、质量内建 企业级稳定性、成熟⽣态系统
  • 28. ⼀次打包,到处运⾏:裸机、私有云、公有云 结构化数据 ⽂本数据 图数据 GIS数据 图像数据 半结构化 任意数据源:Hadoop、S3、数据库、⽂件 任意数据格式:结构化、半结构化、⾮结构化 ⾼可⽤优化器 资源管理并⾏执⾏ 数据分布 线性扩展 ⾼速加载多态存储 Extensions PXF External TableUDT/UDA 完善的 SQL ⽀持SQL 1992/1998/2003/2008 强⼤的灵活性、可扩展 TEXT GISBI Regression Classification Clustering Graph Image 完善的标准⽀持:SQL、JDBC、ODBC 集成数据平台:BI、⽂本、GIS、图、图像、流式 开放源代码、其持续⼤⼒投⼊ 敏捷⽅法学:快速迭代、持续发布、质量内建 企业级稳定性、成熟⽣态系统
  • 29. 结构化数据 ⽂本数据 图数据 GIS数据 图像数据 半结构化 ⾼可⽤优化器 资源管理并⾏执⾏ 数据分布 线性扩展 ⾼速加载多态存储 Extensions 完善的 SQL ⽀持 TEXT GISBI Regression Classification Clustering Graph PXF External TableUDT/UDA Image SQL 1992/1998/2003/2008
  • 30. Greenplum 5.x •  更新内核:升级为 PostgreSQL 8.3,3355 个提交,⼤量重构 和清理 •  更稳定:引⼊heap表校验码,即时报警防⽌错误数据蔓延; Lazy XID 避免冲突 •  更快:⼤量性能改进点,譬如Analyze、ORCA优化器、备份 和恢复、异步调度器、聚集内存消耗降低 •  全新半结构化数据⽀持:JSON、Hstore •  全新:资源管理器
  • 31. Greenplum 5 资源管理器: 资源组 vs. 资源队列 特性 资源组 资源队列 并发控制 事务级别 语句级别 死锁 no yes CPU 管理 基于比例, cgroup 基于优先级 CPU 空闲利用率 yes 部分 精细内存限制 yes no 组内共享内存 yes no 动态修改资源配置 yes some 排队 无slot或者内存配额时 无slot时 管理 DDL和 Utility, 管理超级用户查询 yes no Segment级别监控管理 yes no
  • 32. 展望 -  持续内核升级 -  灾难恢复 -  流式数据加载 -  HTAP,短查询、更⼤并发 -  监控和管理
  • 34. © Copyright 2017 Pivotal Software, Inc. All rights Reserved. Version 1.0 Version 1.0 September 2017 Pivotal Presentation Kit COLLECTION 5v5
  • 35. Key Initiatives & Focus Areas Thoughts •  Query Performance & Optimizer Continued Steady Improvement •  Cluster Management for Cloud Native Deployment •  Hyper Focus on Data Protection, Backup, DR •  Mixed Workload, Short Query Performance •  Monitoring & Instrumentation •  PostgreSQL Merging •  External Data Access