SlideShare a Scribd company logo
1 of 20
1© Cloudera, Inc. All rights reserved.
公有云中的Cloudera作业数据
库
徐磊 (lei@cloudera.com)
HDFS team@Cloudera, Hadoop PMC
2© Cloudera, Inc. All rights reserved.
公有云中运行Cloudera作业数据库
应用场景
3© Cloudera, Inc. All rights reserved.
云计算123
Cloudera Manager (CM) Cloudera的Hadoop/CDH集群管理平台.
Cloudera Director (Director) Cloudera CDH公有云部署平台.
Amazon AWS 亚马逊云计算服务.
AWS EC2 亚马逊弹性计算服务.
AWS S3 亚马逊云计算对象存储.
AWS Elastic Block Storage 亚马逊弹性块设备存储服务.
AWS Instance Storage 亚马逊实例存储.
4© Cloudera, Inc. All rights reserved.
作业数据库
低延迟, 持久性的存储.
应用: Web 应用, 消息存储, 关键业务
的运营活动.
通用的数据仓库
从多个数据流中识别有意义的
事件, 并采取相关行动.
复杂的事务处理
结合数据和当前/历史事件预
测未来的事件
建模和预测
5© Cloudera, Inc. All rights reserved.
公有云的优势
成本
• 极低成本的备份和灾
难恢复
• 快速部署和销毁开发
以及测试环境
方便
• 低成本的运行紧凑配
置和静态集群(steady
state)
• 弹性增长过载的集群
• 快速便捷的部署
(Provisioning) 新计算
集群, 增加计算能力,
有助于项目快速运转。
6© Cloudera, Inc. All rights reserved.
公有云上运行作业数据库的架构
应用
持续运行的生产
集群
作业数据库
Cloudera Director
部署
Cloudera CM
管理/部署集群
Elastic Block
Storage
作业数据库
临时开发测试集群
S3
突发批处理
当有突发批处理请求或者部署
开发集群, 通过EBS拷贝和转移
数据.
1
易于部署
(Provisioning)
2
部署开发/测
试环境
3
大数据量的突发的
批处理操作
4
低成本备份
数据源
Spark
Streaming
7© Cloudera, Inc. All rights reserved.
轻松部署新集群
轻松部署
商业挑战
• 企业内部部署的集群通常需要长时间的部署. 尤其是从PoC到生
产系统更是需要长期的采购流程.
• 一些客户需要3-6个月来完成整套流程. 拖慢了开发进度, 遗留更
多的后续技术问题.
基于共有云的解决方案
• Cloudera Director 提供业界领先的解决方案,帮助用户迁移到公有云
之上
• 支持跨云,或者公有云和私有云之间的工作负载迁移
• 从而防止被任何一家公有云厂商套牢
实现细节
• Cloudera Director支持在共有云中快速部署生产集群.
• 运用Cloudera快速按需部署产品集群, 避免长期运行.
• Cloudera 培训企业员工有能力测试并判断新用例的可行性,降低项
目风险, 创造更多价值.
8© Cloudera, Inc. All rights reserved.
轻松部署新集群
应用
作业数据库
EC2 Instances
Director
部署
Cloud Storage
应用
EC2 Instances
Direct Attached Storage
Elastic Block
Storage
作业数据库
实例存储
Director
部署
9© Cloudera, Inc. All rights reserved.
共有云中运行Spark Streaming和作业数据库
实时处理和服务架构
可用区 应用
Ingest
Streaming
Data
Spark Streaming运
行在独立集群
Spark
Streaming
作业数据库
作业数据库运行在另
一个独立集群
两个集群运行在同
一个可用区
10© Cloudera, Inc. All rights reserved.
AWS 按需计费(on-demand) vs. 预留计费(reserved)
Instance
Type
Rate Per
Hour
Reserved Yearly
Rate
On-Demand Yearly
Rate
Utilization Cross-over
Point
c4.large $0.11 $576 $920 63%
c3.8xlarge $1.68 $8,691 $14,717 59%
d2.xlarge $0.69 $2,952 $6,044 49%
m4.2xlarge $0.48 $2,414 $4,196 58%
11© Cloudera, Inc. All rights reserved.
创建开发和测试环境
开发和测试
环境
商业挑战
• 独立的开发和测试环境难以维护和配置.
• 难以安全地使用实际生产数据.
• 不同项目之前争夺有限的物理资源.
• 拖延开发周期
基于共有云的解决方案
• Cloudera 在公有云中快速安全的部署临时开发测试环境.
实现细节
• Cloudera使用公有云快速的将生产环境数据通过EBS或者S3复制
到测试环境.
• 测试环境可以完全复制生产环境的安全配置, 减低安全风险.
• 临时EC2实例可以有效的管理计算资源,减少资源冲突,更有效
的管理计算资源的生命周期.
12© Cloudera, Inc. All rights reserved.
创建开发和测试环境
生产环境
数据
应用
生产实例为生产
应用和用户提供
数据
S3
EBS
用户
生产环境 开发/测试环境
安全开发/测试
环境
13© Cloudera, Inc. All rights reserved.
为突发性的ETL负载快速部署集群
利用公有云
实现ETL
商业挑战
• ETL 通常需要在短时间内处理大量数据.
• 短时间内需要大量计算资源, 难以预算集群的规模.
基于共有云的解决方案
• Cloudera利用公有云中的弹性资源来满足突发性的ETL作业需求,
无论预期的还是突发的.
• 隔离的ETL集群不影响生产集群的运行.
实现细节
• 当发突发性的ETL负载以及大容量的Data Ingestion操作超过企业
集群的计算能力时, 传统数据中心服务集群上运行的正常计算将
会被影响. 传统的ETL可能因此无法从突发计算中恢复,导致数据
丢失.
• Cloudera在公有云中专门为单一ETL流水线部署一次性的隔离的
集群, 保证计算资源隔离,有效的避免不同负载之间相互影响.
14© Cloudera, Inc. All rights reserved.
为突发性的ETL负载快速部署集群
作业数据库
Data
Surge
1
数据源
S3/EBS
数据推
送到S3
2
将数据推送
到计算实例,
进行批处理
操作
3
AWS EBS
Instances
4 将处理后的
数据转存回
S3
5 数据转存回HBase
应用
6
15© Cloudera, Inc. All rights reserved.
备份和灾难恢复
备份作业数据库至公有云,以降低风险
私有云实例
S3
共有云实例
数据快照
1
S3
数据恢复
2
数据快照
1
数据恢复
2
16© Cloudera, Inc. All rights reserved.
共有云推荐配置
以亚马逊AWS为例
17© Cloudera, Inc. All rights reserved.
推荐公有云计算实例
轻松部署长期运行的生产集群
Model vCPU Mem(GiB) Storage(GB)
d2.xlarge 4 30.5 3 x 2000 HDD
d2.2xlarge 8 61 6 x 2000 HDD
d2.4xlarge 16 122 12 x 2000 HDD
d2.8xlarge 36 244 24 x 2000 HDD
Data Nodes:
Master Nodes:
Model vCPU Mem(GiB) Storage(GB)
c3.8xlarge 32 60 2 x 320 SSD
Snapshot Backups: S3
推荐较小的实例类型. 有效减
轻HDFS block report和JVM垃
圾回收的影响.
Master Node 的内存大小应该
根据整个计算集群的大小来
选择, 比如c3.xlarge 实例可以
支持非常大的集群(>100
nodes). 小型集群可以适当降
低对于Master Node的要求.
18© Cloudera, Inc. All rights reserved.
推荐公有云计算实例
通过Cloudera Director部署挂载持久存储的临时计算集群.
Model vCPU Mem(GiB) Storage
C4.large 4 30.5 EBS (4000 Mbps dedicated)
Data Nodes:
Master Nodes:
Model vCPU Mem(GiB) Storage (GB)
c3.8xlarge 32 60 2 x 320 SSD
存储配置(带宽密集型负载,比如ETL)
Volume Type Volume Size IOPS Throughput
st1 500 GiB – 16 TiB 500 800 MiB/s
Volume Type Volume Size IOPS Throughput
io1 4 GiB – 16 TiB 20,000 800 MiB/s
存储配置 (实时负载, 比如HBase):
19© Cloudera, Inc. All rights reserved.
推荐公有云计算实例
长时间运行的Spark Streaming集群
• Spark 集群一般使用同构节点 , 没有特殊的master.
Model vCPU Mem(GiB) Storage
m4.2xlarge 8 32 EBS (1000 Mbps dedicated)
默认配置:
Model vCPU Mem(GiB) Storage
m3.2xlarge 8 61 160GB SSD
内存密集型:
计算能力和内存之间最佳平
衡配置.
比如需要缓存 RDDs/Dataframes
或者需要通过
updateStateByKey(…)函数来维护
in-memory state.
Model vCPU Mem(GiB) Storage
c4.2xlarge 8 15 EBS (1000 Mbps dedicated)
计算密集型:
计算密集型,机器学习算法等等.
20© Cloudera, Inc. All rights reserved.
Thank You

More Related Content

What's hot

FIT2CLOUD:云管理及DevOps协作平台
FIT2CLOUD:云管理及DevOps协作平台FIT2CLOUD:云管理及DevOps协作平台
FIT2CLOUD:云管理及DevOps协作平台Fit2Cloud
 
2021 五月 Veeam 多雲解決方案 (完整版本)
2021 五月 Veeam 多雲解決方案 (完整版本)2021 五月 Veeam 多雲解決方案 (完整版本)
2021 五月 Veeam 多雲解決方案 (完整版本)Wales Chen
 
数据科学分析协作平台CDSW
数据科学分析协作平台CDSW数据科学分析协作平台CDSW
数据科学分析协作平台CDSWJianwei Li
 
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Anna Yen
 
透過與-AWS-雲端平台的完美整合-針對實體-虛擬-及雲端環境提供完整的保護
透過與-AWS-雲端平台的完美整合-針對實體-虛擬-及雲端環境提供完整的保護透過與-AWS-雲端平台的完美整合-針對實體-虛擬-及雲端環境提供完整的保護
透過與-AWS-雲端平台的完美整合-針對實體-虛擬-及雲端環境提供完整的保護Amazon Web Services
 
Oracle cloud 云介绍及测试账户申请
Oracle cloud 云介绍及测试账户申请Oracle cloud 云介绍及测试账户申请
Oracle cloud 云介绍及测试账户申请Zhaoyang Wang
 
Kyligence Leverages Alluxio to Accelerate OLAP in the Cloud
Kyligence Leverages Alluxio to Accelerate OLAP in the CloudKyligence Leverages Alluxio to Accelerate OLAP in the Cloud
Kyligence Leverages Alluxio to Accelerate OLAP in the CloudAlluxio, Inc.
 
Veeam 整合地端與 Azure 雲端的資料保護 (2021 版本)
Veeam 整合地端與 Azure 雲端的資料保護 (2021 版本)Veeam 整合地端與 Azure 雲端的資料保護 (2021 版本)
Veeam 整合地端與 Azure 雲端的資料保護 (2021 版本)Wales Chen
 
新一代企業級雲端資料庫系統
新一代企業級雲端資料庫系統新一代企業級雲端資料庫系統
新一代企業級雲端資料庫系統iServDB & iServCloud
 
Oracle Compute Cloud Service介绍
Oracle Compute Cloud Service介绍Oracle Compute Cloud Service介绍
Oracle Compute Cloud Service介绍Zhaoyang Wang
 
賽門鐵克 VMware 完整解決方案
賽門鐵克 VMware 完整解決方案賽門鐵克 VMware 完整解決方案
賽門鐵克 VMware 完整解決方案Wales Chen
 
Oracle Compute Cloud Service快速实践
Oracle Compute Cloud Service快速实践Oracle Compute Cloud Service快速实践
Oracle Compute Cloud Service快速实践Zhaoyang Wang
 
Cloudera企业数据中枢平台
Cloudera企业数据中枢平台Cloudera企业数据中枢平台
Cloudera企业数据中枢平台Jianwei Li
 
如何規劃與執行大型資料中心遷移和案例分享
如何規劃與執行大型資料中心遷移和案例分享如何規劃與執行大型資料中心遷移和案例分享
如何規劃與執行大型資料中心遷移和案例分享Amazon Web Services
 
构建企业私有云、开启服务新里程——基于Dcos的PAAS实践
构建企业私有云、开启服务新里程——基于Dcos的PAAS实践构建企业私有云、开启服务新里程——基于Dcos的PAAS实践
构建企业私有云、开启服务新里程——基于Dcos的PAAS实践Hardway Hou
 
雲端技術發展趨勢研討會會
雲端技術發展趨勢研討會會雲端技術發展趨勢研討會會
雲端技術發展趨勢研討會會geego
 
Oracle 高可用概述
Oracle 高可用概述Oracle 高可用概述
Oracle 高可用概述xlight
 
Stroage server slidershare
Stroage server slidershareStroage server slidershare
Stroage server slidershareJon Chen
 
MySQL5.6新功能
MySQL5.6新功能MySQL5.6新功能
MySQL5.6新功能郁萍 王
 
2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform SecurityJazz Yao-Tsung Wang
 

What's hot (20)

FIT2CLOUD:云管理及DevOps协作平台
FIT2CLOUD:云管理及DevOps协作平台FIT2CLOUD:云管理及DevOps协作平台
FIT2CLOUD:云管理及DevOps协作平台
 
2021 五月 Veeam 多雲解決方案 (完整版本)
2021 五月 Veeam 多雲解決方案 (完整版本)2021 五月 Veeam 多雲解決方案 (完整版本)
2021 五月 Veeam 多雲解決方案 (完整版本)
 
数据科学分析协作平台CDSW
数据科学分析协作平台CDSW数据科学分析协作平台CDSW
数据科学分析协作平台CDSW
 
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
 
透過與-AWS-雲端平台的完美整合-針對實體-虛擬-及雲端環境提供完整的保護
透過與-AWS-雲端平台的完美整合-針對實體-虛擬-及雲端環境提供完整的保護透過與-AWS-雲端平台的完美整合-針對實體-虛擬-及雲端環境提供完整的保護
透過與-AWS-雲端平台的完美整合-針對實體-虛擬-及雲端環境提供完整的保護
 
Oracle cloud 云介绍及测试账户申请
Oracle cloud 云介绍及测试账户申请Oracle cloud 云介绍及测试账户申请
Oracle cloud 云介绍及测试账户申请
 
Kyligence Leverages Alluxio to Accelerate OLAP in the Cloud
Kyligence Leverages Alluxio to Accelerate OLAP in the CloudKyligence Leverages Alluxio to Accelerate OLAP in the Cloud
Kyligence Leverages Alluxio to Accelerate OLAP in the Cloud
 
Veeam 整合地端與 Azure 雲端的資料保護 (2021 版本)
Veeam 整合地端與 Azure 雲端的資料保護 (2021 版本)Veeam 整合地端與 Azure 雲端的資料保護 (2021 版本)
Veeam 整合地端與 Azure 雲端的資料保護 (2021 版本)
 
新一代企業級雲端資料庫系統
新一代企業級雲端資料庫系統新一代企業級雲端資料庫系統
新一代企業級雲端資料庫系統
 
Oracle Compute Cloud Service介绍
Oracle Compute Cloud Service介绍Oracle Compute Cloud Service介绍
Oracle Compute Cloud Service介绍
 
賽門鐵克 VMware 完整解決方案
賽門鐵克 VMware 完整解決方案賽門鐵克 VMware 完整解決方案
賽門鐵克 VMware 完整解決方案
 
Oracle Compute Cloud Service快速实践
Oracle Compute Cloud Service快速实践Oracle Compute Cloud Service快速实践
Oracle Compute Cloud Service快速实践
 
Cloudera企业数据中枢平台
Cloudera企业数据中枢平台Cloudera企业数据中枢平台
Cloudera企业数据中枢平台
 
如何規劃與執行大型資料中心遷移和案例分享
如何規劃與執行大型資料中心遷移和案例分享如何規劃與執行大型資料中心遷移和案例分享
如何規劃與執行大型資料中心遷移和案例分享
 
构建企业私有云、开启服务新里程——基于Dcos的PAAS实践
构建企业私有云、开启服务新里程——基于Dcos的PAAS实践构建企业私有云、开启服务新里程——基于Dcos的PAAS实践
构建企业私有云、开启服务新里程——基于Dcos的PAAS实践
 
雲端技術發展趨勢研討會會
雲端技術發展趨勢研討會會雲端技術發展趨勢研討會會
雲端技術發展趨勢研討會會
 
Oracle 高可用概述
Oracle 高可用概述Oracle 高可用概述
Oracle 高可用概述
 
Stroage server slidershare
Stroage server slidershareStroage server slidershare
Stroage server slidershare
 
MySQL5.6新功能
MySQL5.6新功能MySQL5.6新功能
MySQL5.6新功能
 
2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security
 

Similar to ODB in the Cloud (Cn)

Azure Data Lake 簡介
Azure Data Lake 簡介Azure Data Lake 簡介
Azure Data Lake 簡介Herman Wu
 
20230523- D Forum 智慧工廠新竹- 智雲製造、數位轉型_如何以數據分析為基礎的架構佈局.pdf
20230523- D Forum 智慧工廠新竹- 智雲製造、數位轉型_如何以數據分析為基礎的架構佈局.pdf20230523- D Forum 智慧工廠新竹- 智雲製造、數位轉型_如何以數據分析為基礎的架構佈局.pdf
20230523- D Forum 智慧工廠新竹- 智雲製造、數位轉型_如何以數據分析為基礎的架構佈局.pdfssuser293781
 
零到千万可扩展架构 AWS Architecture Overview
零到千万可扩展架构 AWS Architecture Overview零到千万可扩展架构 AWS Architecture Overview
零到千万可扩展架构 AWS Architecture OverviewLeon Li
 
如何架构和开发高性能,高伸缩性Web 应用系统
如何架构和开发高性能,高伸缩性Web 应用系统如何架构和开发高性能,高伸缩性Web 应用系统
如何架构和开发高性能,高伸缩性Web 应用系统melity78
 
Times Ten Training
Times Ten TrainingTimes Ten Training
Times Ten TrainingLi Chen
 
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索liu sheng
 
Cloud formation 基礎設施即程式碼和aws資源佈建-workshop
Cloud formation 基礎設施即程式碼和aws資源佈建-workshopCloud formation 基礎設施即程式碼和aws資源佈建-workshop
Cloud formation 基礎設施即程式碼和aws資源佈建-workshopCKmates
 
雲端環境的快取策略-Global Azure Bootcamp 2015 臺北場
雲端環境的快取策略-Global Azure Bootcamp 2015 臺北場雲端環境的快取策略-Global Azure Bootcamp 2015 臺北場
雲端環境的快取策略-Global Azure Bootcamp 2015 臺北場twMVC
 
Accelerate Database as a Service(DBaaS) in Cloud era
Accelerate Database as a Service(DBaaS) in Cloud eraAccelerate Database as a Service(DBaaS) in Cloud era
Accelerate Database as a Service(DBaaS) in Cloud eraJunchi Zhang
 
Oracle db 12c 加速企业转型之十大功能
Oracle db 12c 加速企业转型之十大功能Oracle db 12c 加速企业转型之十大功能
Oracle db 12c 加速企业转型之十大功能Ethan M. Liu
 
MySQL5.6&5.7 Cluster 7.3 Review
MySQL5.6&5.7 Cluster 7.3 ReviewMySQL5.6&5.7 Cluster 7.3 Review
MySQL5.6&5.7 Cluster 7.3 Review郁萍 王
 
王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计YANGL *
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Etu Solution
 
MySQL 網路參考架構
MySQL 網路參考架構MySQL 網路參考架構
MySQL 網路參考架構郁萍 王
 
SQL PASS 臺灣分部八月份聚會 - Windows Azure 和 SQL Server 的Hybrid運用-備援以及高可用性
SQL PASS 臺灣分部八月份聚會 - Windows Azure 和 SQL Server 的Hybrid運用-備援以及高可用性SQL PASS 臺灣分部八月份聚會 - Windows Azure 和 SQL Server 的Hybrid運用-備援以及高可用性
SQL PASS 臺灣分部八月份聚會 - Windows Azure 和 SQL Server 的Hybrid運用-備援以及高可用性SQLPASSTW
 
4, OCP - oracle networking
4, OCP - oracle networking4, OCP - oracle networking
4, OCP - oracle networkingted-xu
 
深入浅出 V cloud director
深入浅出 V cloud director深入浅出 V cloud director
深入浅出 V cloud directorITband
 

Similar to ODB in the Cloud (Cn) (20)

Azure Data Lake 簡介
Azure Data Lake 簡介Azure Data Lake 簡介
Azure Data Lake 簡介
 
20230523- D Forum 智慧工廠新竹- 智雲製造、數位轉型_如何以數據分析為基礎的架構佈局.pdf
20230523- D Forum 智慧工廠新竹- 智雲製造、數位轉型_如何以數據分析為基礎的架構佈局.pdf20230523- D Forum 智慧工廠新竹- 智雲製造、數位轉型_如何以數據分析為基礎的架構佈局.pdf
20230523- D Forum 智慧工廠新竹- 智雲製造、數位轉型_如何以數據分析為基礎的架構佈局.pdf
 
零到千万可扩展架构 AWS Architecture Overview
零到千万可扩展架构 AWS Architecture Overview零到千万可扩展架构 AWS Architecture Overview
零到千万可扩展架构 AWS Architecture Overview
 
如何架构和开发高性能,高伸缩性Web 应用系统
如何架构和开发高性能,高伸缩性Web 应用系统如何架构和开发高性能,高伸缩性Web 应用系统
如何架构和开发高性能,高伸缩性Web 应用系统
 
Times Ten Training
Times Ten TrainingTimes Ten Training
Times Ten Training
 
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
 
Cloud formation 基礎設施即程式碼和aws資源佈建-workshop
Cloud formation 基礎設施即程式碼和aws資源佈建-workshopCloud formation 基礎設施即程式碼和aws資源佈建-workshop
Cloud formation 基礎設施即程式碼和aws資源佈建-workshop
 
雲端環境的快取策略-Global Azure Bootcamp 2015 臺北場
雲端環境的快取策略-Global Azure Bootcamp 2015 臺北場雲端環境的快取策略-Global Azure Bootcamp 2015 臺北場
雲端環境的快取策略-Global Azure Bootcamp 2015 臺北場
 
Accelerate Database as a Service(DBaaS) in Cloud era
Accelerate Database as a Service(DBaaS) in Cloud eraAccelerate Database as a Service(DBaaS) in Cloud era
Accelerate Database as a Service(DBaaS) in Cloud era
 
Oracle db 12c 加速企业转型之十大功能
Oracle db 12c 加速企业转型之十大功能Oracle db 12c 加速企业转型之十大功能
Oracle db 12c 加速企业转型之十大功能
 
MySQL5.6&5.7 Cluster 7.3 Review
MySQL5.6&5.7 Cluster 7.3 ReviewMySQL5.6&5.7 Cluster 7.3 Review
MySQL5.6&5.7 Cluster 7.3 Review
 
Dell
DellDell
Dell
 
王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
 
MySQL 網路參考架構
MySQL 網路參考架構MySQL 網路參考架構
MySQL 網路參考架構
 
SQL PASS 臺灣分部八月份聚會 - Windows Azure 和 SQL Server 的Hybrid運用-備援以及高可用性
SQL PASS 臺灣分部八月份聚會 - Windows Azure 和 SQL Server 的Hybrid運用-備援以及高可用性SQL PASS 臺灣分部八月份聚會 - Windows Azure 和 SQL Server 的Hybrid運用-備援以及高可用性
SQL PASS 臺灣分部八月份聚會 - Windows Azure 和 SQL Server 的Hybrid運用-備援以及高可用性
 
内存数据库[1]
内存数据库[1]内存数据库[1]
内存数据库[1]
 
Why use MySQL
Why use MySQLWhy use MySQL
Why use MySQL
 
4, OCP - oracle networking
4, OCP - oracle networking4, OCP - oracle networking
4, OCP - oracle networking
 
深入浅出 V cloud director
深入浅出 V cloud director深入浅出 V cloud director
深入浅出 V cloud director
 

ODB in the Cloud (Cn)

  • 1. 1© Cloudera, Inc. All rights reserved. 公有云中的Cloudera作业数据 库 徐磊 (lei@cloudera.com) HDFS team@Cloudera, Hadoop PMC
  • 2. 2© Cloudera, Inc. All rights reserved. 公有云中运行Cloudera作业数据库 应用场景
  • 3. 3© Cloudera, Inc. All rights reserved. 云计算123 Cloudera Manager (CM) Cloudera的Hadoop/CDH集群管理平台. Cloudera Director (Director) Cloudera CDH公有云部署平台. Amazon AWS 亚马逊云计算服务. AWS EC2 亚马逊弹性计算服务. AWS S3 亚马逊云计算对象存储. AWS Elastic Block Storage 亚马逊弹性块设备存储服务. AWS Instance Storage 亚马逊实例存储.
  • 4. 4© Cloudera, Inc. All rights reserved. 作业数据库 低延迟, 持久性的存储. 应用: Web 应用, 消息存储, 关键业务 的运营活动. 通用的数据仓库 从多个数据流中识别有意义的 事件, 并采取相关行动. 复杂的事务处理 结合数据和当前/历史事件预 测未来的事件 建模和预测
  • 5. 5© Cloudera, Inc. All rights reserved. 公有云的优势 成本 • 极低成本的备份和灾 难恢复 • 快速部署和销毁开发 以及测试环境 方便 • 低成本的运行紧凑配 置和静态集群(steady state) • 弹性增长过载的集群 • 快速便捷的部署 (Provisioning) 新计算 集群, 增加计算能力, 有助于项目快速运转。
  • 6. 6© Cloudera, Inc. All rights reserved. 公有云上运行作业数据库的架构 应用 持续运行的生产 集群 作业数据库 Cloudera Director 部署 Cloudera CM 管理/部署集群 Elastic Block Storage 作业数据库 临时开发测试集群 S3 突发批处理 当有突发批处理请求或者部署 开发集群, 通过EBS拷贝和转移 数据. 1 易于部署 (Provisioning) 2 部署开发/测 试环境 3 大数据量的突发的 批处理操作 4 低成本备份 数据源 Spark Streaming
  • 7. 7© Cloudera, Inc. All rights reserved. 轻松部署新集群 轻松部署 商业挑战 • 企业内部部署的集群通常需要长时间的部署. 尤其是从PoC到生 产系统更是需要长期的采购流程. • 一些客户需要3-6个月来完成整套流程. 拖慢了开发进度, 遗留更 多的后续技术问题. 基于共有云的解决方案 • Cloudera Director 提供业界领先的解决方案,帮助用户迁移到公有云 之上 • 支持跨云,或者公有云和私有云之间的工作负载迁移 • 从而防止被任何一家公有云厂商套牢 实现细节 • Cloudera Director支持在共有云中快速部署生产集群. • 运用Cloudera快速按需部署产品集群, 避免长期运行. • Cloudera 培训企业员工有能力测试并判断新用例的可行性,降低项 目风险, 创造更多价值.
  • 8. 8© Cloudera, Inc. All rights reserved. 轻松部署新集群 应用 作业数据库 EC2 Instances Director 部署 Cloud Storage 应用 EC2 Instances Direct Attached Storage Elastic Block Storage 作业数据库 实例存储 Director 部署
  • 9. 9© Cloudera, Inc. All rights reserved. 共有云中运行Spark Streaming和作业数据库 实时处理和服务架构 可用区 应用 Ingest Streaming Data Spark Streaming运 行在独立集群 Spark Streaming 作业数据库 作业数据库运行在另 一个独立集群 两个集群运行在同 一个可用区
  • 10. 10© Cloudera, Inc. All rights reserved. AWS 按需计费(on-demand) vs. 预留计费(reserved) Instance Type Rate Per Hour Reserved Yearly Rate On-Demand Yearly Rate Utilization Cross-over Point c4.large $0.11 $576 $920 63% c3.8xlarge $1.68 $8,691 $14,717 59% d2.xlarge $0.69 $2,952 $6,044 49% m4.2xlarge $0.48 $2,414 $4,196 58%
  • 11. 11© Cloudera, Inc. All rights reserved. 创建开发和测试环境 开发和测试 环境 商业挑战 • 独立的开发和测试环境难以维护和配置. • 难以安全地使用实际生产数据. • 不同项目之前争夺有限的物理资源. • 拖延开发周期 基于共有云的解决方案 • Cloudera 在公有云中快速安全的部署临时开发测试环境. 实现细节 • Cloudera使用公有云快速的将生产环境数据通过EBS或者S3复制 到测试环境. • 测试环境可以完全复制生产环境的安全配置, 减低安全风险. • 临时EC2实例可以有效的管理计算资源,减少资源冲突,更有效 的管理计算资源的生命周期.
  • 12. 12© Cloudera, Inc. All rights reserved. 创建开发和测试环境 生产环境 数据 应用 生产实例为生产 应用和用户提供 数据 S3 EBS 用户 生产环境 开发/测试环境 安全开发/测试 环境
  • 13. 13© Cloudera, Inc. All rights reserved. 为突发性的ETL负载快速部署集群 利用公有云 实现ETL 商业挑战 • ETL 通常需要在短时间内处理大量数据. • 短时间内需要大量计算资源, 难以预算集群的规模. 基于共有云的解决方案 • Cloudera利用公有云中的弹性资源来满足突发性的ETL作业需求, 无论预期的还是突发的. • 隔离的ETL集群不影响生产集群的运行. 实现细节 • 当发突发性的ETL负载以及大容量的Data Ingestion操作超过企业 集群的计算能力时, 传统数据中心服务集群上运行的正常计算将 会被影响. 传统的ETL可能因此无法从突发计算中恢复,导致数据 丢失. • Cloudera在公有云中专门为单一ETL流水线部署一次性的隔离的 集群, 保证计算资源隔离,有效的避免不同负载之间相互影响.
  • 14. 14© Cloudera, Inc. All rights reserved. 为突发性的ETL负载快速部署集群 作业数据库 Data Surge 1 数据源 S3/EBS 数据推 送到S3 2 将数据推送 到计算实例, 进行批处理 操作 3 AWS EBS Instances 4 将处理后的 数据转存回 S3 5 数据转存回HBase 应用 6
  • 15. 15© Cloudera, Inc. All rights reserved. 备份和灾难恢复 备份作业数据库至公有云,以降低风险 私有云实例 S3 共有云实例 数据快照 1 S3 数据恢复 2 数据快照 1 数据恢复 2
  • 16. 16© Cloudera, Inc. All rights reserved. 共有云推荐配置 以亚马逊AWS为例
  • 17. 17© Cloudera, Inc. All rights reserved. 推荐公有云计算实例 轻松部署长期运行的生产集群 Model vCPU Mem(GiB) Storage(GB) d2.xlarge 4 30.5 3 x 2000 HDD d2.2xlarge 8 61 6 x 2000 HDD d2.4xlarge 16 122 12 x 2000 HDD d2.8xlarge 36 244 24 x 2000 HDD Data Nodes: Master Nodes: Model vCPU Mem(GiB) Storage(GB) c3.8xlarge 32 60 2 x 320 SSD Snapshot Backups: S3 推荐较小的实例类型. 有效减 轻HDFS block report和JVM垃 圾回收的影响. Master Node 的内存大小应该 根据整个计算集群的大小来 选择, 比如c3.xlarge 实例可以 支持非常大的集群(>100 nodes). 小型集群可以适当降 低对于Master Node的要求.
  • 18. 18© Cloudera, Inc. All rights reserved. 推荐公有云计算实例 通过Cloudera Director部署挂载持久存储的临时计算集群. Model vCPU Mem(GiB) Storage C4.large 4 30.5 EBS (4000 Mbps dedicated) Data Nodes: Master Nodes: Model vCPU Mem(GiB) Storage (GB) c3.8xlarge 32 60 2 x 320 SSD 存储配置(带宽密集型负载,比如ETL) Volume Type Volume Size IOPS Throughput st1 500 GiB – 16 TiB 500 800 MiB/s Volume Type Volume Size IOPS Throughput io1 4 GiB – 16 TiB 20,000 800 MiB/s 存储配置 (实时负载, 比如HBase):
  • 19. 19© Cloudera, Inc. All rights reserved. 推荐公有云计算实例 长时间运行的Spark Streaming集群 • Spark 集群一般使用同构节点 , 没有特殊的master. Model vCPU Mem(GiB) Storage m4.2xlarge 8 32 EBS (1000 Mbps dedicated) 默认配置: Model vCPU Mem(GiB) Storage m3.2xlarge 8 61 160GB SSD 内存密集型: 计算能力和内存之间最佳平 衡配置. 比如需要缓存 RDDs/Dataframes 或者需要通过 updateStateByKey(…)函数来维护 in-memory state. Model vCPU Mem(GiB) Storage c4.2xlarge 8 15 EBS (1000 Mbps dedicated) 计算密集型: 计算密集型,机器学习算法等等.
  • 20. 20© Cloudera, Inc. All rights reserved. Thank You