SlideShare a Scribd company logo
Google 4 Key Technologies

       Chen Ting Zhao
GFS – Google File System
• 架构
                        metadata
                                             特点
                                             • Master 节点管理元数据
                                             • 数据直接在client和
                                             Chunk节点间传输
                 data                        • 文件分割为Chunks,一
                                             般为64MB




GFS Workload特点                     Google使用情况(2009)
• 大文件的存储                           • 200+ 集群,很多集群有1000+机器
• 一次写入多次读取                         • 4+ PB 文件系统
                                   • 40 GB/s 读写负载
Big Table
分布式多维度稀疏映射
(row, column, {timestamp}) -> cell contents

ROW:任意长度,一般10-100Bytes,最大小
于64M
COLUMN: 任意维度的信息
TIMESTAMP: 时间维度,维护数据历史版本
过大的表可以通过行范围分为多个tablets
- 100-200MB,不连续,分布在不同的机器和机柜
- 负载均衡:从负载重的机器迁移到负载轻的,对常访问的tablets进行缓存
                                              Google使用情况2009
                                              Cluster数量:  >500
                                              数据量:        70+ PB
                                              操作访问量:      10M ops/sec
                                              I/O:        30+ GB/s
                                              最大Cluster数据量:6000TB+
                                                            3000+ 机器
                                              最大Cluster操作访问: >500000+ ops/s
Map/Reduce
• Map/Reduce是一种简单大数据计算问题的编程
                           Map的过程是
                             (k1,v1) -> list(k2,v2)
                           Reduce的过程是
                             (k2,list(v2)) -> list(v2)


                           Google使用情况2009
                           Job数量:      3467K
                           平均完成时间: 475s
                           输入数据(TB):   544,130
                           中间数据(TB):   90,120
                           输出数据(TB):   57,520
                           平均worker机器数量: 488


Map/Reduce Workload特点:
1. 计算问题可以分解成为若干并行执行的模块,并通过Reduce模块对结
   果进行合并
2. 适合顺序的计算过程,较不适合循环和迭代的计算过程
Chubby
松耦合分布式文件系统的锁
• 创建文件其实就是进行“加锁”操
  作
• client通过打开、关闭和读取文件,
  获取共享锁或者独占锁; 并且通
  过通信机制,向其他client发送更
  新信息。
Chubby特点:
1. advisory lock,当一个client将某个文件锁住以后,如果有其他client想不解锁而直
   接访问这个文件,这种行为是不会被阻止的。
2. coarse-grained(粗颗粒度的)锁住的时间都比较长,可能是几小时或者几天。
   相比fined-grained的负载要小很多,因为加锁解锁并不会太频繁

More Related Content

What's hot

Ftn存储设计
Ftn存储设计Ftn存储设计
Ftn存储设计gzterrytan
 
Redis 常见使用模式分析
Redis 常见使用模式分析Redis 常见使用模式分析
Redis 常见使用模式分析
vincent253
 
Redis介绍
Redis介绍Redis介绍
Redis介绍
zhaolinjnu
 
MongoDB SHARE
MongoDB SHAREMongoDB SHARE
MongoDB SHARE
zhangyunyang1985
 
Mongo db 特性
Mongo db 特性Mongo db 特性
Mongo db 特性
Hermes Chiang
 
110412 kningsoft-mongo db-intro-usage-in-mercury
110412 kningsoft-mongo db-intro-usage-in-mercury110412 kningsoft-mongo db-intro-usage-in-mercury
110412 kningsoft-mongo db-intro-usage-in-mercury
Zoom Quiet
 
Mesos intro
Mesos introMesos intro
Mesos intro
dennis zhuang
 
高性能并发Web服务器实现核心内幕
高性能并发Web服务器实现核心内幕高性能并发Web服务器实现核心内幕
高性能并发Web服务器实现核心内幕ideawu
 
Web请求异步处理和海量数据即时分析在淘宝开放平台的实践
Web请求异步处理和海量数据即时分析在淘宝开放平台的实践Web请求异步处理和海量数据即时分析在淘宝开放平台的实践
Web请求异步处理和海量数据即时分析在淘宝开放平台的实践
mysqlops
 
redis 适用场景与实现
redis 适用场景与实现redis 适用场景与实现
redis 适用场景与实现
iammutex
 
“云存储系统”赏析系列分享三:Sql与nosql
“云存储系统”赏析系列分享三:Sql与nosql“云存储系统”赏析系列分享三:Sql与nosql
“云存储系统”赏析系列分享三:Sql与nosqlknuthocean
 
Hadoop compress-stream
Hadoop compress-streamHadoop compress-stream
Hadoop compress-stream
Schubert Zhang
 
4 罗成对 docker与数据库的应用结合 罗成对-注解
4 罗成对 docker与数据库的应用结合 罗成对-注解4 罗成对 docker与数据库的应用结合 罗成对-注解
4 罗成对 docker与数据库的应用结合 罗成对-注解
Jiang Shang
 
Mongo db 簡介
Mongo db 簡介Mongo db 簡介
Mongo db 簡介昱劭 劉
 
Couchdb Beijing Openparty
Couchdb Beijing OpenpartyCouchdb Beijing Openparty
Couchdb Beijing Openpartylitaocheng
 
深入Docker的资源管理
深入Docker的资源管理深入Docker的资源管理
深入Docker的资源管理
SpeedyCloud
 
NoSQL-MongoDB介紹
NoSQL-MongoDB介紹NoSQL-MongoDB介紹
NoSQL-MongoDB介紹
國昭 張
 
Sql基础培训
Sql基础培训Sql基础培训
Sql基础培训
Ji ZHANG
 
Mongo简介
Mongo简介Mongo简介
Mongo简介wuda0112
 

What's hot (20)

Ftn存储设计
Ftn存储设计Ftn存储设计
Ftn存储设计
 
Redis 常见使用模式分析
Redis 常见使用模式分析Redis 常见使用模式分析
Redis 常见使用模式分析
 
Redis介绍
Redis介绍Redis介绍
Redis介绍
 
MongoDB SHARE
MongoDB SHAREMongoDB SHARE
MongoDB SHARE
 
Mongo db 特性
Mongo db 特性Mongo db 特性
Mongo db 特性
 
110412 kningsoft-mongo db-intro-usage-in-mercury
110412 kningsoft-mongo db-intro-usage-in-mercury110412 kningsoft-mongo db-intro-usage-in-mercury
110412 kningsoft-mongo db-intro-usage-in-mercury
 
Mesos intro
Mesos introMesos intro
Mesos intro
 
高性能并发Web服务器实现核心内幕
高性能并发Web服务器实现核心内幕高性能并发Web服务器实现核心内幕
高性能并发Web服务器实现核心内幕
 
Web请求异步处理和海量数据即时分析在淘宝开放平台的实践
Web请求异步处理和海量数据即时分析在淘宝开放平台的实践Web请求异步处理和海量数据即时分析在淘宝开放平台的实践
Web请求异步处理和海量数据即时分析在淘宝开放平台的实践
 
redis 适用场景与实现
redis 适用场景与实现redis 适用场景与实现
redis 适用场景与实现
 
“云存储系统”赏析系列分享三:Sql与nosql
“云存储系统”赏析系列分享三:Sql与nosql“云存储系统”赏析系列分享三:Sql与nosql
“云存储系统”赏析系列分享三:Sql与nosql
 
Hadoop compress-stream
Hadoop compress-streamHadoop compress-stream
Hadoop compress-stream
 
Level db
Level dbLevel db
Level db
 
4 罗成对 docker与数据库的应用结合 罗成对-注解
4 罗成对 docker与数据库的应用结合 罗成对-注解4 罗成对 docker与数据库的应用结合 罗成对-注解
4 罗成对 docker与数据库的应用结合 罗成对-注解
 
Mongo db 簡介
Mongo db 簡介Mongo db 簡介
Mongo db 簡介
 
Couchdb Beijing Openparty
Couchdb Beijing OpenpartyCouchdb Beijing Openparty
Couchdb Beijing Openparty
 
深入Docker的资源管理
深入Docker的资源管理深入Docker的资源管理
深入Docker的资源管理
 
NoSQL-MongoDB介紹
NoSQL-MongoDB介紹NoSQL-MongoDB介紹
NoSQL-MongoDB介紹
 
Sql基础培训
Sql基础培训Sql基础培训
Sql基础培训
 
Mongo简介
Mongo简介Mongo简介
Mongo简介
 

Similar to Google key technologies

Nosql三步曲
Nosql三步曲Nosql三步曲
Nosql三步曲
84zhu
 
MongoDB at Qihoo 360
MongoDB at Qihoo 360MongoDB at Qihoo 360
MongoDB at Qihoo 360
MongoDB
 
Mesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ DoubanMesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ Douban
Zhong Bo Tian
 
大資料趨勢介紹與相關使用技術
大資料趨勢介紹與相關使用技術大資料趨勢介紹與相關使用技術
大資料趨勢介紹與相關使用技術
Wei-Yu Chen
 
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
liu sheng
 
新浪微博平台与安全架构
新浪微博平台与安全架构新浪微博平台与安全架构
新浪微博平台与安全架构n716
 
构建可扩展的微博系统
构建可扩展的微博系统构建可扩展的微博系统
构建可扩展的微博系统lonegunman
 
java title
java titlejava title
java title
lonegunman
 
云计算 系统实例与研究现状
云计算 系统实例与研究现状云计算 系统实例与研究现状
云计算 系统实例与研究现状Danny AJ Lin
 
第三届阿里中间件性能挑战赛季军答辩ppt - rapids团队
第三届阿里中间件性能挑战赛季军答辩ppt - rapids团队第三届阿里中间件性能挑战赛季军答辩ppt - rapids团队
第三届阿里中间件性能挑战赛季军答辩ppt - rapids团队
煜林 车
 
企業導入微服務實戰 - updated
企業導入微服務實戰 - updated企業導入微服務實戰 - updated
企業導入微服務實戰 - updated
Paul Chao
 
廣宣學堂: 企業導入微服務實戰
廣宣學堂: 企業導入微服務實戰廣宣學堂: 企業導入微服務實戰
廣宣學堂: 企業導入微服務實戰
Paul Chao
 
张勇 搜搜前端架构
张勇 搜搜前端架构张勇 搜搜前端架构
张勇 搜搜前端架构isnull
 
百度前端技术交流会--搜搜前端架构演变与优化
百度前端技术交流会--搜搜前端架构演变与优化百度前端技术交流会--搜搜前端架构演变与优化
百度前端技术交流会--搜搜前端架构演变与优化
tiantianli
 
[Baidu web frontend_conference_2010]_[soso_frontend_architecture]
[Baidu web frontend_conference_2010]_[soso_frontend_architecture][Baidu web frontend_conference_2010]_[soso_frontend_architecture]
[Baidu web frontend_conference_2010]_[soso_frontend_architecture]
思念 青青
 
豆瓣网技术架构变迁
豆瓣网技术架构变迁豆瓣网技术架构变迁
豆瓣网技术架构变迁
reinhardx
 
Hacking Nginx at Taobao
Hacking Nginx at TaobaoHacking Nginx at Taobao
Hacking Nginx at Taobao
Joshua Zhu
 
Accelerate Database as a Service(DBaaS) in Cloud era
Accelerate Database as a Service(DBaaS) in Cloud eraAccelerate Database as a Service(DBaaS) in Cloud era
Accelerate Database as a Service(DBaaS) in Cloud eraJunchi Zhang
 
浅析分布式存储架构—设计自己的存储- 58同城徐振华
浅析分布式存储架构—设计自己的存储- 58同城徐振华浅析分布式存储架构—设计自己的存储- 58同城徐振华
浅析分布式存储架构—设计自己的存储- 58同城徐振华
zhuozhe
 

Similar to Google key technologies (20)

Nosql三步曲
Nosql三步曲Nosql三步曲
Nosql三步曲
 
MongoDB at Qihoo 360
MongoDB at Qihoo 360MongoDB at Qihoo 360
MongoDB at Qihoo 360
 
Mesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ DoubanMesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ Douban
 
大資料趨勢介紹與相關使用技術
大資料趨勢介紹與相關使用技術大資料趨勢介紹與相關使用技術
大資料趨勢介紹與相關使用技術
 
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
 
新浪微博平台与安全架构
新浪微博平台与安全架构新浪微博平台与安全架构
新浪微博平台与安全架构
 
构建可扩展的微博系统
构建可扩展的微博系统构建可扩展的微博系统
构建可扩展的微博系统
 
java title
java titlejava title
java title
 
云计算 系统实例与研究现状
云计算 系统实例与研究现状云计算 系统实例与研究现状
云计算 系统实例与研究现状
 
A
AA
A
 
第三届阿里中间件性能挑战赛季军答辩ppt - rapids团队
第三届阿里中间件性能挑战赛季军答辩ppt - rapids团队第三届阿里中间件性能挑战赛季军答辩ppt - rapids团队
第三届阿里中间件性能挑战赛季军答辩ppt - rapids团队
 
企業導入微服務實戰 - updated
企業導入微服務實戰 - updated企業導入微服務實戰 - updated
企業導入微服務實戰 - updated
 
廣宣學堂: 企業導入微服務實戰
廣宣學堂: 企業導入微服務實戰廣宣學堂: 企業導入微服務實戰
廣宣學堂: 企業導入微服務實戰
 
张勇 搜搜前端架构
张勇 搜搜前端架构张勇 搜搜前端架构
张勇 搜搜前端架构
 
百度前端技术交流会--搜搜前端架构演变与优化
百度前端技术交流会--搜搜前端架构演变与优化百度前端技术交流会--搜搜前端架构演变与优化
百度前端技术交流会--搜搜前端架构演变与优化
 
[Baidu web frontend_conference_2010]_[soso_frontend_architecture]
[Baidu web frontend_conference_2010]_[soso_frontend_architecture][Baidu web frontend_conference_2010]_[soso_frontend_architecture]
[Baidu web frontend_conference_2010]_[soso_frontend_architecture]
 
豆瓣网技术架构变迁
豆瓣网技术架构变迁豆瓣网技术架构变迁
豆瓣网技术架构变迁
 
Hacking Nginx at Taobao
Hacking Nginx at TaobaoHacking Nginx at Taobao
Hacking Nginx at Taobao
 
Accelerate Database as a Service(DBaaS) in Cloud era
Accelerate Database as a Service(DBaaS) in Cloud eraAccelerate Database as a Service(DBaaS) in Cloud era
Accelerate Database as a Service(DBaaS) in Cloud era
 
浅析分布式存储架构—设计自己的存储- 58同城徐振华
浅析分布式存储架构—设计自己的存储- 58同城徐振华浅析分布式存储架构—设计自己的存储- 58同城徐振华
浅析分布式存储架构—设计自己的存储- 58同城徐振华
 

Google key technologies

  • 1. Google 4 Key Technologies Chen Ting Zhao
  • 2. GFS – Google File System • 架构 metadata 特点 • Master 节点管理元数据 • 数据直接在client和 Chunk节点间传输 data • 文件分割为Chunks,一 般为64MB GFS Workload特点 Google使用情况(2009) • 大文件的存储 • 200+ 集群,很多集群有1000+机器 • 一次写入多次读取 • 4+ PB 文件系统 • 40 GB/s 读写负载
  • 3. Big Table 分布式多维度稀疏映射 (row, column, {timestamp}) -> cell contents ROW:任意长度,一般10-100Bytes,最大小 于64M COLUMN: 任意维度的信息 TIMESTAMP: 时间维度,维护数据历史版本 过大的表可以通过行范围分为多个tablets - 100-200MB,不连续,分布在不同的机器和机柜 - 负载均衡:从负载重的机器迁移到负载轻的,对常访问的tablets进行缓存 Google使用情况2009 Cluster数量: >500 数据量: 70+ PB 操作访问量: 10M ops/sec I/O: 30+ GB/s 最大Cluster数据量:6000TB+ 3000+ 机器 最大Cluster操作访问: >500000+ ops/s
  • 4. Map/Reduce • Map/Reduce是一种简单大数据计算问题的编程 Map的过程是 (k1,v1) -> list(k2,v2) Reduce的过程是 (k2,list(v2)) -> list(v2) Google使用情况2009 Job数量: 3467K 平均完成时间: 475s 输入数据(TB): 544,130 中间数据(TB): 90,120 输出数据(TB): 57,520 平均worker机器数量: 488 Map/Reduce Workload特点: 1. 计算问题可以分解成为若干并行执行的模块,并通过Reduce模块对结 果进行合并 2. 适合顺序的计算过程,较不适合循环和迭代的计算过程
  • 5. Chubby 松耦合分布式文件系统的锁 • 创建文件其实就是进行“加锁”操 作 • client通过打开、关闭和读取文件, 获取共享锁或者独占锁; 并且通 过通信机制,向其他client发送更 新信息。 Chubby特点: 1. advisory lock,当一个client将某个文件锁住以后,如果有其他client想不解锁而直 接访问这个文件,这种行为是不会被阻止的。 2. coarse-grained(粗颗粒度的)锁住的时间都比较长,可能是几小时或者几天。 相比fined-grained的负载要小很多,因为加锁解锁并不会太频繁