SlideShare a Scribd company logo
美团数据仓库的演进
美团⺴⽹网数据组 刁⼠士涵
13年9月6⽇日星期五
数据驱动
2
13年9月6⽇日星期五
13年9月6⽇日星期五
•数据收集与存储
• ETL	
  
• 开放和协作
• 经验教训
演进过程
13年9月6⽇日星期五
Scribe
13年9月6⽇日星期五
Flume
13年9月6⽇日星期五
•
日志收集
Flume Scribe
容错性 agent和collector,collector和store之间提供
三种级别的可靠性保证
collector和store之间有容错,但agent
和collector之间的容错需要⾃自⼰己实现
负载均衡 从agent到collector之间可以设置
Loadbalance模式
⽆无
扩展性 好 好
框架
包含source, channel, sink三部分,可以⽅方便
设置。代码框架良好,可以⽅方便进⾏行组件开
发。
代码简单
源⽀支持 提供丰富的agent,包括socket, syslog,
scribe, thrift, avro, exec等;
thri-,其它美团⾃自⼰己实现
存储⽀支持
⽀支持存储到hdfs, file, hbase和发送到avro,
thrift等端;写hdfs时⽀支持对text和 sequence
的压缩;
buffer, network, file(hdfs, text)
13年9月6⽇日星期五
• Infobright
• Hadoop/Hive
⽇日志的结构化存储
13年9月6⽇日星期五
• 数据收集与存储
•ETL	
  
• 开放和协作
• 经验教训
演进过程
13年9月6⽇日星期五
• 很多重复劳动和代码,⼀一处变更多处修改
• 中间数据缺失,中间结果不能共享
• 程序语⾔言五花⼋八⻔门,⽅方法各异很难管理
• 清洗和转换没有统⼀一⽅方法,容易出错
• 不同数据源的数据很难综合使⽤用
13年9月6⽇日星期五
ETL
13年9月6⽇日星期五
• B流程要在N流程后⾯面执⾏行
• 并⾏行开发
• 上游数据源调整,没通知下游?
上百个流程如何管理?
13年9月6⽇日星期五
依赖关系+调度
13年9月6⽇日星期五
• 解析SQL,获得每个流程的上游表
• 检测环等不合理依赖
• 流程上线时⾃自动更新,不⽤用⼈人⼯工干预
⾃自动解析依赖关系
13年9月6⽇日星期五
• ⼀一个核⼼心流程,有上百个下游,依赖关系
达到17层
• 执⾏行出错了...
依赖关系
13年9月6⽇日星期五
容错,监控
控制影响范围,快速恢复
13年9月6⽇日星期五
调度系统
13年9月6⽇日星期五
• 权限控制
–⽑毛利	
  =	
  (售价	
  -­‐	
  进价)*	
  销量
• 重导剪枝
–⼀一个字段计算出错,	
  只影响部分下游
字段级依赖关系
13年9月6⽇日星期五
• 数据收集与存储
• ETL	
  
•开放和协作
• 经验教训
演进过程
13年9月6⽇日星期五
数据⼯工程师每天的时间分配?
先提升⼯工程师的效率!
13年9月6⽇日星期五
• 将数据按照常⽤用的维度展开成上百列的宽表,
⽅方便报表查询和分析⼈人员提取数据
• 城市+时间维度的主题表:418列
建⽴立主题表
13年9月6⽇日星期五
⾃自助查询、报表⼯工具
13年9月6⽇日星期五
⾃自助查询、报表⼯工具
13年9月6⽇日星期五
• ⾯面向业务部⻔门、PM、分析师,持续组织培训
• 建⽴立答疑群,	
  随意有问题随时解答
• 参与招聘
推⼲⼴广使⽤用
13年9月6⽇日星期五
效果
⾃自助查询⼯工具
上线前
上线后
写SQL的⼈人 数据RD<10⼈人
业务,PM,分析师	
  >100
⼈人,其中超过⼀一半是妹⼦子
⼯工作状态
RD疲于提数写报表
数据需求⽅方等待
RD改善⼯工具建设数据仓库
需求⽅方⾃自助提取数据
各数据需求⽅方已经在平台
上保存了18500+个SQL
13年9月6⽇日星期五
数据的消费可以⾃自助了
数据的⽣生产呢?
13年9月6⽇日星期五
• 开放存储和计算环境,ETL开发和部署web化
• 让有能⼒力的RD⾃自⼰己开发ETL流程
开放ETL环境
13年9月6⽇日星期五
• 数据仓库是⼀一套完整的软件环境,包括数据抽
取、存储、计算、查询、展⽰示,以及管理这些
过程的⼯工具。开放的环境带来更⼤大的价值。
13年9月6⽇日星期五
• 数据收集与存储
• ETL	
  
• 开放和协作
•经验教训
演进过程
13年9月6⽇日星期五
• 坚持⽤用技术提⾼高效率
• ⼯工具化
• 培训⼈人,提⾼高⼈人的能⼒力
坚持做有积累的事,做乘法
13年9月6⽇日星期五
• OLAP尝试失败
• 可视化查询
别⼈人的不⼀一定适合你
13年9月6⽇日星期五
• 根据业务需要考虑架构,随着业务发展不
断改进
• “好的架构是演进出来的”
演进
13年9月6⽇日星期五
• MySQL,	
  Infobright
• Hadoop,	
  Hive,	
  HBase,	
  Zookeeper
• ThriE,	
  Scribe,	
  Flume,	
  Sqoop
• Redis
• Quartz
• ...	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  
拥抱开源,回馈社区
13年9月6⽇日星期五
• 数据仓库架构师,Hadoop⾼高级⼯工程师,后台
研发⼯工程师
• diaoshihan@meituan.com
• 新浪微博	
  	
  	
  @刁⼠士涵
和美团⼀一起⾼高速成⻓长
13年9月6⽇日星期五
Thanks!
13年9月6⽇日星期五

More Related Content

Similar to 美团技术团队 - 美团网数据仓库的演进

Something about Kafka - Why Kafka is so fast
Something about Kafka - Why Kafka is so fastSomething about Kafka - Why Kafka is so fast
Something about Kafka - Why Kafka is so fast
ViSenze - Artificial Intelligence for the Visual Web
 
数据库性能诊断的七种武器
数据库性能诊断的七种武器数据库性能诊断的七种武器
数据库性能诊断的七种武器
Leyi (Kamus) Zhang
 
Nodejs介绍
Nodejs介绍Nodejs介绍
Nodejs介绍
myzykj
 
Apollo web数据网关demo
Apollo web数据网关demoApollo web数据网关demo
Apollo web数据网关demo
wen66
 
20230523- D Forum 智慧工廠新竹- 智雲製造、數位轉型_如何以數據分析為基礎的架構佈局.pdf
20230523- D Forum 智慧工廠新竹- 智雲製造、數位轉型_如何以數據分析為基礎的架構佈局.pdf20230523- D Forum 智慧工廠新竹- 智雲製造、數位轉型_如何以數據分析為基礎的架構佈局.pdf
20230523- D Forum 智慧工廠新竹- 智雲製造、數位轉型_如何以數據分析為基礎的架構佈局.pdf
ssuser293781
 
Retrive&amp;rank
Retrive&amp;rankRetrive&amp;rank
Retrive&amp;rank
Joseph Chang
 
Oracle北大青鸟完全教程
Oracle北大青鸟完全教程Oracle北大青鸟完全教程
Oracle北大青鸟完全教程
yiditushe
 
Build 1 trillion warehouse based on carbon data
Build 1 trillion warehouse based on carbon dataBuild 1 trillion warehouse based on carbon data
Build 1 trillion warehouse based on carbon data
boxu42
 
分布式索引系统调研
分布式索引系统调研分布式索引系统调研
分布式索引系统调研
zijingyeshao
 
Oracle db 12c 加速企业转型之十大功能
Oracle db 12c 加速企业转型之十大功能Oracle db 12c 加速企业转型之十大功能
Oracle db 12c 加速企业转型之十大功能
Ethan M. Liu
 
Oracle服务器及存储介绍
Oracle服务器及存储介绍Oracle服务器及存储介绍
Oracle服务器及存储介绍
Ethan M. Liu
 
Oracle Security 101
Oracle Security 101Oracle Security 101
Oracle Security 101
Dahui Feng
 

Similar to 美团技术团队 - 美团网数据仓库的演进 (12)

Something about Kafka - Why Kafka is so fast
Something about Kafka - Why Kafka is so fastSomething about Kafka - Why Kafka is so fast
Something about Kafka - Why Kafka is so fast
 
数据库性能诊断的七种武器
数据库性能诊断的七种武器数据库性能诊断的七种武器
数据库性能诊断的七种武器
 
Nodejs介绍
Nodejs介绍Nodejs介绍
Nodejs介绍
 
Apollo web数据网关demo
Apollo web数据网关demoApollo web数据网关demo
Apollo web数据网关demo
 
20230523- D Forum 智慧工廠新竹- 智雲製造、數位轉型_如何以數據分析為基礎的架構佈局.pdf
20230523- D Forum 智慧工廠新竹- 智雲製造、數位轉型_如何以數據分析為基礎的架構佈局.pdf20230523- D Forum 智慧工廠新竹- 智雲製造、數位轉型_如何以數據分析為基礎的架構佈局.pdf
20230523- D Forum 智慧工廠新竹- 智雲製造、數位轉型_如何以數據分析為基礎的架構佈局.pdf
 
Retrive&amp;rank
Retrive&amp;rankRetrive&amp;rank
Retrive&amp;rank
 
Oracle北大青鸟完全教程
Oracle北大青鸟完全教程Oracle北大青鸟完全教程
Oracle北大青鸟完全教程
 
Build 1 trillion warehouse based on carbon data
Build 1 trillion warehouse based on carbon dataBuild 1 trillion warehouse based on carbon data
Build 1 trillion warehouse based on carbon data
 
分布式索引系统调研
分布式索引系统调研分布式索引系统调研
分布式索引系统调研
 
Oracle db 12c 加速企业转型之十大功能
Oracle db 12c 加速企业转型之十大功能Oracle db 12c 加速企业转型之十大功能
Oracle db 12c 加速企业转型之十大功能
 
Oracle服务器及存储介绍
Oracle服务器及存储介绍Oracle服务器及存储介绍
Oracle服务器及存储介绍
 
Oracle Security 101
Oracle Security 101Oracle Security 101
Oracle Security 101
 

More from 美团点评技术团队

美团点评技术沙龙14:美团云对象存储系统
美团点评技术沙龙14:美团云对象存储系统美团点评技术沙龙14:美团云对象存储系统
美团点评技术沙龙14:美团云对象存储系统
美团点评技术团队
 
美团点评技术沙龙14美团云-Docker平台
美团点评技术沙龙14美团云-Docker平台美团点评技术沙龙14美团云-Docker平台
美团点评技术沙龙14美团云-Docker平台
美团点评技术团队
 
美团点评技术沙龙13-酒旅Hybrid架构体系及演进
美团点评技术沙龙13-酒旅Hybrid架构体系及演进美团点评技术沙龙13-酒旅Hybrid架构体系及演进
美团点评技术沙龙13-酒旅Hybrid架构体系及演进
美团点评技术团队
 
美团点评技术沙龙13-点评Titans框架的设计和实践
美团点评技术沙龙13-点评Titans框架的设计和实践美团点评技术沙龙13-点评Titans框架的设计和实践
美团点评技术沙龙13-点评Titans框架的设计和实践
美团点评技术团队
 
美团点评沙龙12-LBS空间搜索架构的优化历程
美团点评沙龙12-LBS空间搜索架构的优化历程美团点评沙龙12-LBS空间搜索架构的优化历程
美团点评沙龙12-LBS空间搜索架构的优化历程
美团点评技术团队
 
美团点评沙龙012-从零到千万量级的实时物流平台架构实践
美团点评沙龙012-从零到千万量级的实时物流平台架构实践美团点评沙龙012-从零到千万量级的实时物流平台架构实践
美团点评沙龙012-从零到千万量级的实时物流平台架构实践
美团点评技术团队
 
美团点评沙龙 飞行中换引擎--美团配送业务系统的架构演进之路
美团点评沙龙 飞行中换引擎--美团配送业务系统的架构演进之路美团点评沙龙 飞行中换引擎--美团配送业务系统的架构演进之路
美团点评沙龙 飞行中换引擎--美团配送业务系统的架构演进之路
美团点评技术团队
 
美团点评技术沙龙011 - 团购系统流量和容量评估实践
美团点评技术沙龙011 - 团购系统流量和容量评估实践美团点评技术沙龙011 - 团购系统流量和容量评估实践
美团点评技术沙龙011 - 团购系统流量和容量评估实践
美团点评技术团队
 
美团点评技术沙龙011 - 客户端用户体验数据量化
美团点评技术沙龙011 - 客户端用户体验数据量化美团点评技术沙龙011 - 客户端用户体验数据量化
美团点评技术沙龙011 - 客户端用户体验数据量化
美团点评技术团队
 
美团点评技术沙龙011 - 移动app兼容性测试工具Spider
美团点评技术沙龙011 - 移动app兼容性测试工具Spider 美团点评技术沙龙011 - 移动app兼容性测试工具Spider
美团点评技术沙龙011 - 移动app兼容性测试工具Spider
美团点评技术团队
 
美团点评技术沙龙010-美团Atlas实践
美团点评技术沙龙010-美团Atlas实践美团点评技术沙龙010-美团Atlas实践
美团点评技术沙龙010-美团Atlas实践
美团点评技术团队
 
美团点评技术沙龙010-点评RDS系统介绍
美团点评技术沙龙010-点评RDS系统介绍美团点评技术沙龙010-点评RDS系统介绍
美团点评技术沙龙010-点评RDS系统介绍
美团点评技术团队
 
美团点评技术沙龙010-Redis Cluster运维实践
美团点评技术沙龙010-Redis Cluster运维实践美团点评技术沙龙010-Redis Cluster运维实践
美团点评技术沙龙010-Redis Cluster运维实践
美团点评技术团队
 
美团点评技术沙龙010-美团数据库自动化运维系统构建之路
美团点评技术沙龙010-美团数据库自动化运维系统构建之路美团点评技术沙龙010-美团数据库自动化运维系统构建之路
美团点评技术沙龙010-美团数据库自动化运维系统构建之路
美团点评技术团队
 
美团点评技术沙龙09 - 美团外卖中的单量预估及列表优化
美团点评技术沙龙09 - 美团外卖中的单量预估及列表优化美团点评技术沙龙09 - 美团外卖中的单量预估及列表优化
美团点评技术沙龙09 - 美团外卖中的单量预估及列表优化
美团点评技术团队
 
美团点评技术沙龙09 - 美团配送智能调度实践
美团点评技术沙龙09 - 美团配送智能调度实践美团点评技术沙龙09 - 美团配送智能调度实践
美团点评技术沙龙09 - 美团配送智能调度实践
美团点评技术团队
 
美团点评技术沙龙09 - 外卖O2O的用户画像实践
美团点评技术沙龙09 - 外卖O2O的用户画像实践美团点评技术沙龙09 - 外卖O2O的用户画像实践
美团点评技术沙龙09 - 外卖O2O的用户画像实践
美团点评技术团队
 
美团点评技术沙龙09 - 一个用户行为分析产品的设计与实现
美团点评技术沙龙09 - 一个用户行为分析产品的设计与实现美团点评技术沙龙09 - 一个用户行为分析产品的设计与实现
美团点评技术沙龙09 - 一个用户行为分析产品的设计与实现
美团点评技术团队
 
2.美团点评技术沙龙08 微服务是银弹么
2.美团点评技术沙龙08   微服务是银弹么2.美团点评技术沙龙08   微服务是银弹么
2.美团点评技术沙龙08 微服务是银弹么
美团点评技术团队
 
美团点评技术沙龙08 - 分布式监控系统实践
美团点评技术沙龙08 - 分布式监控系统实践美团点评技术沙龙08 - 分布式监控系统实践
美团点评技术沙龙08 - 分布式监控系统实践
美团点评技术团队
 

More from 美团点评技术团队 (20)

美团点评技术沙龙14:美团云对象存储系统
美团点评技术沙龙14:美团云对象存储系统美团点评技术沙龙14:美团云对象存储系统
美团点评技术沙龙14:美团云对象存储系统
 
美团点评技术沙龙14美团云-Docker平台
美团点评技术沙龙14美团云-Docker平台美团点评技术沙龙14美团云-Docker平台
美团点评技术沙龙14美团云-Docker平台
 
美团点评技术沙龙13-酒旅Hybrid架构体系及演进
美团点评技术沙龙13-酒旅Hybrid架构体系及演进美团点评技术沙龙13-酒旅Hybrid架构体系及演进
美团点评技术沙龙13-酒旅Hybrid架构体系及演进
 
美团点评技术沙龙13-点评Titans框架的设计和实践
美团点评技术沙龙13-点评Titans框架的设计和实践美团点评技术沙龙13-点评Titans框架的设计和实践
美团点评技术沙龙13-点评Titans框架的设计和实践
 
美团点评沙龙12-LBS空间搜索架构的优化历程
美团点评沙龙12-LBS空间搜索架构的优化历程美团点评沙龙12-LBS空间搜索架构的优化历程
美团点评沙龙12-LBS空间搜索架构的优化历程
 
美团点评沙龙012-从零到千万量级的实时物流平台架构实践
美团点评沙龙012-从零到千万量级的实时物流平台架构实践美团点评沙龙012-从零到千万量级的实时物流平台架构实践
美团点评沙龙012-从零到千万量级的实时物流平台架构实践
 
美团点评沙龙 飞行中换引擎--美团配送业务系统的架构演进之路
美团点评沙龙 飞行中换引擎--美团配送业务系统的架构演进之路美团点评沙龙 飞行中换引擎--美团配送业务系统的架构演进之路
美团点评沙龙 飞行中换引擎--美团配送业务系统的架构演进之路
 
美团点评技术沙龙011 - 团购系统流量和容量评估实践
美团点评技术沙龙011 - 团购系统流量和容量评估实践美团点评技术沙龙011 - 团购系统流量和容量评估实践
美团点评技术沙龙011 - 团购系统流量和容量评估实践
 
美团点评技术沙龙011 - 客户端用户体验数据量化
美团点评技术沙龙011 - 客户端用户体验数据量化美团点评技术沙龙011 - 客户端用户体验数据量化
美团点评技术沙龙011 - 客户端用户体验数据量化
 
美团点评技术沙龙011 - 移动app兼容性测试工具Spider
美团点评技术沙龙011 - 移动app兼容性测试工具Spider 美团点评技术沙龙011 - 移动app兼容性测试工具Spider
美团点评技术沙龙011 - 移动app兼容性测试工具Spider
 
美团点评技术沙龙010-美团Atlas实践
美团点评技术沙龙010-美团Atlas实践美团点评技术沙龙010-美团Atlas实践
美团点评技术沙龙010-美团Atlas实践
 
美团点评技术沙龙010-点评RDS系统介绍
美团点评技术沙龙010-点评RDS系统介绍美团点评技术沙龙010-点评RDS系统介绍
美团点评技术沙龙010-点评RDS系统介绍
 
美团点评技术沙龙010-Redis Cluster运维实践
美团点评技术沙龙010-Redis Cluster运维实践美团点评技术沙龙010-Redis Cluster运维实践
美团点评技术沙龙010-Redis Cluster运维实践
 
美团点评技术沙龙010-美团数据库自动化运维系统构建之路
美团点评技术沙龙010-美团数据库自动化运维系统构建之路美团点评技术沙龙010-美团数据库自动化运维系统构建之路
美团点评技术沙龙010-美团数据库自动化运维系统构建之路
 
美团点评技术沙龙09 - 美团外卖中的单量预估及列表优化
美团点评技术沙龙09 - 美团外卖中的单量预估及列表优化美团点评技术沙龙09 - 美团外卖中的单量预估及列表优化
美团点评技术沙龙09 - 美团外卖中的单量预估及列表优化
 
美团点评技术沙龙09 - 美团配送智能调度实践
美团点评技术沙龙09 - 美团配送智能调度实践美团点评技术沙龙09 - 美团配送智能调度实践
美团点评技术沙龙09 - 美团配送智能调度实践
 
美团点评技术沙龙09 - 外卖O2O的用户画像实践
美团点评技术沙龙09 - 外卖O2O的用户画像实践美团点评技术沙龙09 - 外卖O2O的用户画像实践
美团点评技术沙龙09 - 外卖O2O的用户画像实践
 
美团点评技术沙龙09 - 一个用户行为分析产品的设计与实现
美团点评技术沙龙09 - 一个用户行为分析产品的设计与实现美团点评技术沙龙09 - 一个用户行为分析产品的设计与实现
美团点评技术沙龙09 - 一个用户行为分析产品的设计与实现
 
2.美团点评技术沙龙08 微服务是银弹么
2.美团点评技术沙龙08   微服务是银弹么2.美团点评技术沙龙08   微服务是银弹么
2.美团点评技术沙龙08 微服务是银弹么
 
美团点评技术沙龙08 - 分布式监控系统实践
美团点评技术沙龙08 - 分布式监控系统实践美团点评技术沙龙08 - 分布式监控系统实践
美团点评技术沙龙08 - 分布式监控系统实践
 

美团技术团队 - 美团网数据仓库的演进