SlideShare a Scribd company logo
1 of 31
Download to read offline
Dm数据仓库架构实践 
Report by 李修鹏 
邮箱:vocadata@foxmail
数据仓库
数据仓库
大数据的变革
数据仓库变化 
• 只能支持战略决策->支持战略决策和战术决策( tactical 
decision ) 
--实时营销&个性化服务
实时主动数据仓库 
(real-time active ddaattaa wwaarreehhoouussee)) 
RTADW
实时主动数据仓库 
• RTADW要集成的数据包括实时数据和历史 
数据两部分。 
• 主动 
--事件、条件、动作(event-condition-action, 
ECA) 
• 实时事件进行主动分析和处理的能力
数据仓库架构介绍
建模角度
基础知识 
• 第二范式(3NF):首先是1NF,另外包含两 
部分内容,一是表必须有一个主键;二是没有 
包含在主键中的列必须完全依赖于主键,而不 
能只依赖于主键的一部分。 
• 第三范式(3NF):首先是2NF,另外非主键
列必须直接依赖于主键,不能存在传递依赖。 
即不能存在:非主键列A 依赖于非主键列B, 
非主键列B 依赖于主键的情况。
基础知识 
• 星型模式 
--性能优势 
--业务模型 
• 雪花型模式 
--属性众多 
--星型模式进一步层次化,减少数据冗余
重复性问题 
交互性问题
数据仓库vs数据集市
数据仓库vs数据集市
Inmon 和Kimball的大辩论 
• Bill Inmon 将数据仓库定义为“一个面向主 
题的、集成的、随时间变化的、非易变的 
用于支持管理的决策过程的数据集合”
数据仓库架构
• 集中式架构 
---标识着数据仓库架构已经进入比较成 
熟的时期
Inmon 和Kimball的大辩论 
• Ralph Kimball 说“数据仓库仅仅是构成它的 
数据集市的联合”,他认为“可以通过一 
系列维数相同的数据集市递增地构建数据 
仓库””
数据仓库架构
• 总线架构
数据仓库架构
• 独立的数据集市架构 
- - -去哪儿事业部一个数据集市 
不是企业内一致的数据,产生信息孤岛 
• 联邦式数据仓库架构 
- - -原有独立数据集市的数据交换
数据仓库架构
HHOOWW WWEE DDOO
需求 
• 数据挖掘->细粒度数据 
• 统计数据->粗粒度数据
建立数据仓库架构
报表展示自定义查询数据分析 
数 
据 
应 
用 
个性化推荐元 
数 
KPI 个性化push 美剧个性化用户画像查询 
点击流数据 
(Click stream) 
数据集市、宽表(DM) 
数据库数据 
(OLTP) 
m 其它数据 
(Other) 
源 
数 
据 
明细数据(DWD) 
数 
据 
仓 
库E 
T 
L 
据 
管 
理 
数 
据 
质 
量 
监 
控 
高粒度汇总数据(DWS) 
数据应用(ST) 
低粒度汇总加工数据(DWB)
DW五层模型架构介绍
 DW五层模型是按照EDW各个应用层次的 
需求进行分层细化而来的,每个层次满 
足不同的应用。 
分为以下5层: 
1. ODS 数据准备层 
2. DWD 数据明细层 
3. DW(B/S) 数据汇总层 
4. DM 数据集市层 
5. ST 数据应用层
DW五层模型架构介绍
ST层 
DM 
数据来源及建模方式服务领域
数据来自DW层,采用维度建 
模,星型架构 
数据来自DW层,采用维度建 
前端报表展现,主题分析, 
KPI报表 
数据挖掘,自定义查询,应 
用集市 
数据ETL过程描述
从DW层的数据进行粗粒度聚 
合汇总;如按年、月、季、 
天对一些维度进行聚合生成 
业务需要的事实数据 
从DW层的数据进行粗粒度聚 
合汇总;按业务需求对事实 
层 
DW层 
DWD层 
ODS层 
模,星型架构 
数据来自DWD层,是DW事实 
层,采用维度建模,星型架 
构,这一层可细分为dwb 和 
dws 
数据来自ODS层,是DW明细 
事实层,数据模型是ODS一致 
数据准备区,数据来源是各 
业务系统的源数据,物理模 
型和业务系统模型一致。 
为EDW提供各种统计汇总数 
据 
为EDW提供各主题业务明细 
数据 
为其它逻辑层提供数据,为 
统一数据视图子系统提供数 
据实时查询 
进行拉宽形成宽表 
从DWD层进行轻度清洗,转换,汇 
总聚合生成DW层数据,如字符合 
并, Cv ,uid,日期, mtype ,合并; 
用代理键取代维度;按各个维度进 
行聚合汇总 
根据ODS增量数据进行merge 
生成全量数据,不做清洗转 
换,保留原始全量数据 
通过移动视频dc中心平台, 
把业务数据抽取落地成文本 
文件,再装载到数据仓库ODS 
层,不做清洗转换
Demo 数据
Demo 数据
Demo 数据
dm数据仓库架构
The next to do 
• 实时窗口 
• 主动决策 
--应用内部通知消息数据 
• 继续改进和优化现有宽表的物理实现
Thanks! 
QQAA

More Related Content

Similar to 移动视频数据仓库建设实践

Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术锐 张
 
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Etu Solution
 
美团技术沙龙03 - 实时数据仓库解决方案
美团技术沙龙03 - 实时数据仓库解决方案美团技术沙龙03 - 实时数据仓库解决方案
美团技术沙龙03 - 实时数据仓库解决方案美团点评技术团队
 
《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdfmarkmind
 
开源+自主开发 - 淘宝软件基础设施构建实践
开源+自主开发  - 淘宝软件基础设施构建实践开源+自主开发  - 淘宝软件基础设施构建实践
开源+自主开发 - 淘宝软件基础设施构建实践Wensong Zhang
 
ClickHouse北京Meetup ClickHouse Best Practice @Sina
ClickHouse北京Meetup ClickHouse Best Practice @SinaClickHouse北京Meetup ClickHouse Best Practice @Sina
ClickHouse北京Meetup ClickHouse Best Practice @SinaJack Gao
 
罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计PMCamp
 
Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)Denodo
 
How to build data warehouse
How to build data warehouseHow to build data warehouse
How to build data warehousejasonfuoo
 
王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计YANGL *
 
Sybase Analytic Appliance
Sybase Analytic ApplianceSybase Analytic Appliance
Sybase Analytic Appliancefocusbi
 
京东实时消息队列JDQ技术实践与探索
京东实时消息队列JDQ技术实践与探索京东实时消息队列JDQ技术实践与探索
京东实时消息队列JDQ技术实践与探索confluent
 
Feed服务架构-新浪微博新员工培训议题
Feed服务架构-新浪微博新员工培训议题Feed服务架构-新浪微博新员工培训议题
Feed服务架构-新浪微博新员工培训议题XiaoJun Hong
 
Build 1 trillion warehouse based on carbon data
Build 1 trillion warehouse based on carbon dataBuild 1 trillion warehouse based on carbon data
Build 1 trillion warehouse based on carbon databoxu42
 
美团数据平台之Kafka应用实践和优化
美团数据平台之Kafka应用实践和优化美团数据平台之Kafka应用实践和优化
美团数据平台之Kafka应用实践和优化confluent
 
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测hdhappy001
 
逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构Denodo
 
用Python实现hadoop任务调度管理
用Python实现hadoop任务调度管理用Python实现hadoop任务调度管理
用Python实现hadoop任务调度管理Leo Zhou
 
cloud_computing.ppt
cloud_computing.pptcloud_computing.ppt
cloud_computing.pptssuser11e449
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里li luo
 

Similar to 移动视频数据仓库建设实践 (20)

Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术
 
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
 
美团技术沙龙03 - 实时数据仓库解决方案
美团技术沙龙03 - 实时数据仓库解决方案美团技术沙龙03 - 实时数据仓库解决方案
美团技术沙龙03 - 实时数据仓库解决方案
 
《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf
 
开源+自主开发 - 淘宝软件基础设施构建实践
开源+自主开发  - 淘宝软件基础设施构建实践开源+自主开发  - 淘宝软件基础设施构建实践
开源+自主开发 - 淘宝软件基础设施构建实践
 
ClickHouse北京Meetup ClickHouse Best Practice @Sina
ClickHouse北京Meetup ClickHouse Best Practice @SinaClickHouse北京Meetup ClickHouse Best Practice @Sina
ClickHouse北京Meetup ClickHouse Best Practice @Sina
 
罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计
 
Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)
 
How to build data warehouse
How to build data warehouseHow to build data warehouse
How to build data warehouse
 
王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计
 
Sybase Analytic Appliance
Sybase Analytic ApplianceSybase Analytic Appliance
Sybase Analytic Appliance
 
京东实时消息队列JDQ技术实践与探索
京东实时消息队列JDQ技术实践与探索京东实时消息队列JDQ技术实践与探索
京东实时消息队列JDQ技术实践与探索
 
Feed服务架构-新浪微博新员工培训议题
Feed服务架构-新浪微博新员工培训议题Feed服务架构-新浪微博新员工培训议题
Feed服务架构-新浪微博新员工培训议题
 
Build 1 trillion warehouse based on carbon data
Build 1 trillion warehouse based on carbon dataBuild 1 trillion warehouse based on carbon data
Build 1 trillion warehouse based on carbon data
 
美团数据平台之Kafka应用实践和优化
美团数据平台之Kafka应用实践和优化美团数据平台之Kafka应用实践和优化
美团数据平台之Kafka应用实践和优化
 
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
 
逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构
 
用Python实现hadoop任务调度管理
用Python实现hadoop任务调度管理用Python实现hadoop任务调度管理
用Python实现hadoop任务调度管理
 
cloud_computing.ppt
cloud_computing.pptcloud_computing.ppt
cloud_computing.ppt
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
 

移动视频数据仓库建设实践