Submit Search
Upload
移动视频数据仓库建设实践
•
0 likes
•
648 views
Li Map
Follow
移动视频数据仓库建设实践,构建实时主动的数据仓库。
Read less
Read more
Engineering
Report
Share
Report
Share
1 of 31
Download now
Download to read offline
Recommended
商業智慧
商業智慧
brian401777
資訊管理 CH6 資料倉儲、資料探勘與巨量資料分析系統 (Data Warehouse、Data Mining、Big Data Analytic sys...
資訊管理 CH6 資料倉儲、資料探勘與巨量資料分析系統 (Data Warehouse、Data Mining、Big Data Analytic sys...
luna chen
Economics Research Assistant
Economics Research Assistant
Caleb Yoken
Paaaaaaaaaaaaaaaaaaaacheco
Paaaaaaaaaaaaaaaaaaaacheco
normaquinterosneira
Esqueleto
Esqueleto
dambrocisa
La guajira
La guajira
jose quintero
Unpaid Care Work: An Integral Contributor to Gendered Poverty and Intra-Hous...
Unpaid Care Work: An Integral Contributor to Gendered Poverty and Intra-Hous...
Prema Rahman
Viacrucis bu extraordinario noche oscura 2016(1)
Viacrucis bu extraordinario noche oscura 2016(1)
dambrocisa
Recommended
商業智慧
商業智慧
brian401777
資訊管理 CH6 資料倉儲、資料探勘與巨量資料分析系統 (Data Warehouse、Data Mining、Big Data Analytic sys...
資訊管理 CH6 資料倉儲、資料探勘與巨量資料分析系統 (Data Warehouse、Data Mining、Big Data Analytic sys...
luna chen
Economics Research Assistant
Economics Research Assistant
Caleb Yoken
Paaaaaaaaaaaaaaaaaaaacheco
Paaaaaaaaaaaaaaaaaaaacheco
normaquinterosneira
Esqueleto
Esqueleto
dambrocisa
La guajira
La guajira
jose quintero
Unpaid Care Work: An Integral Contributor to Gendered Poverty and Intra-Hous...
Unpaid Care Work: An Integral Contributor to Gendered Poverty and Intra-Hous...
Prema Rahman
Viacrucis bu extraordinario noche oscura 2016(1)
Viacrucis bu extraordinario noche oscura 2016(1)
dambrocisa
Greenplum技术
Greenplum技术
锐 张
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Etu Solution
美团技术沙龙03 - 实时数据仓库解决方案
美团技术沙龙03 - 实时数据仓库解决方案
美团点评技术团队
《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf
markmind
开源+自主开发 - 淘宝软件基础设施构建实践
开源+自主开发 - 淘宝软件基础设施构建实践
Wensong Zhang
ClickHouse北京Meetup ClickHouse Best Practice @Sina
ClickHouse北京Meetup ClickHouse Best Practice @Sina
Jack Gao
罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计
PMCamp
Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)
Denodo
How to build data warehouse
How to build data warehouse
jasonfuoo
王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计
YANGL *
Sybase Analytic Appliance
Sybase Analytic Appliance
focusbi
京东实时消息队列JDQ技术实践与探索
京东实时消息队列JDQ技术实践与探索
confluent
Feed服务架构-新浪微博新员工培训议题
Feed服务架构-新浪微博新员工培训议题
XiaoJun Hong
Build 1 trillion warehouse based on carbon data
Build 1 trillion warehouse based on carbon data
boxu42
美团数据平台之Kafka应用实践和优化
美团数据平台之Kafka应用实践和优化
confluent
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
hdhappy001
逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构
Denodo
用Python实现hadoop任务调度管理
用Python实现hadoop任务调度管理
Leo Zhou
cloud_computing.ppt
cloud_computing.ppt
ssuser11e449
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
li luo
More Related Content
Similar to 移动视频数据仓库建设实践
Greenplum技术
Greenplum技术
锐 张
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Etu Solution
美团技术沙龙03 - 实时数据仓库解决方案
美团技术沙龙03 - 实时数据仓库解决方案
美团点评技术团队
《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf
markmind
开源+自主开发 - 淘宝软件基础设施构建实践
开源+自主开发 - 淘宝软件基础设施构建实践
Wensong Zhang
ClickHouse北京Meetup ClickHouse Best Practice @Sina
ClickHouse北京Meetup ClickHouse Best Practice @Sina
Jack Gao
罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计
PMCamp
Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)
Denodo
How to build data warehouse
How to build data warehouse
jasonfuoo
王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计
YANGL *
Sybase Analytic Appliance
Sybase Analytic Appliance
focusbi
京东实时消息队列JDQ技术实践与探索
京东实时消息队列JDQ技术实践与探索
confluent
Feed服务架构-新浪微博新员工培训议题
Feed服务架构-新浪微博新员工培训议题
XiaoJun Hong
Build 1 trillion warehouse based on carbon data
Build 1 trillion warehouse based on carbon data
boxu42
美团数据平台之Kafka应用实践和优化
美团数据平台之Kafka应用实践和优化
confluent
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
hdhappy001
逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构
Denodo
用Python实现hadoop任务调度管理
用Python实现hadoop任务调度管理
Leo Zhou
cloud_computing.ppt
cloud_computing.ppt
ssuser11e449
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
li luo
Similar to 移动视频数据仓库建设实践
(20)
Greenplum技术
Greenplum技术
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
美团技术沙龙03 - 实时数据仓库解决方案
美团技术沙龙03 - 实时数据仓库解决方案
《数据库发展研究报告-解读(2023年)》.pdf
《数据库发展研究报告-解读(2023年)》.pdf
开源+自主开发 - 淘宝软件基础设施构建实践
开源+自主开发 - 淘宝软件基础设施构建实践
ClickHouse北京Meetup ClickHouse Best Practice @Sina
ClickHouse北京Meetup ClickHouse Best Practice @Sina
罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计
Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)
How to build data warehouse
How to build data warehouse
王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计
Sybase Analytic Appliance
Sybase Analytic Appliance
京东实时消息队列JDQ技术实践与探索
京东实时消息队列JDQ技术实践与探索
Feed服务架构-新浪微博新员工培训议题
Feed服务架构-新浪微博新员工培训议题
Build 1 trillion warehouse based on carbon data
Build 1 trillion warehouse based on carbon data
美团数据平台之Kafka应用实践和优化
美团数据平台之Kafka应用实践和优化
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
陈跃国:Sql on-hadoop结构化大数据分析系统性能评测
逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构
用Python实现hadoop任务调度管理
用Python实现hadoop任务调度管理
cloud_computing.ppt
cloud_computing.ppt
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
移动视频数据仓库建设实践
1.
Dm数据仓库架构实践 Report by
李修鹏 邮箱:vocadata@foxmail
2.
数据仓库
3.
数据仓库
4.
大数据的变革
5.
数据仓库变化 • 只能支持战略决策->支持战略决策和战术决策(
tactical decision ) --实时营销&个性化服务
6.
实时主动数据仓库 (real-time active
ddaattaa wwaarreehhoouussee)) RTADW
7.
实时主动数据仓库 • RTADW要集成的数据包括实时数据和历史
数据两部分。 • 主动 --事件、条件、动作(event-condition-action, ECA) • 实时事件进行主动分析和处理的能力
8.
数据仓库架构介绍
9.
建模角度
10.
基础知识 • 第二范式(3NF):首先是1NF,另外包含两
部分内容,一是表必须有一个主键;二是没有 包含在主键中的列必须完全依赖于主键,而不 能只依赖于主键的一部分。 • 第三范式(3NF):首先是2NF,另外非主键 列必须直接依赖于主键,不能存在传递依赖。 即不能存在:非主键列A 依赖于非主键列B, 非主键列B 依赖于主键的情况。
11.
基础知识 • 星型模式
--性能优势 --业务模型 • 雪花型模式 --属性众多 --星型模式进一步层次化,减少数据冗余
12.
重复性问题 交互性问题
13.
数据仓库vs数据集市
14.
数据仓库vs数据集市
15.
Inmon 和Kimball的大辩论 •
Bill Inmon 将数据仓库定义为“一个面向主 题的、集成的、随时间变化的、非易变的 用于支持管理的决策过程的数据集合”
16.
数据仓库架构 • 集中式架构 ---标识着数据仓库架构已经进入比较成
熟的时期
17.
Inmon 和Kimball的大辩论 •
Ralph Kimball 说“数据仓库仅仅是构成它的 数据集市的联合”,他认为“可以通过一 系列维数相同的数据集市递增地构建数据 仓库””
18.
数据仓库架构 • 总线架构
19.
数据仓库架构 • 独立的数据集市架构 -
- -去哪儿事业部一个数据集市 不是企业内一致的数据,产生信息孤岛 • 联邦式数据仓库架构 - - -原有独立数据集市的数据交换
20.
数据仓库架构
21.
HHOOWW WWEE DDOO
22.
需求 • 数据挖掘->细粒度数据
• 统计数据->粗粒度数据
23.
建立数据仓库架构 报表展示自定义查询数据分析 数 据
应 用 个性化推荐元 数 KPI 个性化push 美剧个性化用户画像查询 点击流数据 (Click stream) 数据集市、宽表(DM) 数据库数据 (OLTP) m 其它数据 (Other) 源 数 据 明细数据(DWD) 数 据 仓 库E T L 据 管 理 数 据 质 量 监 控 高粒度汇总数据(DWS) 数据应用(ST) 低粒度汇总加工数据(DWB)
24.
DW五层模型架构介绍 DW五层模型是按照EDW各个应用层次的 需求进行分层细化而来的,每个层次满
足不同的应用。 分为以下5层: 1. ODS 数据准备层 2. DWD 数据明细层 3. DW(B/S) 数据汇总层 4. DM 数据集市层 5. ST 数据应用层
25.
DW五层模型架构介绍 ST层 DM 数据来源及建模方式服务领域 数据来自DW层,采用维度建
模,星型架构 数据来自DW层,采用维度建 前端报表展现,主题分析, KPI报表 数据挖掘,自定义查询,应 用集市 数据ETL过程描述 从DW层的数据进行粗粒度聚 合汇总;如按年、月、季、 天对一些维度进行聚合生成 业务需要的事实数据 从DW层的数据进行粗粒度聚 合汇总;按业务需求对事实 层 DW层 DWD层 ODS层 模,星型架构 数据来自DWD层,是DW事实 层,采用维度建模,星型架 构,这一层可细分为dwb 和 dws 数据来自ODS层,是DW明细 事实层,数据模型是ODS一致 数据准备区,数据来源是各 业务系统的源数据,物理模 型和业务系统模型一致。 为EDW提供各种统计汇总数 据 为EDW提供各主题业务明细 数据 为其它逻辑层提供数据,为 统一数据视图子系统提供数 据实时查询 进行拉宽形成宽表 从DWD层进行轻度清洗,转换,汇 总聚合生成DW层数据,如字符合 并, Cv ,uid,日期, mtype ,合并; 用代理键取代维度;按各个维度进 行聚合汇总 根据ODS增量数据进行merge 生成全量数据,不做清洗转 换,保留原始全量数据 通过移动视频dc中心平台, 把业务数据抽取落地成文本 文件,再装载到数据仓库ODS 层,不做清洗转换
26.
Demo 数据
27.
Demo 数据
28.
Demo 数据
29.
dm数据仓库架构
30.
The next to
do • 实时窗口 • 主动决策 --应用内部通知消息数据 • 继续改进和优化现有宽表的物理实现
31.
Thanks! QQAA
Download now