阿里大数据应用平台
刘昌钰
@淘铁燕
2013-11-29
Agenda
• 自我介绍
• 阿里数据平台
• 大数据应用平台
• 挑战与未来
自我介绍 – 刘昌钰
• 阿里巴巴数据平台架构师
• 擅长大系统架构设计
–
–
–
–
–
–

腾讯TBOSS支付结算平台
财付通业务平台
腾讯海量数仓TDW1.0
淘宝网交易平台
淘数据平台
阿里大数据应用平台

• @淘铁燕
3
Agenda
• 自我介绍
• 阿里数据平台
• 大数据应用平台
• 挑战与未来
使命:数据给力商业
• 数据平台:数据+云计算
• 围绕数据的“存 通 用”
,大规模降低数据使用
门槛
• 越关联越有价值,越用
越有价值

5
大数据业务

6
大数据业务

数据业务

云梯1
Hadoop

云梯2
ODPS飞天

Galaxy

Garuda

Hbase

OceanBase

计算平台

7
大数据业务
数据业务
TCIF

ODS

地理服务

数据服务

数据同步

数据开发

调度生产

元数据

数据质量

应用平台
云梯1
Hadoop

云梯2
ODPS飞天

Galaxy

Garuda

Hbase

OceanBa...
Agenda
• 自我介绍
• 阿里数据平台
• 大数据应用平台
• 挑战与未来
大数据应用平台
• 数据导入
• 数据开发
• 数据生产
• 数据回流

• 元数据中心
• 数据质量中心
数据同步系统结构
工作流调度
数据同步中心

应用
非
结
构
化
数
据
源
结
构
化
数
据
源

对内数据支
撑:
商业智能与决
策支持

数据导入
非结构化数据
实时流式同步
结构化数据
实时流式同步

结构化数据
离线同步

实时计...
日志实时采集 TimeTunel

BI报表
Tail
file

日志

router
broker

Tail
file

日志

Tail
file

broker

hbase

broker
broker

日志

manager m...
TT 日志实时采集

日采集40T 峰值1GB/S
结构化数据导入:DataX

• 统一数据交换协议
• 插件化开发

Mysql

Oracle

云梯1
Hadoop

云梯2
ODPS飞天
大表的实时增量拉取

BI报表
日志

Tail
file

router
broker

broker

ocean
base

broker

hbase

broker

mysql
oracle

manager monitor

Db...
大数据应用平台
• 数据导入
• 数据开发
• 数据生产
• 数据回流

• 元数据中心
• 数据质量中心
数据开发
开发环境隔离
浏览器

数据开发云

集成开发环境(WEB SDK)
设计器/编辑器

代码
仓库

运行调试
环境

测试环境
自动化测试

元数据
中心

发布
管理

生命周期管理

持续集成

项目管理

集成运维环境
仸务监控
数据质...
数据生产(调度)
多实例多周期调度
日常周期调度实例:2013-11-28

• 基于数据血缘的DAG调
度

A
B

• 日调度、小时调度、月
调度

D
G

C
E

H

F
I

J

20
调度跨天依赖
多实例冲突检测

跨天依赖

日常周期调度实例:2013-11-27

日常周期调度实例:2013-11-28

A
B
D
G

A

E
H

B

C
F
I

D
J

G

C
E

H

F
I

J

21
Mosad生产护航

22
数据开发平台架构
开发
平台

用
户
权
限
中
心

监
控
告
警

代码管理平台

DAG管理

DAG引擎

执行插件

离线计 云梯一
算集群

ODPS

队列调度

状态管理

日志管理

流式计 Galaxy
算集群

生命周...
数据生产规模
• 调度仸务数:数万
• 总job数:数十万
• 总执行总时间:万小时

• 逻辑存储 :百PB 日增百TB
24
大数据应用平台
• 数据导入
• 数据开发
• 数据生产
• 数据回流

• 元数据中心
• 数据质量中心
DataX 异构数据同步

Hive
Server

• 仸意数据源
互通
• 日传输量在
20TB

Oracle
Server

Mysql
Server

Tair

同步
总线

ODPS

HBas
e

File

OSS
Serv...
挑战-支持海量数据同步
DataX分布式

Master

Slave

启动子仸务

数据流向

S
M
数
据
源

S

S

M

S

数
据
源

S
S

S

S

S
M

S
挑战 – 海量数据回流生产系统

预sharding

离线同步中心

直达存储

partition

存储 Server

partition

DataX

存储 Server

partition

DataX

存储 Server

...
大数据应用平台
• 数据导入
• 数据开发
• 数据生产
• 数据回流

• 元数据中心
• 数据质量中心
元数据中心
业务线 (商业智能、小微金融等)
开放API

事件订阅/通知

元数据中心
图搜索

元数据服务

元数据
资源库

元数据驱动

事件中心

事件订阅
/通知

ODPS
驱动

Hive
驱动

......

元数据及血缘关...
元数据中心
Servic
e
iDB
云梯1
odps
alipay
hadoop
Garuda
OTS
HBase
myfox
OceanBase
日志
hive脚本
odps脚本
DataX
DT Task
TT
DBSync

质量
安全...
元数据中心应用
数据地图
数据地图
大数据应用平台
• 数据导入
• 数据开发
• 数据生产
• 数据回流

• 元数据中心
• 数据质量中心
数据质量中心
天枢

天网

DQC SDK
元数据
中心

USER(用户)

DQC Web App
DQC Service

监控告警
中心

样本采集
DQC CENTER

云梯1

云梯2

实时(流式)
DQC流程
调度
2. SDK 触发检验请求

1. 规则配置

4. 返回检验结果

5. 调度根据检验
决定是否阻断子

DQC SERVICE

用户
3. 样本采集

云梯1 | 云梯2 | 流式

样本采集
Agenda
• 自我介绍
• 阿里数据平台
• 大数据应用平台
• 挑战与未来
挑战与未来
•
•
•
•
•
•

稳定性
效率
对外开放
数据质量
可管理性
易用门槛

39
例子:同步中心
•
•
•
•

DataX迁移Dbsync:效率
对接MC和iDB:变更透明 稳定性
同步接入DQC:数据质量
服务化:接入门槛

40
Thanks!

最复杂的大数据应用场景
等你来挑战自己

http://www.alidata.org/
@淘铁燕
tieyan.lcy@taobao.com
Upcoming SlideShare
Loading in...5
×

刘昌钰:阿里大数据应用平台

854

Published on

BDTC 2013 Beijing China

Published in: Technology
0 Comments
4 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
854
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
71
Comments
0
Likes
4
Embeds 0
No embeds

No notes for slide

刘昌钰:阿里大数据应用平台

  1. 1. 阿里大数据应用平台 刘昌钰 @淘铁燕 2013-11-29
  2. 2. Agenda • 自我介绍 • 阿里数据平台 • 大数据应用平台 • 挑战与未来
  3. 3. 自我介绍 – 刘昌钰 • 阿里巴巴数据平台架构师 • 擅长大系统架构设计 – – – – – – 腾讯TBOSS支付结算平台 财付通业务平台 腾讯海量数仓TDW1.0 淘宝网交易平台 淘数据平台 阿里大数据应用平台 • @淘铁燕 3
  4. 4. Agenda • 自我介绍 • 阿里数据平台 • 大数据应用平台 • 挑战与未来
  5. 5. 使命:数据给力商业 • 数据平台:数据+云计算 • 围绕数据的“存 通 用” ,大规模降低数据使用 门槛 • 越关联越有价值,越用 越有价值 5
  6. 6. 大数据业务 6
  7. 7. 大数据业务 数据业务 云梯1 Hadoop 云梯2 ODPS飞天 Galaxy Garuda Hbase OceanBase 计算平台 7
  8. 8. 大数据业务 数据业务 TCIF ODS 地理服务 数据服务 数据同步 数据开发 调度生产 元数据 数据质量 应用平台 云梯1 Hadoop 云梯2 ODPS飞天 Galaxy Garuda Hbase OceanBase 计算平台 8
  9. 9. Agenda • 自我介绍 • 阿里数据平台 • 大数据应用平台 • 挑战与未来
  10. 10. 大数据应用平台 • 数据导入 • 数据开发 • 数据生产 • 数据回流 • 元数据中心 • 数据质量中心
  11. 11. 数据同步系统结构 工作流调度 数据同步中心 应用 非 结 构 化 数 据 源 结 构 化 数 据 源 对内数据支 撑: 商业智能与决 策支持 数据导入 非结构化数据 实时流式同步 结构化数据 实时流式同步 结构化数据 离线同步 实时计算 流式数据 计算框架 离线数据 计算框架 MySQL Cluster HBase 搜索引擎 分布式资源池 数据中心 中 间 层 应 用 服 务 器 中 间 件 服 务 产品运营分析 系统运维 对外数据产品: 数据披露 数据产品
  12. 12. 日志实时采集 TimeTunel BI报表 Tail file 日志 router broker Tail file 日志 Tail file broker hbase broker broker 日志 manager monitor 数据源 业务监控 云梯2 量子统计 数据魔方 broker hbase broker broker hbase Tail file 云梯1 broker broker 日志 df sw rit er broker 月光宝盒 storm 生意参谋 galaxy 阿里金融 zookeeper 采集 阿拉丁 TT 云计算 实时计算 数据产品 12
  13. 13. TT 日志实时采集 日采集40T 峰值1GB/S
  14. 14. 结构化数据导入:DataX • 统一数据交换协议 • 插件化开发 Mysql Oracle 云梯1 Hadoop 云梯2 ODPS飞天
  15. 15. 大表的实时增量拉取 BI报表 日志 Tail file router broker broker ocean base broker hbase broker mysql oracle manager monitor Db sync df sw rit er 云梯1 业务监控 云梯2 量子统计 broker 数据魔方 broker hbase broker broker hbase broker broker 月光宝盒 storm 生意参谋 galaxy 阿里金融 zookeeper 数据源 采集 阿拉丁 TT 云计算 实时计算 数据产品 15
  16. 16. 大数据应用平台 • 数据导入 • 数据开发 • 数据生产 • 数据回流 • 元数据中心 • 数据质量中心
  17. 17. 数据开发
  18. 18. 开发环境隔离 浏览器 数据开发云 集成开发环境(WEB SDK) 设计器/编辑器 代码 仓库 运行调试 环境 测试环境 自动化测试 元数据 中心 发布 管理 生命周期管理 持续集成 项目管理 集成运维环境 仸务监控 数据质量监控 DEV sandbox QA sandbox 仸务调度系统 仸务调度系统 PRODUCT sandbox 仸务调度系统 数据同步 数据同步 数据同步 计算 网关 同步 网关 计算 网关 同步 网关 计算 网关 计算 计算 计算 存储 存储 存储 同步 网关 图例 物理 部署接口 测试接口 运维接口 18
  19. 19. 数据生产(调度)
  20. 20. 多实例多周期调度 日常周期调度实例:2013-11-28 • 基于数据血缘的DAG调 度 A B • 日调度、小时调度、月 调度 D G C E H F I J 20
  21. 21. 调度跨天依赖 多实例冲突检测 跨天依赖 日常周期调度实例:2013-11-27 日常周期调度实例:2013-11-28 A B D G A E H B C F I D J G C E H F I J 21
  22. 22. Mosad生产护航 22
  23. 23. 数据开发平台架构 开发 平台 用 户 权 限 中 心 监 控 告 警 代码管理平台 DAG管理 DAG引擎 执行插件 离线计 云梯一 算集群 ODPS 队列调度 状态管理 日志管理 流式计 Galaxy 算集群 生命周 期管理 冷数据 中心 执行服务 运行资源管理 周边系统 元数据 调度服务 资源 管理 引擎 执行 引擎 发布平台 IDE 调度 引擎 运 维 平 台 用户 第三方系统 同步中心 代码管理 实时计 Garuda 算集群 数据地 图
  24. 24. 数据生产规模 • 调度仸务数:数万 • 总job数:数十万 • 总执行总时间:万小时 • 逻辑存储 :百PB 日增百TB 24
  25. 25. 大数据应用平台 • 数据导入 • 数据开发 • 数据生产 • 数据回流 • 元数据中心 • 数据质量中心
  26. 26. DataX 异构数据同步 Hive Server • 仸意数据源 互通 • 日传输量在 20TB Oracle Server Mysql Server Tair 同步 总线 ODPS HBas e File OSS Server OB Server Ocean Base Http Http Server Hbase Server Hive Oracle Mysql ODPS Server • 统一数据交 换协议 • 插件化开发 Tair Server OTS Server OTS Disk Sql Server
  27. 27. 挑战-支持海量数据同步 DataX分布式 Master Slave 启动子仸务 数据流向 S M 数 据 源 S S M S 数 据 源 S S S S S M S
  28. 28. 挑战 – 海量数据回流生产系统 预sharding 离线同步中心 直达存储 partition 存储 Server partition DataX 存储 Server partition DataX 存储 Server partition DataX partition DataX 存储 Server partition DataX 存储 Server partition 海量数据 DataX DataX 存储 Server 路由 层 存储 Server ODPSOTS 80亿条记录 2个小时传输完毕
  29. 29. 大数据应用平台 • 数据导入 • 数据开发 • 数据生产 • 数据回流 • 元数据中心 • 数据质量中心
  30. 30. 元数据中心 业务线 (商业智能、小微金融等) 开放API 事件订阅/通知 元数据中心 图搜索 元数据服务 元数据 资源库 元数据驱动 事件中心 事件订阅 /通知 ODPS 驱动 Hive 驱动 ...... 元数据及血缘关系 同步中心 DataX 数据系统 TT DT ODPS 云梯1 ...... HBase,OTS...30
  31. 31. 元数据中心 Servic e iDB 云梯1 odps alipay hadoop Garuda OTS HBase myfox OceanBase 日志 hive脚本 odps脚本 DataX DT Task TT DBSync 质量 安全 生产 计量 API Hadoop 数据字典 App iSearch 全文检索 名称、标签、分类等 系统、包、数据表、 字段、分区等 Neo4j 数据地图 血缘 表级、字段级、分区 级 血缘追溯、影响分析 等 Garuda 数据特征 Dashboard 数据量、访问热度、 标签及用户行为等 指标体系,统计分析, 监控预警
  32. 32. 元数据中心应用
  33. 33. 数据地图
  34. 34. 数据地图
  35. 35. 大数据应用平台 • 数据导入 • 数据开发 • 数据生产 • 数据回流 • 元数据中心 • 数据质量中心
  36. 36. 数据质量中心 天枢 天网 DQC SDK 元数据 中心 USER(用户) DQC Web App DQC Service 监控告警 中心 样本采集 DQC CENTER 云梯1 云梯2 实时(流式)
  37. 37. DQC流程 调度 2. SDK 触发检验请求 1. 规则配置 4. 返回检验结果 5. 调度根据检验 决定是否阻断子 DQC SERVICE 用户 3. 样本采集 云梯1 | 云梯2 | 流式 样本采集
  38. 38. Agenda • 自我介绍 • 阿里数据平台 • 大数据应用平台 • 挑战与未来
  39. 39. 挑战与未来 • • • • • • 稳定性 效率 对外开放 数据质量 可管理性 易用门槛 39
  40. 40. 例子:同步中心 • • • • DataX迁移Dbsync:效率 对接MC和iDB:变更透明 稳定性 同步接入DQC:数据质量 服务化:接入门槛 40
  41. 41. Thanks! 最复杂的大数据应用场景 等你来挑战自己 http://www.alidata.org/ @淘铁燕 tieyan.lcy@taobao.com
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×