• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
刘昌钰:阿里大数据应用平台
 

刘昌钰:阿里大数据应用平台

on

  • 363 views

BDTC 2013 Beijing China

BDTC 2013 Beijing China

Statistics

Views

Total Views
363
Views on SlideShare
363
Embed Views
0

Actions

Likes
2
Downloads
15
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    刘昌钰:阿里大数据应用平台 刘昌钰:阿里大数据应用平台 Presentation Transcript

    • 阿里大数据应用平台 刘昌钰 @淘铁燕 2013-11-29
    • Agenda • 自我介绍 • 阿里数据平台 • 大数据应用平台 • 挑战与未来
    • 自我介绍 – 刘昌钰 • 阿里巴巴数据平台架构师 • 擅长大系统架构设计 – – – – – – 腾讯TBOSS支付结算平台 财付通业务平台 腾讯海量数仓TDW1.0 淘宝网交易平台 淘数据平台 阿里大数据应用平台 • @淘铁燕 3
    • Agenda • 自我介绍 • 阿里数据平台 • 大数据应用平台 • 挑战与未来
    • 使命:数据给力商业 • 数据平台:数据+云计算 • 围绕数据的“存 通 用” ,大规模降低数据使用 门槛 • 越关联越有价值,越用 越有价值 5
    • 大数据业务 6
    • 大数据业务 数据业务 云梯1 Hadoop 云梯2 ODPS飞天 Galaxy Garuda Hbase OceanBase 计算平台 7
    • 大数据业务 数据业务 TCIF ODS 地理服务 数据服务 数据同步 数据开发 调度生产 元数据 数据质量 应用平台 云梯1 Hadoop 云梯2 ODPS飞天 Galaxy Garuda Hbase OceanBase 计算平台 8
    • Agenda • 自我介绍 • 阿里数据平台 • 大数据应用平台 • 挑战与未来
    • 大数据应用平台 • 数据导入 • 数据开发 • 数据生产 • 数据回流 • 元数据中心 • 数据质量中心
    • 数据同步系统结构 工作流调度 数据同步中心 应用 非 结 构 化 数 据 源 结 构 化 数 据 源 对内数据支 撑: 商业智能与决 策支持 数据导入 非结构化数据 实时流式同步 结构化数据 实时流式同步 结构化数据 离线同步 实时计算 流式数据 计算框架 离线数据 计算框架 MySQL Cluster HBase 搜索引擎 分布式资源池 数据中心 中 间 层 应 用 服 务 器 中 间 件 服 务 产品运营分析 系统运维 对外数据产品: 数据披露 数据产品
    • 日志实时采集 TimeTunel BI报表 Tail file 日志 router broker Tail file 日志 Tail file broker hbase broker broker 日志 manager monitor 数据源 业务监控 云梯2 量子统计 数据魔方 broker hbase broker broker hbase Tail file 云梯1 broker broker 日志 df sw rit er broker 月光宝盒 storm 生意参谋 galaxy 阿里金融 zookeeper 采集 阿拉丁 TT 云计算 实时计算 数据产品 12
    • TT 日志实时采集 日采集40T 峰值1GB/S
    • 结构化数据导入:DataX • 统一数据交换协议 • 插件化开发 Mysql Oracle 云梯1 Hadoop 云梯2 ODPS飞天
    • 大表的实时增量拉取 BI报表 日志 Tail file router broker broker ocean base broker hbase broker mysql oracle manager monitor Db sync df sw rit er 云梯1 业务监控 云梯2 量子统计 broker 数据魔方 broker hbase broker broker hbase broker broker 月光宝盒 storm 生意参谋 galaxy 阿里金融 zookeeper 数据源 采集 阿拉丁 TT 云计算 实时计算 数据产品 15
    • 大数据应用平台 • 数据导入 • 数据开发 • 数据生产 • 数据回流 • 元数据中心 • 数据质量中心
    • 数据开发
    • 开发环境隔离 浏览器 数据开发云 集成开发环境(WEB SDK) 设计器/编辑器 代码 仓库 运行调试 环境 测试环境 自动化测试 元数据 中心 发布 管理 生命周期管理 持续集成 项目管理 集成运维环境 仸务监控 数据质量监控 DEV sandbox QA sandbox 仸务调度系统 仸务调度系统 PRODUCT sandbox 仸务调度系统 数据同步 数据同步 数据同步 计算 网关 同步 网关 计算 网关 同步 网关 计算 网关 计算 计算 计算 存储 存储 存储 同步 网关 图例 物理 部署接口 测试接口 运维接口 18
    • 数据生产(调度)
    • 多实例多周期调度 日常周期调度实例:2013-11-28 • 基于数据血缘的DAG调 度 A B • 日调度、小时调度、月 调度 D G C E H F I J 20
    • 调度跨天依赖 多实例冲突检测 跨天依赖 日常周期调度实例:2013-11-27 日常周期调度实例:2013-11-28 A B D G A E H B C F I D J G C E H F I J 21
    • Mosad生产护航 22
    • 数据开发平台架构 开发 平台 用 户 权 限 中 心 监 控 告 警 代码管理平台 DAG管理 DAG引擎 执行插件 离线计 云梯一 算集群 ODPS 队列调度 状态管理 日志管理 流式计 Galaxy 算集群 生命周 期管理 冷数据 中心 执行服务 运行资源管理 周边系统 元数据 调度服务 资源 管理 引擎 执行 引擎 发布平台 IDE 调度 引擎 运 维 平 台 用户 第三方系统 同步中心 代码管理 实时计 Garuda 算集群 数据地 图
    • 数据生产规模 • 调度仸务数:数万 • 总job数:数十万 • 总执行总时间:万小时 • 逻辑存储 :百PB 日增百TB 24
    • 大数据应用平台 • 数据导入 • 数据开发 • 数据生产 • 数据回流 • 元数据中心 • 数据质量中心
    • DataX 异构数据同步 Hive Server • 仸意数据源 互通 • 日传输量在 20TB Oracle Server Mysql Server Tair 同步 总线 ODPS HBas e File OSS Server OB Server Ocean Base Http Http Server Hbase Server Hive Oracle Mysql ODPS Server • 统一数据交 换协议 • 插件化开发 Tair Server OTS Server OTS Disk Sql Server
    • 挑战-支持海量数据同步 DataX分布式 Master Slave 启动子仸务 数据流向 S M 数 据 源 S S M S 数 据 源 S S S S S M S
    • 挑战 – 海量数据回流生产系统 预sharding 离线同步中心 直达存储 partition 存储 Server partition DataX 存储 Server partition DataX 存储 Server partition DataX partition DataX 存储 Server partition DataX 存储 Server partition 海量数据 DataX DataX 存储 Server 路由 层 存储 Server ODPSOTS 80亿条记录 2个小时传输完毕
    • 大数据应用平台 • 数据导入 • 数据开发 • 数据生产 • 数据回流 • 元数据中心 • 数据质量中心
    • 元数据中心 业务线 (商业智能、小微金融等) 开放API 事件订阅/通知 元数据中心 图搜索 元数据服务 元数据 资源库 元数据驱动 事件中心 事件订阅 /通知 ODPS 驱动 Hive 驱动 ...... 元数据及血缘关系 同步中心 DataX 数据系统 TT DT ODPS 云梯1 ...... HBase,OTS...30
    • 元数据中心 Servic e iDB 云梯1 odps alipay hadoop Garuda OTS HBase myfox OceanBase 日志 hive脚本 odps脚本 DataX DT Task TT DBSync 质量 安全 生产 计量 API Hadoop 数据字典 App iSearch 全文检索 名称、标签、分类等 系统、包、数据表、 字段、分区等 Neo4j 数据地图 血缘 表级、字段级、分区 级 血缘追溯、影响分析 等 Garuda 数据特征 Dashboard 数据量、访问热度、 标签及用户行为等 指标体系,统计分析, 监控预警
    • 元数据中心应用
    • 数据地图
    • 数据地图
    • 大数据应用平台 • 数据导入 • 数据开发 • 数据生产 • 数据回流 • 元数据中心 • 数据质量中心
    • 数据质量中心 天枢 天网 DQC SDK 元数据 中心 USER(用户) DQC Web App DQC Service 监控告警 中心 样本采集 DQC CENTER 云梯1 云梯2 实时(流式)
    • DQC流程 调度 2. SDK 触发检验请求 1. 规则配置 4. 返回检验结果 5. 调度根据检验 决定是否阻断子 DQC SERVICE 用户 3. 样本采集 云梯1 | 云梯2 | 流式 样本采集
    • Agenda • 自我介绍 • 阿里数据平台 • 大数据应用平台 • 挑战与未来
    • 挑战与未来 • • • • • • 稳定性 效率 对外开放 数据质量 可管理性 易用门槛 39
    • 例子:同步中心 • • • • DataX迁移Dbsync:效率 对接MC和iDB:变更透明 稳定性 同步接入DQC:数据质量 服务化:接入门槛 40
    • Thanks! 最复杂的大数据应用场景 等你来挑战自己 http://www.alidata.org/ @淘铁燕 tieyan.lcy@taobao.com