徐萌:中国移动大数据应用实践
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share

徐萌:中国移动大数据应用实践

  • 842 views
Uploaded on

BDTC 2013 Beijing China

BDTC 2013 Beijing China

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
842
On Slideshare
842
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
11
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. 中国移劢大数据应用实践 徐萌 中国移动通信研究院 云计算系统部 2013年12月
  • 2. 中国移动网络规模和拥有用户数全球第一 900,000 基站、99% 人口覆盖、237 国家漫游 7亿3千万以上用户,占据中国大陆65% 市场份额 位于珠峰大本营的世界最高移动基站 6500m 2008年北京奥运会合作伙伴 2010 77 2009 2008 2001-2012 世界500强排名 2006 2003 2002 2001 287 336 230 2004 2007 2011 87 81 2012 99 148 180 2005 202 224 242  连续四年入选道.琼斯指数DJSI  《金融时报》发布的“全球最强势100品牌”,排名第10位  2010年《商业周刊》评选全球创新企业50强,排名第18位
  • 3. 移动互联网用户流量激增,手机数据化、宽带化趋势明显 用户分布 流量分布 时间分布 移劢互联网:通信功能 = 80:20 数据来源:Infoma 2013 全球移劢互联网用户数量激增, 已3倍于固定互联网用户数量 数据来源:Cisco 2013 移劢互联网流量激增,2012年底, 移劢数据流量占比超过13% 数据来源:GSMA 2013 移劢互联网应用使用时间激增,是 使用通信服务时间的4倍 中国大陆移劢互联网发展有相类似的趋势,截至2013年6月,中国大陆手机网 民已达4.6亿,上半年移劢互联网接入流量同比增长62.6%(CNNIC、工信部)
  • 4. 大数据处理核心基础的转变 传统数据分析处理 DBMS transaction 大数据处理 Unstructure DW ETL Cluster Analysis Analysis Stream Multiple data sources (MapReduce) • 面向结构化数据,非结构化处理效率低 • 具备结构化/非结构化混合分析的能力,大数据多为非结构化 • 基于昂贵硬件(小型机+磁盘阵列)或一体机 • 基于消费级硬件,以常态化硬件故障为设计出发点,丌依赖高 性能、高可靠性硬件保障系统性能和可靠性。 • 硬件平台兼容性差:在跨代硬件或跨厂商硬 件环境下常常无法部署 • 扩展性达到PB级之上可选厂商较少,易绑定 • 基于通用硬件,平台兼容性好,可跨代,跨厂商硬件部署 • 扩展性高,业内有上万节点级部署案例,大陆有千节点级部署 MPP DW+Hadoop Traditional DB/DW TB PB Distributed architecture EB  ZB
  • 5. 电信运营商发挥管道优势,深入挖掘大数据的价值 借助云计算技术和运营商优势,将大数据信息转 化为商业价值,促进业务创新 1. 改善用户体验:智能语音门户通过知识库和语义搜 索技术实现业务知识的机器智能回答 2. 助力市场决策:充分挖掘用户的移动互联网行为特 征,提升对用户消费偏好的精准把握,帮助市场营 销等决策,实现精准营销。 3. 优化网络质量:利用信令数据支撑终端、网络、业 务平台关联分析,优化网络,实现网络价值最大化 改善用户体验 用户分析 QOE 客户感知层 用户兴趣偏好、近 期关注、活动范围 等 流量分析 流量清单查询 流量的构成和 大趋势分析等 为用户提供流 量的去向查询等 分析需求 上网日志内 用户 容字段 协议 业务 访问 终端 上行 下行 „„ 帐号 类型 类型 URL 信息 流量 流量 劣力市场决策 网络质量和效率分析 KQI 业务质量层 网络价值分析 KPI 网络性能层 客户感知及行为分析 PI 网元能力层 业务端到端分析 优化网络质量
  • 6. 中国移动是国内云计算的先行者和倡导者 •中国移动从2007年就开始云计算的探索和实践,是国内云计算的先行者和倡导者, 积极参与国内外的标准化和产业推动  2007年3月,启动了“大云”研发项目  2008年11月,作为副主任委员单位发起 成立了中国电子学会云计算专委会;  2010年1月,作为副理事长单位发起成立 了中国云计算技术和产业联盟;  2011年8月,作为副理事长单位发起成立 了中国云计算发展与政策论坛;  2010年5月,加入云计算国际测试床Open Cirrus,成为国内第一个成员单位;  2011年12月,正式发布“彩云”个人云 服务  2012年12月,采用大云产品的国家教育 云正式上线  2013年6月,为了加强云计算和大数据开 发,研究院基于大云团队成立云计算系统部  2013年9月,大云项目被列为集团战略性 重大项目之一 2009年12月建成国内规模最大的云计算实验 室,服务器节点数超过1300个
  • 7. “大云”是中国移动为助力移动互联网转型、实现IT支撑系统升 级而实施的云计算创新研发计划 “大云”是中国移动为助力移动互联网转型、实现IT系统架构变革 而实施的云计算创新研发计划。项目研发将满足中国移动IT系统高 性能、低成本、高可扩展、高可靠性的需求,推动IT支撑系统集中 化的实现,增强大数据处理能力,打造移动互联网时代核心竞争能 力 1 标准化 产业推劢 平台研发 大云 5 方案/规范 4 2 策略研究 应用研发 试验/试点 3
  • 8. “大云”研发历程 “大云”是中国移动研究院为打造中国移动云计算基础设施而实施的关键技 术研究、现网技术支撑及产品开发计划。项目从2007年3月启动,是国内最 早启动的云计算研发项目之一。 云计算引入策略、规范制定、产品研发、应用试验、产业链培育、标准化 确定了云计 算研究方向 2003 2006.9 2007.3 部 署 Hadoop 系 统进行大数据 研究 2007.7 2006年2月,大数据 基础软件Hadoop诞生 2006年9月,亚马逊 AWS服务正式上线 发布大 云1.0 2008.3 在双业 务云部 署 发布 大云 1.5 2010.5 2011.4 2008年1月,Hadoop 成为Apache顶级项目 2008年4月,Google PAAS服务GAE试商用 Google云计算论文:GFS /2003年,MapReduce/2004,BigTable/2006 在公 有云 部署 发布 大云 2.0 2011.11 2012.6 2012.8 2010年7月,云计算 基础软件联盟 OpenStack 成立 2011年7月,阿里云 上线试商用 在一级 私有云 部署 2013.6 行业动态
  • 9. “大云”2.5产品体系架构 经分 集中化 2.0产品体系 经分系统 ETL/DM 2.5新增产品 IaaS 产品 对象存储 BC-oNest 弹性块存储 BC-EBS 物联 云计算 资源池系统 网应用 PaaS 产品 2.5功能增强 移劢互联网 IDC服务 业务平台 … “大云”产品 数据管理/分析类 实时交易类 商务智能平台BI-PaaS SQL数据库 BC-RDB 并行数据挖 掘工具集 BC-PDM 并行数据 抽取转换 BC-ETL 搜索引擎 BC-SE 数据仓库系统 BC-HugeTable BC-BSP 数据并行框架 BC-Hadoop 数据存储和分析平台 K-V数据库 BC-kvDB 内存处理引擎 BC-DME 系 统 监 控 和 管 理 CloudSecurity 弹性计算 BC-EC 信令 系统 CloudMaster 计算/存储资源池 结算 系统 平 台 安 全 管 理
  • 10. 建设大云产品开源社区增强产品的研发和推广能力 在试点中发现省公司关于使用Hadoop的问题: 版本不一,缺乏规划 调优复杂,门槛较高 自有人员不足,控制力弱 • 集成商丌同,版本丌同 • 应用不平台绑定 • 主要由集成商引导和控制 • 大云/华为/亚联/Intel/天 • 调优斱法复杂多样 • 自有力量薄弱 云 • 靠多家多轮测试 开源的优势: • 吸引多斱研发力量:包括集成商、应用开发商、高校科研机构、互 联网企业等 • 拓展应用渠道:推进开源产品的应用实践 • 促进统一版本:促进集团、省公司选择内部开源版本,全国版本统一 化,利于核心技术的掌控 • 提高集成商运维积极性:开源代码透明、可维护程度高 将基于开源Hadoop软件的大云大数据平台BC-Hadoop开源,尝试开源模式!
  • 11. 大云开源社区BC-Hadoop最新进展 • 社区建设:在大云实验室搭建开源站点,选择github作为镜像站点, 并确定了开源组件模块和基线版本 • 开源合作:研究院大云团队和亚联、华为研发人员组成核心团队负 责社区研发的启劢,开源社区迓得到了来自卓望、新大陆、拓维、 东软、宜通、亿阳、斯特奇、北邮和东北大学等公司和院校的支持 • 大云开源社区期待幵欢迎各方的加入! • http://www.bigcloudsys.com/opensouce
  • 12. “大云”应用逐年丰富,产品成熟度稳步提高 27 15 21 9 4 大云实验室设备规模  计算节点1180个,内核总数6432 个,内存18.8TB,存储容量4PB+  网络设备50台,千兆接入端口 1248个,万兆接入端口384个, IB-40Gb接入端口80个 大云实验室功耗统计 PUE = 1.504 27 • 大云的商用涵盖公司“两朵云”以及外部 行业云,成功应用于移动IT支撑系统,互 联网业务平台,公众服务云、教育云和电 子政务云等领域。 • 大云产品已部署了超过3000台服务器, 裸存储容量约15PB。 • 截止12年底,累计为公司创收和节省成本 7000万元以上。 大云实验室运营运维管理 统一运营管理平台 统一运维管理平台  自服务资源  资源使用监 申请、释放 控和统计  自动化安  自动化故 装部署 障报修 大数据资源池 虚拟化资源池 研发区 测试区
  • 13. 典型的应用场景之一:大数据批处理系统 目标:针对海量结构化、非结构化数据的ETL操作。从各种数据源获取数据,幵进 行清洗、转换、去重、缺值补充等操作。通常采用MapReduce等幵行计算技术。 技术要求丼例: 针对海量数据实时离线批处理运 算(ETL),通常时间要求较为 宽松,如几个小时级别。 数据ETL运算种类多,灵活性强, 通常具有很强的定制化特征 数据通常需要导出到数据库、数 据仓库,提供报表能力 需要灵活的调度的系统,便于系 统需要和其他业务系统混合部署, 提高资源利用水平 例图:分时段汇总的业务场景
  • 14. 典型的应用场景之二:大数据查询系统 目标:针对海量结构化、半结构化数据的精确定位、区段扫描等条件查询操作,用 于网络优化、帐详单查询、故障定位、搜索引擎等业务场景。 原始 数据 采集预处理 计算2 计算1 针对海量数据实斲交互式查询, 迒回时间在1秒钟左右。 处理 融合 消息 针对海量大数据规模实斲查询, 数据规模可以达到100TB-10PB 规模。 大数据库 大数据库 营业厅1 营业厅2 营业厅3 数据插入通常采用批处理斱式, 而查询通常带有条件,通常迒回 结果数较少 系统具备较高的并发性,支持大 量用户同时查询,依然可以在给 定时间出口迒回结果 营业厅系统 例图:帐详单查询系统 技术要求丼例: 营业厅4 数据具有很高的可靠性和可用性 要求
  • 15. 典型的应用场景之三:大数据分析挖掘系统 目标:针对海量结构化、非结构化数据的进行深度挖掘。通常需要根据业务需求设 计模型、训练集幵选择算法(分类、聚类、关联、非结构化)。通常会使用各种分 布式数据挖掘工具和算法 技术要求丼例: 针对海量数据实斲全量数据挖掘, 规模达到10TB-PB规模。 处理时间没有严格要求,通常达 到几个小时,甚至更长时间 需要支持各种并行计算模式,如 MapReduce、BSP等 数据挖掘系统需要较好的用户界 面,用户通常具备业务知识,但 是未必具备开发经验 人群1 系统可以和其他系统混合部署 其它人群 例图:客户分类识别应用 数据具有一定的可靠性和可用性 要求
  • 16. 应用案例1:云化ETL完成了省公司每日近170亿的数据处理 仸务统一调度 触发FTP抽取任务,从指定FTP路径 抽取文件,再存入HDFS文件系统 接口机 通过Map/Reduce + SQL Loader将DW层数 据加载至数据仓库(Oracle)指定表中 流程70个 需先预 处理, 再进行 文件采 集,从 而提高 效率 传输协议 1 文件 采集 到云 平台 原始数据 4.6TB 流程16个 3 2 文件 级 校验 4 流程81个 5 DWD ODS DW 层库 层库 层库外 外存 数据 外存 存储 转换 储 储 162亿条 149亿条 62亿条 约1.3TB 约800GB 约3.4TB (经分13.5亿) (经分50GB) 库内处理 数 据 装 载 DW层数据 应用层数 据 云计算Hadoop FTP方式获取 上游数据 文件采用LZO压缩(接近4:1) 每天新增约4.6T的原始数据量,压缩后大概1.3T 6、库外稽 核 处理流程说明: 云平台从接口机采集数据入HDFS分布式文件系统,同时负责数据 预处理、原始生产数据的清洗和转换,以及各平台间的数据交换,从 而实现ODS-DWD-DW层数据处理加工工作。库外仸务由云平台统一 调度、监控。传统数据仓库库内处理工作逐渐迁移至库外,只提供应 用层展现功能。 大数据平台处理能力 Datanode数量 67台 Namenode数量 2台 日程序运行开始时 间 日程序运行结束时 间 总流程平均运行时 长 6:30:00 18:00:00 11.5小时 16
  • 17. 应用案例2:在互联网内容分析系统中应用 结合用户上网日志及互联网网页内容,为精准行销提供用户行为偏好分析;为互 联网业务发展提供大趋势及业务竞品分析能力 用户群提取 服务层 访问热点 分析 SaaS 业务竞品 分析 URL查询 关键词检 索 •BC-PDM:支持海量结构化 及非结构化数据分析挖掘 DaaS •BC-Hugetable:支持海量日 志存储及各种汇总、统计 分析;网页存储 能力层 数据层 互联网网页 Internet 用户上网日志 CMNET/CMWAP/WLAN 日志 •BC-SE:支持爬虫、网页解 析、自然语言解析等; •爬虫速度500W网页/天/ 节点 •网页解析及分类1400W网 页/天/节点
  • 18. 应用案例3:去IOE实践 •BC-RDB主要用于海量数据的实时在线交易处理系统,包括计费、结算系统等实时 系统,CRM、ERP进销存等交易系统以及其他应用系统。 现网业务平滑迁移 BC-RDB支持标准SQL92,支持业务 从传统的关系型数据库平滑迁移到 BC-RDB之上。应用业务逻辑程序仅 需做少量改造(修改原有数据库的非 标准语句),甚至可以直接迁移。 CRM SQL耗时比对 PBOSS SQL查询耗时 1 0.8 0.6 oracle 0.4 rdb 0.2 0 SQL1 SQL2 SQL3 SQL4 SQL5 RDB相比传统方式有40%以上提升。 5 4 3 2 1 0 oracle RDB SQL1 SQL2 SQL3 SQL4 SQL5 RDB相比传统方式有40%~200%提升。
  • 19. 应用案例4:新浪微博爬取与挖掘 目标 • ; 针对新浪微博的用户信息、交往关系、微博内容、位置等数据进行实时爬取不分 析。可实现市场产品的定向营销和目标客户群体发现。支持用户对自定义条件的 目标群体进行检索和整体社交关系分析;支持对目标群体中的各社团子群体发现 和特征分析;支持目标群体中用户关注内容和位置聚集信息分析;针对个人用户 发现交往行为变化和实时关注点 主要 功能 1. 2. 3. 4. 5. 6. 用户交往关系图生成:利用粉丝关注关系和转发评论,构建用户交往关系图 用户地点信息统计:根据签到信息,统计用户常出现地点,发现活劢规律 热点话题发现:从用户近期发布微博中发现用户关心的热点事件 关键词提取:从用户近期微博中提取出关键词,从中发现用户特征 用户信息挖掘:统计用户的性别、地域等基本信息 个人分析:对用户发微博的时段分布、用户近期密友等进行统计分析
  • 20. Thanks ! 谢谢
  • 21. 中国移动在我国云计算标准化中的工作  大云倡导IT事实标准和开源合作,推动产业整体健康发展。全面参与ITSS 、SOA、CCSA等国内标准化组织  在首批云计算国家标准立项计划(共8项)中,中国移动牵头负责2项《 弹性计算应用接口》和《基于对象的云存储应用接口》的国家标准的制定 云主机和云存储是云计算服务的基础功能, 使用最为广泛,对用户的价值最高。 2个应用接口标准的实现了云服务接口层的标 准化,为云服务的互操作、云服务的可迁移 提供了基础保障。 制定过程中广泛征求了主流云服务提供商的 意见,参考了业内事实标准(如AWS)的最 佳实践,实现了兼容性,扩展性和标准化的 有机统一。 弹性计算接口 对象存储接口 “大云”产品全面支持国家云计算标准!