Dtcc ibm big data platform 2012-final_cn

1,655 views
1,484 views

Published on

0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,655
On SlideShare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
96
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

Dtcc ibm big data platform 2012-final_cn

  1. 1. IBM Big Data Platform 王云 IBM院士 中国研究院首席技术官 DTCC2012
  2. 2. 信息是新一轮机遇中的核心… 企业需要更深入的 远见卓识未来的10 44倍 2020年里,数据和内容将增长 35 zettabytes 1 in 3 商界领袖经常需要以不信任的 或不存在信息为基础进行决策 1 in 2 商界领袖无法获取做好本职 工作所需要的信息 CIO们提到的“商业智能和分析” 83%2009800,000 petabytes 80% 的数据是非结构化的 作为有远见计划的一部分来提高 竞争力 CEO们需要更迅速捕获和了解信息, 60% 以便迅速作出业务决策来做取得更 好的工作成绩 DTCC20122
  3. 3. 群体和个体之间交互沟通的方式发生了翻天覆地的变换由此带来的信息量的巨增 + + = A brand new game Consumers become increasingly instrumented Consumers become increasingly interconnected Consumers become increasingly intelligent DTCC2012 IBM Institute for Business Value CMO Study3 2011
  4. 4. Big Data 的机遇 从巨大、以无与伦比的速度增长和多样化的数据中 提取远见卓识,而这些是以前无法做到的 DTCC2012 4
  5. 5. The IBM Big Data Platform DTCC2012 5
  6. 6. Big Data 平台能够做什么事情? 分析多样化的信息 基于大范围混合信息的上下文分析,而这种分析 此前根本不能执行 分析流动中的信息 流数据分析 针对数据爆炸和ad-hoc模式的分析 分析极端大量的数据 成本最优化地处理和分析PB量级的信息 管理、分析大容量的结构化和关系型数据 发掘和探索 Ad-hoc模式的分析、数据发现和验证 计划和管控 DTCC2012 加强数据结构的完整性和控制,以确保可重复查询的 一致性 6
  7. 7. Big Data 丰富了整个信息管理生态系统 优化归档成本 通过生活事件、爱好和角色等等使主 数据变得更加丰富 建立信息即服务 审计路线图精减 了工作和任务 优化OLTP 谁?在什么时候?什 (SAP, checkout, +++) 么地方?动用了什么 样的数据? 管理治理过程 DTCC20127
  8. 8. 互为补充的分析能力 传统的做法 新的路径 结构化,可分析,逻辑性 创造性, 整体思维, 知觉 Hadoop 数据仓库 Streams 事务数据 Web 日志 来自内部应用的数据 结构化 Structured 非结构化 社交网络中的数据 Unstructured Repeatable Exploratory 来自主机的数据 可重复 Linear 企业集成 探索性 Iterative 文本数据: emails 线性的 Monthly sales reports Profitability analysis 迭代的 strategy Brand sentiment Product OLTP 系统中的数据 surveys Customer Maximum asset utilization 影像 来自传感器的数据: 来自ERP的数据 传统数据源 RFID 新数据源 DTCC20128
  9. 9. Streams 和 BigInsights – 沉淀的数据和流动数据的无缝集成 可视化的实时和历史 的见解 数据集成,数据挖 掘,机器学习,统 计建模 InfoSphere Streams 1. 数据注入 Data InfoSphere 2. 数据反馈 BigInsights, Database & Control Warehouse 数据采集,​ 备, 准 ​ flow 在线分析,模型 验证 3. 自适应分析模型 DTCC2012 9
  10. 10. InfoSphere BigInsights Platform for volume, variety, velocity -- V3  增强的Hadoop方案 Analytics for V3  文本分析的工具箱  机器学习与预测分析 Usability  Web console  集成安装  可视化工具  大数据分析的apps,如apps Store Enterprise Class  企业存储,安全,集群管理 Integration  与DB2,Netezza, JDBC数 据的互联互通 DTCC2012 10
  11. 11. 流数据分析 分析和关联500万市场消息/秒, 以500K/秒的速度,每天分析 以30微秒的平均延迟执行算法期权 6B+ IPDRs,每年分析 4 PBs. 交易。 sustaining 1GBps.Consider: 数据不用存储, 不用遵循信息生命周期管理,极大量 的节省存储等资源消耗 height: height: height: 640 1280 640 width: width: width: 480 1024 480 data: data: DTCC2012 data:11
  12. 12. IBM WatsonIBM Watson 是在分析创新方面的一项重大突破,但它之所以取得成功,完全得益于它 处理的信息的速度和质量。 InfoSphere Streams Massively parallel analysis InfoSphere BigInsights 12 “Big Data” analysis (Hadoop) DTCC2012 12
  13. 13. 基于BigData 平台的预测分析 tokens documents topics documents words topics V ≈ W x H while (i < max iteration) { H = H ∗ (WT V / WTWH); W = W ∗ (V HT / WHHT ); } i = i + 1;DTCC201213
  14. 14. 各个行业BigData 应用的适用范围和场景Smarter Healthcare Multi-channel Finance Log Analysis salesHomeland Security Traffic Control Telecom Search Quality Manufacturing Trading Analytics Fraud and Risk Retail: Churn, NBO DTCC2012 14
  15. 15. IBM Big Data Solutions 客户和合作伙伴方案 规则 / 业务流程管理 iLog & Lombardi 数据仓库 Big Data 加速器 InfoSphere Warehouse 文本 统计数据 财经 地理信息 音频信息 数据仓库一体机 影像/视频 挖掘 时间序列 数学信息 IBM & non-IBM 连接器 应用 蓝图 主数据管理 INTEGRATION InfoSphere MDM Big Data 企业引擎 数据库 DB2 & non-IBM 内容分析 InfoSphere Streams InfoSphere BigInsights ECM 业务分析 提升和优化生产效率 Information Server Cognos & SPSS 工作负载管理和优化 配置 工作流 工作时间表 作业跟踪 数据摄入 营销 Unica 管理 管理工具 配置管理器 事件监控 身份和访问管理 数据保护 DTCC2012 数据增长管理 InfoSphere Optim15
  16. 16. IBM big data IBM big data • IBM big data • IBM big data THINK • IBM big data• IBM big dataIBM big data IBM big data • IBM big data • IBM big data DTCC2012

×