数据仓库纵横谈 解读准 PB 级数据分析架构设计思路 锅巴 [email_address] [email_address]
Agenda Big Data! 数据仓库 数据仓库 2.0 基于 Infobright 的解决方案
Big Data ` 10TB 数据— “ 大 ” 还是 “ 小 ” ? 大数据的商业价值 何谓之 “ 大 ” ? 大数据是什么?
数据仓库
数据仓库 数据仓库是一种体系结构,而非一种技术 数据仓库为其他形式的信息处理提供了理想的基础 事实只有一个版本 如果需要,可以重新调整数据 可以为新的、未知的应用随时提供数据 降低企业获取信息的代价
大型数据仓库 数据仓库包含历史 低粒度级采集数据——数据仓库的灵活性 数据种类繁多 历史数据  +  细节数据  +  多种数据  =  大量数据
大型数据仓库 下载  1 小时 索引  15 分钟 访问  25 毫秒 下载  12 小时 索引  72 小时 访问  3 秒
数据量的影响 花销 ( 成本 ) 存储、分析处理 有效性 企业是否使用收集的所有数据 数据管理 数据量的不断增加、数据管理规则需要改变
数据仓库的特性 主题导向 集成性 时间差异性 不变动性
数据仓库 SDLC 收集需求 分析 设计 编程 测试 集成 实现 实现数据仓库 集成数据 (ETL) 检验偏差 针对数据编程 设计 DSS 系统 分析结果 理解需求
DW2.0 622407 magic number?
DW2.0 vs DW1.0 数据生命周期的准确认识 交互、整合、近线、归档 元数据的重要性 技术基础架构的流动特性
Infobright ? ?
行存储  vs  列存储
行存储  vs  列存储
Infobright 架构
知识网格 KG
KG 工作原理
IB 数据检索流程
IB 的价值
水平扩展数据分析中间件 分而治之 按需而分 仓库 2.0 启示
Q&A  时候不早啦 ! Thanks! 大家都累了 ... me 2... opentalk 2012

数据仓库

Editor's Notes

  • #4 1. “ 大 ” 、 “ 小 ” 是个相对概念 2. “ 大 ” 95% 以上都只是以指数级持续增长的数据,这是与增强的处理能力和存储容量相匹配的,或者至少是随之增长的。 3. http://www.computerworld.com/s/article/9087918/Size_matters_Yahoo_claims_2_petabyte_database_is_world_s_biggest_busiest?taxonomyId=53&intsrc=kc_feat&taxonomyName=databases Size matters: Yahoo claims 2-petabyte database is world's biggest, busiest Year-old database processes 24 billion events a day http://it.toolbox.com/blogs/oracle-guide/worlds-largest-database-runs-on-postgres-24979 According to an article at Computerworld , Yahoo is running a 2 PB (not GB, not TB, PB - Petabyte) database that processes 24 billion events a day. Let's put that in persp ective. 24 billion events is 24,000 million events; 24,000,000,000 events. 1 petabyte is 1,000,000,00 0,000 bytes. Yahoo has two of those. Actually, I should be basing this on 1k which is 1024 but when you're dealing with petabytes, I don't think we need to be picky. We're talking really, really big. Yahoo uses this database to analyze the browsing habits of its half a billion monthly visitors. How would you like to tune those queries? Do you think they allow ad-hoc access? 企业的数据可以分为 3 种类型:结构化数据、半结构化数据和非结构化数据。其中, 85% 的数据属于广泛存在于社交网络、物联网、电子商务等之中的非结构化数据。这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新的渠道和技术的不断涌现和应用。企业用以分析的数据越全面,分析的结果就越接近于真实 美国奥巴马总统委员会的科学技术( PAST )顾问、 Teradata 公司首席技术官 Stephen Brobst 告诉《商业价值》记者:“过去 3 年里产生的数据量比以往 4 万年的数据量还要多,大数据时代的来临已经毋庸置疑。我们即将面临一场变革,新兴大数据将成为企业发展的当务之急,而常规技术已经难以应对 Pb 级的大规模数据量。这一变化所带来的挑战,是成功的企业在未来发展过程中必须要面对的。只有那些能够运用这些新数据型态的企业,方能打造可持续的重要竞争优势。” 沃尔玛是最早通过利用大数据而受益的企业之一,一度拥有世界上最大的数据仓库系统。通过对消费者的购物行为等非结构化数据进行分析,沃尔玛成为最了解顾客购物习惯的零售商,并创造了“啤酒与尿布”的经典商业案例。早在 2007 年,沃尔玛就建立了一个超大的数据中心,其存储能力高达 4Pb 以上。《经济学人》在 2010 年的一篇报道中指出,沃尔玛的数据量已经是美国国会图书馆的 167 倍。 现在, eBay 的分析平台每天处理的数据量高达 100PB ,超过了纳斯达克交易所每天的数据处理量。为了准确分析用户的购物行为, eBay 定义了超过 500 种类型的数据,对顾客的行为进行跟踪分析。 通过对广告投放的优化,自 2007 年以来, eBay 产品销售的广告费降低了 99% ,顶级卖家占总销售额的百分比却上升至 32% 。 沃尔玛、 eBay 等领先企业在大数据方面的获益,毫无疑问起到了示范作用。 IBM 不久前发布的“全球 CIO 调查之 CIO 重要启示”指出,已经有 83% 的 CIO 拥有涵盖商业智能和分析的远期计划,并且 CIO 们开始更多地关注数据,而非应用。 ITValue 社区的调研结果也显示, 57% 的中国 CIO 对数据的关注程度超过应用。 一方面,商业智能的普及,让企业对数据的重要性已经有了充分认识;另一方面,社交媒体、电子商务、物联网等新应用的兴起,打破了企业原有价值链的围墙,仅对原有价值链各个环节的数据进行分析,已经不能满足需求。他们需要借助大数据战略打破数据边界,了解更为全面的运营及运营环境的全景图 一方面,商业智能的普及,让企业对数据的重要性已经有了充分认识;另一方面,社交媒体、电子商务、物联网等新应用的兴起,打破了企业原有价值链的围墙,仅对原有价值链各个环节的数据进行分析,已经不能满足需求。他们需要借助大数据战略打破数据边界,了解更为全面的运营及运营环境的全景图 3 月 11 日日本大地震发生后仅 9 分钟,美国国家海洋和大气管理局( NOAA )就发布了详细的海啸预警。随即, NOAA 通过对海洋传感器获得的实时数据进行计算机模拟,制作的海啸影响模型出现在 YouTube 等网站。
  • #5 我找不到我要的数据——数据分散在各个业务系统,各种版本,各种中间状态,各种不一致 比如电商:订单完成的状态以什么为准?退货怎么办? 业务员? BI 分析师? 我得不到我要的数据——数据集成,需要专家协助才能获得数据, DBA? 得到的数据不是我理解的数据——无文档,无元数据 我不能使用我找到的数据——结果不可信,数据还需要另外转化