数据仓库

4,142 views

Published on

  • Be the first to comment

数据仓库

  1. 1. 数据仓库纵横谈 <ul><li>解读准 PB 级数据分析架构设计思路 </li></ul>锅巴 [email_address] [email_address]
  2. 2. Agenda <ul><li>Big Data! </li></ul><ul><li>数据仓库 </li></ul><ul><li>数据仓库 2.0 </li></ul><ul><li>基于 Infobright 的解决方案 </li></ul>
  3. 3. Big Data <ul><li>` </li></ul>10TB 数据— “ 大 ” 还是 “ 小 ” ? 大数据的商业价值 何谓之 “ 大 ” ? 大数据是什么?
  4. 4. 数据仓库
  5. 5. 数据仓库 <ul><li>数据仓库是一种体系结构,而非一种技术 </li></ul><ul><li>数据仓库为其他形式的信息处理提供了理想的基础 </li></ul><ul><ul><li>事实只有一个版本 </li></ul></ul><ul><ul><li>如果需要,可以重新调整数据 </li></ul></ul><ul><ul><li>可以为新的、未知的应用随时提供数据 </li></ul></ul><ul><li>降低企业获取信息的代价 </li></ul>
  6. 6. 大型数据仓库 <ul><li>数据仓库包含历史 </li></ul><ul><li>低粒度级采集数据——数据仓库的灵活性 </li></ul><ul><li>数据种类繁多 </li></ul>历史数据 + 细节数据 + 多种数据 = 大量数据
  7. 7. 大型数据仓库 下载 1 小时 索引 15 分钟 访问 25 毫秒 下载 12 小时 索引 72 小时 访问 3 秒
  8. 8. 数据量的影响 <ul><li>花销 ( 成本 ) </li></ul><ul><ul><li>存储、分析处理 </li></ul></ul><ul><li>有效性 </li></ul><ul><ul><li>企业是否使用收集的所有数据 </li></ul></ul><ul><li>数据管理 </li></ul><ul><ul><li>数据量的不断增加、数据管理规则需要改变 </li></ul></ul>
  9. 9. 数据仓库的特性 <ul><li>主题导向 </li></ul><ul><li>集成性 </li></ul><ul><li>时间差异性 </li></ul><ul><li>不变动性 </li></ul>
  10. 10. 数据仓库 SDLC <ul><li>收集需求 </li></ul><ul><li>分析 </li></ul><ul><li>设计 </li></ul><ul><li>编程 </li></ul><ul><li>测试 </li></ul><ul><li>集成 </li></ul><ul><li>实现 </li></ul>实现数据仓库 集成数据 (ETL) 检验偏差 针对数据编程 设计 DSS 系统 分析结果 理解需求
  11. 11. DW2.0 <ul><li>622407 </li></ul><ul><li>magic number? </li></ul>
  12. 12. DW2.0 vs DW1.0 <ul><li>数据生命周期的准确认识 </li></ul><ul><ul><li>交互、整合、近线、归档 </li></ul></ul><ul><li>元数据的重要性 </li></ul><ul><li>技术基础架构的流动特性 </li></ul>
  13. 13. Infobright <ul><li>? </li></ul><ul><li>? </li></ul>
  14. 14. 行存储 vs 列存储
  15. 15. 行存储 vs 列存储
  16. 16. Infobright 架构
  17. 17. 知识网格 KG
  18. 18. KG 工作原理
  19. 19. IB 数据检索流程
  20. 20. IB 的价值
  21. 21. 水平扩展数据分析中间件 分而治之 按需而分 仓库 2.0 启示
  22. 22. Q&A 时候不早啦 ! Thanks! <ul><li>大家都累了 ... </li></ul><ul><li>me 2... </li></ul><ul><li>opentalk 2012 </li></ul>

×