Your SlideShare is downloading. ×
0
Infobright技术架构
Infobright技术架构
Infobright技术架构
Infobright技术架构
Infobright技术架构
Infobright技术架构
Infobright技术架构
Infobright技术架构
Infobright技术架构
Infobright技术架构
Infobright技术架构
Infobright技术架构
Infobright技术架构
Infobright技术架构
Infobright技术架构
Infobright技术架构
Infobright技术架构
Infobright技术架构
Infobright技术架构
Infobright技术架构
Infobright技术架构
Infobright技术架构
Infobright技术架构
Infobright技术架构
Infobright技术架构
Infobright技术架构
Infobright技术架构
Infobright技术架构
Infobright技术架构
Infobright技术架构
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Infobright技术架构

3,018

Published on

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
3,018
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
73
Comments
0
Likes
2
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. 基于MySQL的开源DWCopyright 2010 Action Tech 1
  • 2. 介绍 • 开源DW的优势 • Infobright介绍 • 爱可生介绍Copyright 2010 Action Tech 2
  • 3. 开源DW的优势 • 开源数据仓库在前期耗费较少,维护和支持费也较少 • 源数据仓库采用的技术很容易在市场中获得 • 开源数据仓库大大促进了标准化。 • 开源数据仓库相当灵活 • 开源数据仓库能从网络社区效应中获利 • 开源数据仓库可以逐步实施Copyright 2010 Action Tech 3
  • 4. 列存储 VS 行存储Copyright 2010 Action Tech 4
  • 5. 列存储 vs 行存储 – 用例Copyright 2010 Action Tech 5
  • 6. Infobright 介绍 •开源数据仓库(Data Warehouse)解决方案 •基于列存储的存储引擎 •海量数据存储 •数据压缩比例高 •高速的数据装载性能 •优化的统计算法(sum /group/count …)Copyright 2010 Action Tech 6
  • 7. Infobright 价值 •节约设计开销 没有复杂的数据仓库模型设计要求(比如星状模型、雪花模型) 无需要物化视图、数据分区、索引建立 •节省存储资源 高压缩比率通常是10:1,某些应用可能达到40:1 时间 •集成利用广泛 和众多的BI套件相容,比如Pentaho、Cognos、Jaspersof 资源 资金 •降低运维成本 随着数据库的逐渐增大,查询和装载性能持续保持稳定 实施和管理简单,需要极少的管理 •商业保证 第一个商业支持的开源仓储分析数据库 是Oracle/MySQL 官方推荐的仓储集成架构Copyright 2010 Action Tech 7
  • 8. Infobright 适用场景 大数据量的分析应用 ˗网页/在线分析、移动分析、客户行为分析、分析营销和广告 …… 日志/事件管理系统 ˗电信详单分析和报告、系统/网络 安全认证记录 …… 数据集市 ˗企事业单位特定数据仓库、为中小企业提供数据仓库 …… 嵌入式分析 ˗为独立软件供应商/ SaaS供应商提供嵌入式分析应用 ……Copyright 2010 Action Tech 8
  • 9. Infobright 客户案例 – 某大型电信运营商需求业务结算系统业务压力: 每个月产生的记录数为82亿条。 每个月的数据增长量为3.8TB。MySQL 自有的MYISAM 引擎无法达到查询与写的性能要求新数据库需要满足:规模更大的数据集良好的扩展能力快速查询的反应能力(大量的汇总查询)快速实施&低维护成本Copyright 2010 Action Tech 9
  • 10. Infobright 客户案例 – 某大型电信运营商 INFOBRIGHT 解决了以上的所有问题。 1. 可以适应几百亿甚至几千亿条记录的单表。 2. 爱可生自主研发的PROXY 代理软件,负责大数据量的水平扩展。 3. 固有的知识网格体系, 能够确保快速的响应时间。 对应汇总的响应时 间为MyISAM的几十倍甚至上百倍。 4. 高压缩比,节省了大量的存储开销。 5. 只需要懂MySQL 就可以熟练的操作以及维护INFOBRIGHT。Copyright 2010 Action Tech 10
  • 11. Infobright VS 传统存储 分组聚合查询 select sql_no_cache max(k_s) from select_ib_3 group by url ; 数据行数 Infobright MyISAM 一百万 0.39s 5.04s 一千万 3.68s 53.34s 六千万 23.24s 5min 42s 一亿两千万 45.98s 11min 8s Where限定查询 select sql_no_cache count(1) from select_ib_4 where url=‘www.actionsky.com ; 数据行数 Infobright MyISAM 一百万 0.19s 0.49s 一千万 0.62s 3.61s 六千万 1.23s 23.75s 一亿两千万 4.55s 47.29sCopyright 2010 Action Tech 11
  • 12. Infobright VS 传统存储 日期筛选和分组 select sql_no_cache * from select_ib_2 where date <1299145600 and date >1288540800 group by url; 数据行数 Infobright MyISAM 一百万 1.27s 1.58s 一千万 4.59s 17.82s 六千万 22.44s 1 min 55.74s 一亿两千万 44.99s 3 min 55.48s 报表归并汇总语句 insert into tmp select k,url,max(num,sum(k_s),date from select_im_2_ind group by k, url order by null; 数据行数 Infobright MyISAM 一百万 7.35s 59.95s 一千万 2min 15s 17min 48s 六千万 11min 38s 1h 55min13s 一亿两千万 23min 47s 3h 37min 49sCopyright 2010 Action Tech 12
  • 13. Infobright 组成部分Copyright 2010 Action Tech 13
  • 14. Infobright 模块原理 •优化器 最小化的解压缩数据 有效提高执行计划 •知识网格 存储元数据、列信息、表关系 数据块分布状态统计信息 同等查询状态缓存信息 •数据块 真实数据压缩存放位置 按照数据存储块保存Copyright 2010 Action Tech 14
  • 15. Data PacksCopyright 2010 Action Tech 15
  • 16. Data Packs 数据压缩之后Copyright 2010 Action Tech 16
  • 17. Knowledge GridCopyright 2010 Action Tech 17
  • 18. Knowledge Grid Nodes - DPNsCopyright 2010 Action Tech 18
  • 19. Knowledge Grid Nodes - HistogramsCopyright 2010 Action Tech 19
  • 20. Knowledge Grid Nodes - CMAPsCopyright 2010 Action Tech 20
  • 21. Knowledge Grid Nodes - P-2-PCopyright 2010 Action Tech 21
  • 22. OptimizerCopyright 2010 Action Tech 22
  • 23. Infobright 粗糙集示例 SELECT COUNT(*) FROM employees WHERE salary > 100000 AND age < 35 AND job = ‘IT’ AND city = ‘San Mateo’;① 查找包含salary > 100000的数据包② 查找包含age < 35的数据包③ 查找包含job = ’IT’的数据包④ 查找包含city = ‘San Mateo’的数据包⑤ 去除所有与检索条件不相干的标记⑥ 最后在确定的数据包内解压缩相关数据⑦ 执行检索Copyright 2010 Action Tech 23
  • 24. Infobright SQL优化 • 选择合适的数据类型 • 选择合适的字符集 • 选择合适的暗语(lookup, for_insert ) • 避免使用union all • 避免使用select * from table • 尽量使用系统提供的函数 • Rough Query (roughly )Copyright 2010 Action Tech 24
  • 25. Infobright 数据类型Copyright 2010 Action Tech 25
  • 26. Infobright导入工具 • Insert • MySQL 导入工具 (@bh_dataformat=mysql) • ETL工具 http://www.infobright.org/Downloads/Contributed‐Software/ • Infobright 自身的导入工具 CSV格式(@bh_dataformat=txt_variable) 二进制格式(@bh_dataformat=binary) • DLP 分布式导入工具 (1.6TB/小时)Copyright 2010 Action Tech 26
  • 27. 分布式导入工具-DLPCopyright 2010 Action Tech 27
  • 28. 分布式导入工具-DLP 项目 测试一 测试二 测试三 测试四 远端DLP机数 10台 10台 16台 16台 目标Infobright 1台 1台 1台 1台 原始数据总量 1600GB 1600GB 1984GB 12608GB 完成耗时 1H15m20s 1H20m06s 1H25m17s 8H30mCopyright 2010 Action Tech 28
  • 29. 爱可生介绍 • 迁移到MySQL数据库 • MySQL数据库升级 • MySQL数据恢复服务 • 高可用性服务  Oracle白金合作伙伴 • NDB Cluster服务 • MySQL开发支持  MySQL中国区总分销商 • 全文搜索设计与优化  Oracle授权教育合作伙伴 • Memcached缓存咨询与优化  MySQL及开源架构解决方案供应商 • 全面的MySQL性能审核 • MySQL巡检 • MySQL 远程DBA • 紧急MySQL 疑难解答 • MySQL数据库现场咨询 • MySQL培训 • 数据仓库的设计、实施、优化等技术支持和 培训Copyright 2010 Action Tech 29
  • 30. OK!Copyright 2010 Action Tech 30

×