SlideShare a Scribd company logo
1 of 11
Download to read offline
白皮书
数
据
虚
拟
化
层
数
据
虚
拟
化
层
数据虚拟化:
数据虚拟化:
现代数据集成解决方案
摘要							 3
引言							 4
传统集成技术					 5
数据虚拟化					 6
数据虚拟化产品的五层结构				 8
小结:10 点事实解读数据虚拟化			 9
Denodo 平台:现代数据化虚拟平台			 10
目录
各组织持续致力于尽可能快速集成数据,旨在满足业务利益
相关者日渐升温的数据集成提速需求。传统数据集成技术均
按照既定计划分批交付数据,且无法支持当今花样翻新的数
据类型,因而并不能从根本上解决问题。数据虚拟化是一种
现代数据集成方法,业已着手化解当今的数据集成挑战,为
未来的数据集成奠定基础。本文将解读当前的根本性挑战,
探讨传统解决方案为何力不从心,并重点介绍数据虚拟化解
决方案。
摘要
4
版权所有 © 2019 Denodo Technologies
引言
传入数据在数量、种类及速度上呈现空前爆炸式增长,这种情形已
有时日。云和大数据系统等新兴技术带来大量迥然不同的数据,更
让这一问题雪上加霜。非但如此,不同数据源还分别存储在功能各
异的孤岛中,与其他数据源分割而治。如今,即便是数据湖也会包
含众多数据孤岛。
业务利益相关者需要即时获取最新信息以作出实时决策,但当所需
信息分散在多个来源中时,这项任务便颇具挑战。同样地,只有将
关键来源的数据汇总至统一来源,云优先、应用现代化、大数据分
析等多项举措才能继续开展。遗憾的是,事实证明传统数据集成技
术资源密集、十分耗时且成本高昂。
5
版权所有 © 2019 Denodo Technologies
传统集成技术
传统集成技术
大多的数据集成方法都涉及提取、转换、加载 (ETL) 流程或是密切相关的过程。ETL 流程最早启用要追溯到 20 世
纪 70 年代,历经数年发展逐渐趋于成熟和多样化,但顾名思义,仍然不外乎三个基本步骤:
1. 首先,从来源中提取数据。
2. 其次,将提取的数据转换为最终目标所需的格式和结构。
3. 最后,将转换完毕的数据加载至最终目标内,无论是操作型数据存储、数据集市还是数据仓库。
ETL 流程并非一体适用的解决方案。针对每项流程都要仔细编写脚本并进行测试,以适应每个单独来源和最终目
标系统的独特要求。
部分流程会在最后一步执行转换,相应得变为“ELT 流程”,但基本概念并无二致:完成脚本编写并对流程进行
测试后,这些流程会从一个或多个来源复制大量数据,并通过排定的批处理过程在单一整合式系统中复制这些数
据,期间会应用所有必要的转换。
ETL 流程拥有众多明显优势,因此至今仍在广泛运用:
• 这些流程在批量转移数据时效率出众、效果出色。
• 该技术已获得既有供应商的充分了解和广泛支持。
• ETL 工具具备可完全支持大批量或成批次数据移动的多项功能。
• 大多数组织均有能力在内部实施 ETL 流程。
然而近年来,由于数据环境日益复杂,加之从整合式数据中获取可操作智能的需求愈加迫切,各组织逐渐认识到
ETL 流程也存在一定程度的劣势:
• 转移数据并非总是最优解,因为这样一来需要维护新的存储库,既耗费资源又成本高昂。
• 大型组织每晚可能要运行数千项 ETL 流程,而用来确保同步的脚本很难根据需要进行修改。
• 由于 ETL 流程按照计划批次交付数据,最终用户在数据交付期间需要等待。分批交付速度因配置和计划
而异,但再快也不可能按需即刻交付。因此,不少 ETL 流程都设定为次日交付。
• ETL 流程无法处理当今的数据量和复杂的数据类型,例如每分钟事务数据或来自机器传感器的波动性读
数。
6
版权所有 © 2019 Denodo Technologies
数据虚拟化
数据虚拟化
数据虚拟化作为一种数据集成策略,所用方法全然不同:数据虚拟化并非物理上将数据移至新的整合位置,而是
提供整合式数据的实时视图,源数据则保留在原处。
先进的数据虚拟化解决方案还会更进一步:建立企业数据访问层,提供对组织所有关键数据源的通用访问。在需
要访问数据时,业务用户可以查询数据虚拟化层,该层继而从相应数据源获取数据。数据访问组件归数据虚拟化
层负责,因此这些用户不必受困于访问的复杂性,例如数据存储位置或数据格式。根据数据虚拟化层的实施方
式,业务用户只需提出问题并获取答案,将底层复杂性交给数据虚拟化层处理即可。
大多数情况下,这些无缝的“自助式”场景不会涉及业务用户直接查询数据虚拟化层的情况;相反,其最可能与
应用程序、Web 门户或以用户为中心的其他界面交互,继而从数据虚拟化层获取所需数据。基本架构为数据虚拟
化层位于中间,所有数据源和所有数据使用者(无论个人还是应用程序)分居两端,如下图所示:
数据使用者
数据虚拟化
企业应用程序、报表、BI、门户、ESB、移动端、Web、用户、IoT/流式数据
多种协议、
多种格式
链接数据服务
查询、搜索、浏览
请求/答复、
事件驱动
安全交付
DOC
W
不同数据源
数据库与仓库、云/Saas 应用程序、大数据、NoSQL、Web、XML、Excel、PDF、Word…
包装器
工具库
Web
自动化
任何数据
或内容
读取
和写入
治理与元数据
数据目录
安全与数据隐私
数据服务
敏捷开发
绩效
资源管理
生命周期管理
连接
不同数据标准化
合并
发现、转换、
准备、提高质量、
集成
使用
共享、交付、
发布、治理、
协作
7
版权所有 © 2019 Denodo Technologies
请务必注意,由于数据虚拟化不复制任何数据,故而数据虚拟化层本身不包含任何数据,相反地,仅会包含访问
各种来源所需的元数据。数据虚拟化层“轻量化”且易于实施,除此之外还拥有诸多优势。比如,该架构意味着
企业范围的访问控制可轻松应用于数据虚拟化层,而非逐一应用至每个源系统。它还提供让开发人员用来连接 API
的中心位置,兼顾结构化程度各异的数据源。
因此,数据虚拟化是一种现代数据集成策略。它在转换和质量控制功能方面与传统数据集成解决方案大同小异,
但能以更低的成本提供实时数据集成,并且速度更快,敏捷性也更高。它可以取代传统数据集成流程及其关联的
数据集市和数据仓库,也可简单地对其进行强化以扩展功能。
作为抽象层和数据服务层,数据虚拟化可以轻松驾驭原始和派生数据源、ETL 流程、企业服务总线 (ESB) 及其他
中间件、应用程序和设备(无论本地部署还是基于云端),进而在业务技术和信息层之间提供灵活性。
数据虚拟化亦有一项劣势:不同于 ETL 流程,它无法支持一些应用场景可能需要的大批量或成批次数据移动。不
过,如上所述,数据虚拟化完全可与 ETL 流程并驾齐驱。
• 能够无缝联合两个或更多个不同数据源(使其外观独立而功能统
一),包括结构化和非结构化数据源的组合。
• 可以支持智能实时查询优化、缓存、内存处理等增值功能,以及基于
来源限制因素、应用程序需求或网络感知的自定义优化策略。
• 通过 API,任何主要、派生、集成或虚拟数据源的访问皆可在几分钟
内以受控方式完成,使用的格式或协议有别于原始形式。
• 所有数据均可通过单一虚拟层访问,能够快速公开冗余、一致性和数
据质量问题,并支持应用通用的端到端治理和安全性控制机制。
显而易见,与基于复制的传统数据
集成方法相比,数据虚拟化拥有明
显优势:
数
据
虚
拟
化
层
数
据
虚
拟
化
层
8
版权所有 © 2019 Denodo Technologies
数据虚拟化产品从“功能”到“企业平台”的五层结构
数据虚拟化产品从“功能”到“企业平台”的五层结构
随着数据虚拟化解决方案逐渐普及,其部分功能已纳入其他产品当中,有时也用作附加模块或功能。因此,有必
要将附加组件或内置数据虚拟化产品与能够建立上文所述企业数据访问层的成熟企业数据虚拟化平台区分开来。
数据混合功能。
数据混合功能。通常包含在商业智能 (BI) 工具中。数据混合可以结合多个来源共同向 BI 工具提
供数据,不过输出内容的使用权限仅限于该工具,任何其他外部应用程序均无法访问。
数据服务模块。
数据服务模块。通常由数据集成套件或数据仓库供应商提供,需要额外付费。这些模块提供强
大的数据建模和转换功能,但其查询优化、缓存、虚拟安全层、对非结构化来源的支持以及整体性
能往往较弱。原因是这些模块通常设计为原型 ETL 流程或主数据管理 (MDM) 工具。
“
“SQL
SQL 化”产品。
化”产品。这一新兴类别在大数据和 Hadoop 供应商中尤为多见。这些产品可对底层大
数据技术进行虚拟化,使其能与关系数据源和平面文件相结合,以便使用标准 SQL 进行查询。这
可在大数据堆栈方面发挥效用,但也只能止步于此。
云数据服务。
云数据服务。通常部署在云端,并具有与 SaaS 和云应用程序、云数据库及 Microsoft Excel 等
少数桌面和本地部署工具的预封装集成。不过,与真正的数据虚拟化产品不同,这些产品具有分
层视图并可委托执行查询,可以跨云来源公开标准化 API,以便在中等规模项目中轻松进行数据交
换。涉及大数据分析、大型企业系统、大型机、大型数据库、平面文件和非结构化数据的项目不在
此类服务范围以内。
数据虚拟化平台。
数据虚拟化平台。这类平台从头开始构建,旨在通过统一的虚拟数据层以多对多方式为企业提
供数据虚拟化功能。数据虚拟化平台专为跨各种应用场景(与来源和使用者无关)的敏捷性和速度
而设计,优于其他中间件解决方案并能与之协作。
数据虚拟化产品的五层结构如下:
3
9
版权所有 © 2019 Denodo Technologies
w
小结
小结:十点事实
:十点事实解读数据虚拟化
解读数据虚拟化
本文简要介绍了数据虚拟化平台的优势,该平台可以扩展现有的传统数据集成解决方案,甚至完全取而代之。下
方汇总了关于数据集成的十点事实:
维护成本低于传统集成工具。
维护成本低于传统集成工具。
多次物理复制、移动和存储数据所需
费用高昂,数据虚拟化可创建虚拟数
据层,省去复制或存储成本。
最大限度提升性能。
最大限度提升性能。
数据传输开始之前的延迟往往会拖慢
性能。数据虚拟化可直连来源,实时
提供可操作的洞察。
远超数据联合范畴。
远超数据联合范畴。
数据虚拟化集数据联合技术十年发展
之大成,与数据联合可谓“和而不
同”,数据虚拟化涵盖性能优化以及
自助式搜索和发现的高级功能。
以更快的方式管理数据。
以更快的方式管理数据。
不必等待数小时甚至数天,数据虚拟
化能够实时提供结果。
实现自助式商业智能。
实现自助式商业智能。
多次物理复制、移动和存储数据所需
费用高昂,数据虚拟化可创建虚拟数
据层,省去复制或存储成本。
带来丰厚的投资回报。
带来丰厚的投资回报。
典型数据虚拟化项目实施之后不到六
个月即可看到回报。相较于传统集成
方法,企业借由数据虚拟化可节省
50% 到 80% 的时间。
与传统数据仓库相辅相成。
与传统数据仓库相辅相成。
数据虚拟化可与现有数据仓库解决方
案并行部署。
可实现安全的数据治理。
可实现安全的数据治理。
数据虚拟化能针对企业中的各类信息和
元数据建立集中访问点,从而实现安全
管理、数据治理和性能监控。
比传统方法更敏捷。
比传统方法更敏捷。
借助数据虚拟化可实现无缝原型设
计,并且能够在执行战略测试之后再
于企业层面推广实施。
为大数据结构提供恰当情境。
为大数据结构提供恰当情境。
数据虚拟化支持的大数据结构可以集成数据,为预测分析做好准
备,并将数据实时提供给使用者。
9
3
8
10
版权所有 © 2019 Denodo Technologies
Denodo 平台:现代数据虚拟化平台
DENODO 平台较其他数据虚拟化解决方案更胜一筹,
具备以下特性:
动态数据目录
动态数据目录,
通过可搜索的
情境化界面提
供对数据的无
缝访问。
完全重新设计
完全重新设计
的界面
的界面,适配
业务及 IT 利益
相关者的特殊
需求。
可用于领先的云
可用于领先的云
市场
市场,如 Amazon
Web Services (AWS)
和 Microsoft Azure,
也可用于 Docker。
内存中并行处理
内存中并行处理,
为数据访问进一步
提速,迅捷程度
更胜以往。
现代数据服务层
现代数据服务层,
支持 OAuth 2.、
SAML、OpenAPI、
OData 4 等云标准,
可轻松与当前云系统
实现互操作。
动态查询优化器
动态查询优化器,
可在每次执行查询
时智能选择优化
策略,从而更快
地访问数据。
一套自动化生命周期
一套自动化生命周期
管理功能
管理功能,使用户可
以花费更少的时间管
理数据,而投入更多
时间利用数据来做出
决策。
无缝安全性和
无缝安全性和
治理
治理,通过单点
控制和管理确保
安全、有选择地
访问组织的全部
数据资产。
Denodo
Denodo 平台:现代数据虚拟化平台
平台:现代数据虚拟化平台
Denodo 平台及相关产品由 Denodo Technologies 开发,是真正意义上的企业数
据虚拟化平台。
10
版权所有 © 2019 Denodo Technologies
Denodo Technologies 是数据虚拟化领域的领导者,可为最广泛的企业、云、大数据和非结构化数据源提供敏
捷、高性能的数据集成、数据抽象化和实时数据服务,而成本仅为传统方法的一半。Denodo 遍布各大行业的客
户都明显提升了业务敏捷性和投资回报率。
官方网站 www.denodo.com | 电子邮件 info.cn@denodo.com | 社区网站 community.denodo.com

More Related Content

Similar to 数据虚拟化:现代数据集成解决方案

淘宝数据可视化[2010 SD2.0]
淘宝数据可视化[2010 SD2.0]淘宝数据可视化[2010 SD2.0]
淘宝数据可视化[2010 SD2.0]KennyZ
 
How Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
How Enterprises Leverage Data to Overcome Business Challenges During CoronavirusHow Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
How Enterprises Leverage Data to Overcome Business Challenges During CoronavirusDenodo
 
肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践hdhappy001
 
Leverage Modern Enterprise Architecture To Speed Up Work Resumption
Leverage Modern Enterprise Architecture To Speed Up Work ResumptionLeverage Modern Enterprise Architecture To Speed Up Work Resumption
Leverage Modern Enterprise Architecture To Speed Up Work ResumptionDenodo
 
阿里巴巴数据中台实践分享.pdf
阿里巴巴数据中台实践分享.pdf阿里巴巴数据中台实践分享.pdf
阿里巴巴数据中台实践分享.pdfmarkmind
 
数据科学运营:企业人工智能之旅
数据科学运营:企业人工智能之旅数据科学运营:企业人工智能之旅
数据科学运营:企业人工智能之旅Denodo
 
美团数据平台之Kafka应用实践和优化
美团数据平台之Kafka应用实践和优化美团数据平台之Kafka应用实践和优化
美团数据平台之Kafka应用实践和优化confluent
 
如何快速实现数据编织架构
如何快速实现数据编织架构如何快速实现数据编织架构
如何快速实现数据编织架构Denodo
 
解读数据虚拟化支持的逻辑数据编织(Data Fabric)
解读数据虚拟化支持的逻辑数据编织(Data Fabric)解读数据虚拟化支持的逻辑数据编织(Data Fabric)
解读数据虚拟化支持的逻辑数据编织(Data Fabric)Denodo
 
云制造
云制造云制造
云制造leejd
 
借助Denodo实现数据网格架构和数据共享
借助Denodo实现数据网格架构和数据共享借助Denodo实现数据网格架构和数据共享
借助Denodo实现数据网格架构和数据共享Denodo
 
2020_11 (南湖高中)用資料視覺化說故事
2020_11 (南湖高中)用資料視覺化說故事2020_11 (南湖高中)用資料視覺化說故事
2020_11 (南湖高中)用資料視覺化說故事彭其捷 Jack
 
Grid Technology and Enterprise Grid / 网格技术及其在企业信息化中的应用
Grid Technology and Enterprise Grid / 网格技术及其在企业信息化中的应用Grid Technology and Enterprise Grid / 网格技术及其在企业信息化中的应用
Grid Technology and Enterprise Grid / 网格技术及其在企业信息化中的应用Zac John
 
数据领导者的 Customer 360.pdf
数据领导者的 Customer 360.pdf数据领导者的 Customer 360.pdf
数据领导者的 Customer 360.pdfChunLei(peter) Che
 
Se shang hai_04_cloudybi
Se shang hai_04_cloudybiSe shang hai_04_cloudybi
Se shang hai_04_cloudybiTech2IPO
 
昆腾技术白皮书- 重新设计备份和恢复,适应未来虚拟化和整合的需求
昆腾技术白皮书- 重新设计备份和恢复,适应未来虚拟化和整合的需求昆腾技术白皮书- 重新设计备份和恢复,适应未来虚拟化和整合的需求
昆腾技术白皮书- 重新设计备份和恢复,适应未来虚拟化和整合的需求samanthaleee
 
Big Data For CIO_大數據白皮書_2015
Big Data For CIO_大數據白皮書_2015Big Data For CIO_大數據白皮書_2015
Big Data For CIO_大數據白皮書_2015Fang-hsun Yeh
 
Bigdata bizoppor
Bigdata bizopporBigdata bizoppor
Bigdata bizopporAccenture
 

Similar to 数据虚拟化:现代数据集成解决方案 (20)

Emc keynote 1130 1200
Emc keynote 1130 1200Emc keynote 1130 1200
Emc keynote 1130 1200
 
淘宝数据可视化[2010 SD2.0]
淘宝数据可视化[2010 SD2.0]淘宝数据可视化[2010 SD2.0]
淘宝数据可视化[2010 SD2.0]
 
How Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
How Enterprises Leverage Data to Overcome Business Challenges During CoronavirusHow Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
How Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
 
肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践
 
Leverage Modern Enterprise Architecture To Speed Up Work Resumption
Leverage Modern Enterprise Architecture To Speed Up Work ResumptionLeverage Modern Enterprise Architecture To Speed Up Work Resumption
Leverage Modern Enterprise Architecture To Speed Up Work Resumption
 
阿里巴巴数据中台实践分享.pdf
阿里巴巴数据中台实践分享.pdf阿里巴巴数据中台实践分享.pdf
阿里巴巴数据中台实践分享.pdf
 
数据科学运营:企业人工智能之旅
数据科学运营:企业人工智能之旅数据科学运营:企业人工智能之旅
数据科学运营:企业人工智能之旅
 
美团数据平台之Kafka应用实践和优化
美团数据平台之Kafka应用实践和优化美团数据平台之Kafka应用实践和优化
美团数据平台之Kafka应用实践和优化
 
如何快速实现数据编织架构
如何快速实现数据编织架构如何快速实现数据编织架构
如何快速实现数据编织架构
 
解读数据虚拟化支持的逻辑数据编织(Data Fabric)
解读数据虚拟化支持的逻辑数据编织(Data Fabric)解读数据虚拟化支持的逻辑数据编织(Data Fabric)
解读数据虚拟化支持的逻辑数据编织(Data Fabric)
 
云制造
云制造云制造
云制造
 
借助Denodo实现数据网格架构和数据共享
借助Denodo实现数据网格架构和数据共享借助Denodo实现数据网格架构和数据共享
借助Denodo实现数据网格架构和数据共享
 
2020_11 (南湖高中)用資料視覺化說故事
2020_11 (南湖高中)用資料視覺化說故事2020_11 (南湖高中)用資料視覺化說故事
2020_11 (南湖高中)用資料視覺化說故事
 
Grid Technology and Enterprise Grid / 网格技术及其在企业信息化中的应用
Grid Technology and Enterprise Grid / 网格技术及其在企业信息化中的应用Grid Technology and Enterprise Grid / 网格技术及其在企业信息化中的应用
Grid Technology and Enterprise Grid / 网格技术及其在企业信息化中的应用
 
关于Swsoft公司
关于Swsoft公司关于Swsoft公司
关于Swsoft公司
 
数据领导者的 Customer 360.pdf
数据领导者的 Customer 360.pdf数据领导者的 Customer 360.pdf
数据领导者的 Customer 360.pdf
 
Se shang hai_04_cloudybi
Se shang hai_04_cloudybiSe shang hai_04_cloudybi
Se shang hai_04_cloudybi
 
昆腾技术白皮书- 重新设计备份和恢复,适应未来虚拟化和整合的需求
昆腾技术白皮书- 重新设计备份和恢复,适应未来虚拟化和整合的需求昆腾技术白皮书- 重新设计备份和恢复,适应未来虚拟化和整合的需求
昆腾技术白皮书- 重新设计备份和恢复,适应未来虚拟化和整合的需求
 
Big Data For CIO_大數據白皮書_2015
Big Data For CIO_大數據白皮書_2015Big Data For CIO_大數據白皮書_2015
Big Data For CIO_大數據白皮書_2015
 
Bigdata bizoppor
Bigdata bizopporBigdata bizoppor
Bigdata bizoppor
 

数据虚拟化:现代数据集成解决方案

  • 2. 摘要 3 引言 4 传统集成技术 5 数据虚拟化 6 数据虚拟化产品的五层结构 8 小结:10 点事实解读数据虚拟化 9 Denodo 平台:现代数据化虚拟平台 10 目录
  • 4. 4 版权所有 © 2019 Denodo Technologies 引言 传入数据在数量、种类及速度上呈现空前爆炸式增长,这种情形已 有时日。云和大数据系统等新兴技术带来大量迥然不同的数据,更 让这一问题雪上加霜。非但如此,不同数据源还分别存储在功能各 异的孤岛中,与其他数据源分割而治。如今,即便是数据湖也会包 含众多数据孤岛。 业务利益相关者需要即时获取最新信息以作出实时决策,但当所需 信息分散在多个来源中时,这项任务便颇具挑战。同样地,只有将 关键来源的数据汇总至统一来源,云优先、应用现代化、大数据分 析等多项举措才能继续开展。遗憾的是,事实证明传统数据集成技 术资源密集、十分耗时且成本高昂。
  • 5. 5 版权所有 © 2019 Denodo Technologies 传统集成技术 传统集成技术 大多的数据集成方法都涉及提取、转换、加载 (ETL) 流程或是密切相关的过程。ETL 流程最早启用要追溯到 20 世 纪 70 年代,历经数年发展逐渐趋于成熟和多样化,但顾名思义,仍然不外乎三个基本步骤: 1. 首先,从来源中提取数据。 2. 其次,将提取的数据转换为最终目标所需的格式和结构。 3. 最后,将转换完毕的数据加载至最终目标内,无论是操作型数据存储、数据集市还是数据仓库。 ETL 流程并非一体适用的解决方案。针对每项流程都要仔细编写脚本并进行测试,以适应每个单独来源和最终目 标系统的独特要求。 部分流程会在最后一步执行转换,相应得变为“ELT 流程”,但基本概念并无二致:完成脚本编写并对流程进行 测试后,这些流程会从一个或多个来源复制大量数据,并通过排定的批处理过程在单一整合式系统中复制这些数 据,期间会应用所有必要的转换。 ETL 流程拥有众多明显优势,因此至今仍在广泛运用: • 这些流程在批量转移数据时效率出众、效果出色。 • 该技术已获得既有供应商的充分了解和广泛支持。 • ETL 工具具备可完全支持大批量或成批次数据移动的多项功能。 • 大多数组织均有能力在内部实施 ETL 流程。 然而近年来,由于数据环境日益复杂,加之从整合式数据中获取可操作智能的需求愈加迫切,各组织逐渐认识到 ETL 流程也存在一定程度的劣势: • 转移数据并非总是最优解,因为这样一来需要维护新的存储库,既耗费资源又成本高昂。 • 大型组织每晚可能要运行数千项 ETL 流程,而用来确保同步的脚本很难根据需要进行修改。 • 由于 ETL 流程按照计划批次交付数据,最终用户在数据交付期间需要等待。分批交付速度因配置和计划 而异,但再快也不可能按需即刻交付。因此,不少 ETL 流程都设定为次日交付。 • ETL 流程无法处理当今的数据量和复杂的数据类型,例如每分钟事务数据或来自机器传感器的波动性读 数。
  • 6. 6 版权所有 © 2019 Denodo Technologies 数据虚拟化 数据虚拟化 数据虚拟化作为一种数据集成策略,所用方法全然不同:数据虚拟化并非物理上将数据移至新的整合位置,而是 提供整合式数据的实时视图,源数据则保留在原处。 先进的数据虚拟化解决方案还会更进一步:建立企业数据访问层,提供对组织所有关键数据源的通用访问。在需 要访问数据时,业务用户可以查询数据虚拟化层,该层继而从相应数据源获取数据。数据访问组件归数据虚拟化 层负责,因此这些用户不必受困于访问的复杂性,例如数据存储位置或数据格式。根据数据虚拟化层的实施方 式,业务用户只需提出问题并获取答案,将底层复杂性交给数据虚拟化层处理即可。 大多数情况下,这些无缝的“自助式”场景不会涉及业务用户直接查询数据虚拟化层的情况;相反,其最可能与 应用程序、Web 门户或以用户为中心的其他界面交互,继而从数据虚拟化层获取所需数据。基本架构为数据虚拟 化层位于中间,所有数据源和所有数据使用者(无论个人还是应用程序)分居两端,如下图所示: 数据使用者 数据虚拟化 企业应用程序、报表、BI、门户、ESB、移动端、Web、用户、IoT/流式数据 多种协议、 多种格式 链接数据服务 查询、搜索、浏览 请求/答复、 事件驱动 安全交付 DOC W 不同数据源 数据库与仓库、云/Saas 应用程序、大数据、NoSQL、Web、XML、Excel、PDF、Word… 包装器 工具库 Web 自动化 任何数据 或内容 读取 和写入 治理与元数据 数据目录 安全与数据隐私 数据服务 敏捷开发 绩效 资源管理 生命周期管理 连接 不同数据标准化 合并 发现、转换、 准备、提高质量、 集成 使用 共享、交付、 发布、治理、 协作
  • 7. 7 版权所有 © 2019 Denodo Technologies 请务必注意,由于数据虚拟化不复制任何数据,故而数据虚拟化层本身不包含任何数据,相反地,仅会包含访问 各种来源所需的元数据。数据虚拟化层“轻量化”且易于实施,除此之外还拥有诸多优势。比如,该架构意味着 企业范围的访问控制可轻松应用于数据虚拟化层,而非逐一应用至每个源系统。它还提供让开发人员用来连接 API 的中心位置,兼顾结构化程度各异的数据源。 因此,数据虚拟化是一种现代数据集成策略。它在转换和质量控制功能方面与传统数据集成解决方案大同小异, 但能以更低的成本提供实时数据集成,并且速度更快,敏捷性也更高。它可以取代传统数据集成流程及其关联的 数据集市和数据仓库,也可简单地对其进行强化以扩展功能。 作为抽象层和数据服务层,数据虚拟化可以轻松驾驭原始和派生数据源、ETL 流程、企业服务总线 (ESB) 及其他 中间件、应用程序和设备(无论本地部署还是基于云端),进而在业务技术和信息层之间提供灵活性。 数据虚拟化亦有一项劣势:不同于 ETL 流程,它无法支持一些应用场景可能需要的大批量或成批次数据移动。不 过,如上所述,数据虚拟化完全可与 ETL 流程并驾齐驱。 • 能够无缝联合两个或更多个不同数据源(使其外观独立而功能统 一),包括结构化和非结构化数据源的组合。 • 可以支持智能实时查询优化、缓存、内存处理等增值功能,以及基于 来源限制因素、应用程序需求或网络感知的自定义优化策略。 • 通过 API,任何主要、派生、集成或虚拟数据源的访问皆可在几分钟 内以受控方式完成,使用的格式或协议有别于原始形式。 • 所有数据均可通过单一虚拟层访问,能够快速公开冗余、一致性和数 据质量问题,并支持应用通用的端到端治理和安全性控制机制。 显而易见,与基于复制的传统数据 集成方法相比,数据虚拟化拥有明 显优势: 数 据 虚 拟 化 层 数 据 虚 拟 化 层
  • 8. 8 版权所有 © 2019 Denodo Technologies 数据虚拟化产品从“功能”到“企业平台”的五层结构 数据虚拟化产品从“功能”到“企业平台”的五层结构 随着数据虚拟化解决方案逐渐普及,其部分功能已纳入其他产品当中,有时也用作附加模块或功能。因此,有必 要将附加组件或内置数据虚拟化产品与能够建立上文所述企业数据访问层的成熟企业数据虚拟化平台区分开来。 数据混合功能。 数据混合功能。通常包含在商业智能 (BI) 工具中。数据混合可以结合多个来源共同向 BI 工具提 供数据,不过输出内容的使用权限仅限于该工具,任何其他外部应用程序均无法访问。 数据服务模块。 数据服务模块。通常由数据集成套件或数据仓库供应商提供,需要额外付费。这些模块提供强 大的数据建模和转换功能,但其查询优化、缓存、虚拟安全层、对非结构化来源的支持以及整体性 能往往较弱。原因是这些模块通常设计为原型 ETL 流程或主数据管理 (MDM) 工具。 “ “SQL SQL 化”产品。 化”产品。这一新兴类别在大数据和 Hadoop 供应商中尤为多见。这些产品可对底层大 数据技术进行虚拟化,使其能与关系数据源和平面文件相结合,以便使用标准 SQL 进行查询。这 可在大数据堆栈方面发挥效用,但也只能止步于此。 云数据服务。 云数据服务。通常部署在云端,并具有与 SaaS 和云应用程序、云数据库及 Microsoft Excel 等 少数桌面和本地部署工具的预封装集成。不过,与真正的数据虚拟化产品不同,这些产品具有分 层视图并可委托执行查询,可以跨云来源公开标准化 API,以便在中等规模项目中轻松进行数据交 换。涉及大数据分析、大型企业系统、大型机、大型数据库、平面文件和非结构化数据的项目不在 此类服务范围以内。 数据虚拟化平台。 数据虚拟化平台。这类平台从头开始构建,旨在通过统一的虚拟数据层以多对多方式为企业提 供数据虚拟化功能。数据虚拟化平台专为跨各种应用场景(与来源和使用者无关)的敏捷性和速度 而设计,优于其他中间件解决方案并能与之协作。 数据虚拟化产品的五层结构如下: 3
  • 9. 9 版权所有 © 2019 Denodo Technologies w 小结 小结:十点事实 :十点事实解读数据虚拟化 解读数据虚拟化 本文简要介绍了数据虚拟化平台的优势,该平台可以扩展现有的传统数据集成解决方案,甚至完全取而代之。下 方汇总了关于数据集成的十点事实: 维护成本低于传统集成工具。 维护成本低于传统集成工具。 多次物理复制、移动和存储数据所需 费用高昂,数据虚拟化可创建虚拟数 据层,省去复制或存储成本。 最大限度提升性能。 最大限度提升性能。 数据传输开始之前的延迟往往会拖慢 性能。数据虚拟化可直连来源,实时 提供可操作的洞察。 远超数据联合范畴。 远超数据联合范畴。 数据虚拟化集数据联合技术十年发展 之大成,与数据联合可谓“和而不 同”,数据虚拟化涵盖性能优化以及 自助式搜索和发现的高级功能。 以更快的方式管理数据。 以更快的方式管理数据。 不必等待数小时甚至数天,数据虚拟 化能够实时提供结果。 实现自助式商业智能。 实现自助式商业智能。 多次物理复制、移动和存储数据所需 费用高昂,数据虚拟化可创建虚拟数 据层,省去复制或存储成本。 带来丰厚的投资回报。 带来丰厚的投资回报。 典型数据虚拟化项目实施之后不到六 个月即可看到回报。相较于传统集成 方法,企业借由数据虚拟化可节省 50% 到 80% 的时间。 与传统数据仓库相辅相成。 与传统数据仓库相辅相成。 数据虚拟化可与现有数据仓库解决方 案并行部署。 可实现安全的数据治理。 可实现安全的数据治理。 数据虚拟化能针对企业中的各类信息和 元数据建立集中访问点,从而实现安全 管理、数据治理和性能监控。 比传统方法更敏捷。 比传统方法更敏捷。 借助数据虚拟化可实现无缝原型设 计,并且能够在执行战略测试之后再 于企业层面推广实施。 为大数据结构提供恰当情境。 为大数据结构提供恰当情境。 数据虚拟化支持的大数据结构可以集成数据,为预测分析做好准 备,并将数据实时提供给使用者。 9 3 8
  • 10. 10 版权所有 © 2019 Denodo Technologies Denodo 平台:现代数据虚拟化平台 DENODO 平台较其他数据虚拟化解决方案更胜一筹, 具备以下特性: 动态数据目录 动态数据目录, 通过可搜索的 情境化界面提 供对数据的无 缝访问。 完全重新设计 完全重新设计 的界面 的界面,适配 业务及 IT 利益 相关者的特殊 需求。 可用于领先的云 可用于领先的云 市场 市场,如 Amazon Web Services (AWS) 和 Microsoft Azure, 也可用于 Docker。 内存中并行处理 内存中并行处理, 为数据访问进一步 提速,迅捷程度 更胜以往。 现代数据服务层 现代数据服务层, 支持 OAuth 2.、 SAML、OpenAPI、 OData 4 等云标准, 可轻松与当前云系统 实现互操作。 动态查询优化器 动态查询优化器, 可在每次执行查询 时智能选择优化 策略,从而更快 地访问数据。 一套自动化生命周期 一套自动化生命周期 管理功能 管理功能,使用户可 以花费更少的时间管 理数据,而投入更多 时间利用数据来做出 决策。 无缝安全性和 无缝安全性和 治理 治理,通过单点 控制和管理确保 安全、有选择地 访问组织的全部 数据资产。 Denodo Denodo 平台:现代数据虚拟化平台 平台:现代数据虚拟化平台 Denodo 平台及相关产品由 Denodo Technologies 开发,是真正意义上的企业数 据虚拟化平台。 10 版权所有 © 2019 Denodo Technologies
  • 11. Denodo Technologies 是数据虚拟化领域的领导者,可为最广泛的企业、云、大数据和非结构化数据源提供敏 捷、高性能的数据集成、数据抽象化和实时数据服务,而成本仅为传统方法的一半。Denodo 遍布各大行业的客 户都明显提升了业务敏捷性和投资回报率。 官方网站 www.denodo.com | 电子邮件 info.cn@denodo.com | 社区网站 community.denodo.com