Hadoop 與 SQL 的甜蜜連結

Hadoop 與 SQL 的甜蜜連結
精誠資訊雲中心
Etu 首席顧問陳昭宇

摘要
您曾經聽說過 Hadoop 和 NoSQL 嗎 ? 您是否了解非結構化與結構化
資料 ? 它們之間是什麼樣的關係 ? 根據統計 , 企業內結構化的資料約
僅佔 15%, 另有 85% 的寶貴資訊是以非結構化的方式存在 , 例如網
頁 , 電子郵件 , 應用系統的日誌等等 . 如何處理並分析這些非結構化資
料 , 挖掘其中所蘊藏的商業價值 , 已成為企業 IT 必須面對的課題 .

關聯式資料庫及資料倉儲系統可說是今日企業資訊的核心 , 結構化查詢
語言 SQL 也幾乎是企業資訊從業人員必需具備的技能之一 . 然而面對
爆炸性成長的非結構化資訊 , 企業應該採用什麼樣的策略 ? 該如何讓
既有的關聯式資料庫與 Hadoop 整合 , 建立企業對於非結構化資訊的
管理能力 ? 精誠 Etu 團隊將協助您的企業 , 打開 SQL to Hadoop 之
路.

大綱
• 結構與非結構化資訊
• 什麼是 Hadoop ?
• 關聯式資料庫與 Hadoop 的差異
• 連結關聯式資料庫與 Hadoop
• SQL 與 Hadoop 整合應用的策略
• Etu Appliance 簡介

什麼是非結構化資訊 ?
Unstructured Data refers to information that either does
not have a pre-defined data model and/or does not fit
well into relational tables. Unstructured information is
typically text-heavy, but may contain data such as dates,
numbers, and facts as well. This results in irregularities
and ambiguities that make it difficult to understand using
traditional computer programs as compared to data
stored in fielded form in databases or annotated
(semantically tagged) in documents

-- from Wikipedia http://en.wikipedia.org/wiki/Unstructured_data

4

非結構化資訊的特性
• 無法事先定義資料模型
• 不適合存放於關聯式資料庫
• 通常含有大量無格式的文字訊息
• 可能含有非文字資訊 , 如圖片 , 影像 , 聲
音

有哪些非結構化資訊
Web DOC / Media Social Media Machine / Sensor
Clickstream

Call Log/xDR Apps

Log

6

Hadoop 與大數據處理
15%
結構化關聯式資料庫 & DW

非結構化

85% 異質資料處理平台
7

Big Data 時代來臨 – 新量級、新處理模式、新企業智慧

行動 / 網際網路
Mobile/Internet

物聯網
Internet of Things

Big Data 新處理方式
Scale Out (TB to PB)

關連式查詢應用
NoSQL NoSQL NoSQL
資料庫

ETL 工具
資料處理平行運算平行運算平行運算
或
script

原始數據分散式檔案分散式檔案分散式檔案
檔案系統系統系統系統

什麼是 Hadoop ?
• 由 Doug Cutting 所發起的 Open Source
分散式計算框架
• 參考 Google 的 GFS 與 Map Reduce
架構
• 公有雲等級的資料儲存與處理能力
• 內建資料與任務的容錯機制 , 可以容忍硬
體及網路故障
• 設計運行於商用伺服器 , 無需特殊之硬體
10

為什麼要用 Hadoop
• 儲存並處理海量結構與非結構資訊
• 執行資料分析程式於分散式系統上
• 簡化分散式系統的管理與資源調度
• 線性化的擴充能力
• 高可用性與容錯性

11

Hadoop 不只是 Hadoop
Big Data Applications

Pig!

SQL HIVE

Zoo
RAW Keeper

12

Hadoop 生態系統
 ZooKeeper – distributed coordination service
 HBase – distributed column-oriented database for random
read/write
 HIVE – SQL like database on top of Hadoop
 Pig – high level scripting language for data processing
 Mahout – a scalable machine learning library for MapReduce
 Sqoop – SQL-to-Hadoop connector
 Flume – a distributed streaming data collection framework

13

關聯式資料庫 vs Hadoop

關聯式資料庫 Hadoop
資料量 GB -> TB TB -> PB
存取方式互動式與批次批次
資料更新多次讀寫一次寫 , 多次讀
資料結構固定 schema 無 schema
資料一致性高 (ACID) 低
擴充性非線性線性

Big Data Taiwan 2012 整合大全
聲音檔案
影片檔案
圖形檔案 Web, Mobile,
CRM, ERP, SCM,
 … 商務交易
文件檔案
文字資料回饋 / 歷史資料與
XML 檔案行為互動
Web Logs
點擊事件
NewSQ
SQL NoSQL
L
社交網路
關聯圖譜
Big Data 
新聞 Feeds 精煉處理場預處理
 EDW MPP
NewSQ a
感應器多結構資料 L
傳統
嵌入設備儲存 / 彙整 / 轉換 / 運 ETL
RFID Tags 算
商業智慧
地理資訊  與
GPS 點位回饋 / 歷史資料
線上分析
Dashboard,
事件
Report,
其他
Visualization, …

Original source: http://hortonworks.com/blog/big-data-refinery-fuels-next-generation-data-
architecture

連結關聯式資料庫與 Hadoop
• 匯入與匯出資料
– Sqoop (by Cloudera)
• 查詢與整合
– Hive JDBC Driver (Java)
– Hive ODBC Driver (C++)
– Hive Add-in for Excel (by Microsoft)
– Thrift (C/C++, Python, Perl, PHP)

Hive 簡介
• 由 Facebook 開發
• 架構於 Hadoop 之上 , 設計用來管理結構化資料的中介
軟體
• 以 MapReduce 為執行環境
• 資料儲存於 HDFS 上
• Metadata 儲存於 RDMBS 中
• Hive 的設計原則
• 採用類 SQL 語法
• 擴充性 – Types, Functions, Formats, Scripts
• 性能與平水擴展能力兼具

Hive 的架構
• Driver
JDBC • 將 SQL 語法編譯成
Web UI CLI
ODBC
MapReduce 任務 , 進行最
佳化 , 發送到 Job Tracker
Driver
(compiler, optimizer, executor) metastore 執行
• CLI/Web UI
• Ad-hoc 查詢
• Schema 查詢
• 管理介面
• JDBC/ODBC
• 標準介面與其他資料庫工
具及應用程式介接

Hive – SQL like Hadoop Database

JDBC
Web UI CLI
ODBC

Driver
(compiler, optimizer, executor) metastore

Create M/R Job Hadoop Cluster

M/R M/R M/R M/R

Data Data Data Data
Node Node Node Node

Sqoop – SQL to Hadoop

SQL JDB JDB JDB
C C C

Create Map Tasks
Map Map Map

HDFS/HIVE/HBase

Sqoop 支援的 RDMBS
• Oracle
• Netezza
• Teradata
• SQL Server
• Microsoft PDW
• MySql
• Postgre SQL

傳統的資料處理流程
營運資訊資料倉儲
新用戶

新訂單

新產品

ETL 部份資料
使用者瀏覽日誌
大部份刪除

探索式的資料處理流程
資料倉儲
營運資訊
新用戶

新訂單

新產品

廣告效益分析 ?
促銷活動分析 ?
電子報效益分析
?

使用者瀏覽日誌

企業的 Hadoop 應用策略

PowerView Excel with Predictive Embedded
PowerPivot Analytics BI
Familiar End User Tools

S
S
SSAS R
S
BI Platform

Connectors

Hadoop

Web
Sensors Devices Crawlers
Log ERP CRM LOB APPs
非結構化資料來源結構化資料來源

第一招 : 參照 RDBMS 中的資料表

Customers

Products

HDFS RDBMS

WebLogs

第二招 : 離線數據分析

Customers

Products
HDFS
Sales History

RDBMS

第三招 : 歷史數據與線上數據交互運用
ODBC/JDBC

Sales 2010

Sales 2009

Sales 2008 Sales 2008
HDFS
RDBMS

第四招 : 利用 Hadoop 進行數據
彙總

WebLog
Summary

HDFS
RDBMS

WebLogs

第五招 : 利用 ODBC 連結 Excel & Hive

E xcel Hive A dd-in

在線資料 : MS S QL S erver

歷史資料 : Hive

Hadoop 平台競爭要素
Hadoop Disruption Vectors

整合
部署
存取

Source: GigaOM Pro, 2012

Etu Appliance 簡介
Big Data End-to-End Solution in a Box

儲存與運算一體，簡化與最佳化的優勢機種：
•10 分鐘內可部署 100+ 節點
•資料擷取能力 1U 勝過 8U
•Big Data 運算處理最適化

• 延展：公有雲等級的運算架構
• 可靠：電信等級的系統品質
• 效能：企業等級的創新績效

三種資料溫度的整合： Hot / Warm / Cold
Hot Data
在線結構化資料
在線半 / 非結構化資
料 OLTP OLAP

Warm Data
在線半 / 非結構化資
料 Hadoop-based Solution

Cold Data
離線資料
SAN / NAS / Scale-out NAS

Etu Appliance 主要功能

軟硬體整合

管理維運功能

全自動化部署
不停機擴充
軟硬體全面最佳化
中央叢集系統管理
中央叢集系統監控
完整的高可用性設計

33

Etu Appliance 軟體架構
Application Layer (by SYSTEX)

Search API Pig Hive QL Monitoring

Data Processing Layer
Log
Management
Data
Katta/Lucene Mahout Account
Processing Lib
Management
MapReduce
Configuration
Management
Data Data Store Layer
Source Scheduler
Sqoop Hive HBase
High
Flume HDFS Availability

Etu OS for Hadoop (by SYSTEX)

總結
• 關聯式資料庫與 Hadoop 的連結是企業導
入 Hadoop 的重要關鍵
• Sqoop 及 Hive 提供企業延伸資訊管理能
力及於非結構化資訊
• 關聯式資料庫與 Hadoop 皆為工具 , 更重
要的是整體的解決方案
• 精誠 Etu 團隊是您整合 SQL 與 Hadoop
的最佳夥伴

Demo
• Etu Appliance 自動佈署
• Sqoop 與 MS SQL 連結
• Excel 與 Hive 連結

One Service Etu Consulting
顧問服務商業暨科技顧問

One Application Etu Recommender
分析應用系統精準推薦應用

One Platform Etu Appliance
處理平台巨量資料處理解決方案

Follow Us: 歡迎加入 Etu Taiwan Facebook 粉絲專頁

http://www.facebook.com/etusolution

Hadoop 與 SQL 的甜蜜連結

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Hadoop 與 SQL 的甜蜜連結

Similar to Hadoop 與 SQL 的甜蜜連結 (20)

Hadoop 與 SQL 的甜蜜連結