Hadoop 與 SQL 的甜蜜連結              精誠資訊 雲中心          Etu 首席顧問 陳昭宇
摘要您曾經聽說過 Hadoop 和 NoSQL 嗎 ? 您是否了解非結構化與結構化資料 ? 它們之間是什麼樣的關係 ? 根據統計 , 企業內結構化的資料約僅佔 15%, 另有 85% 的寶貴資訊是以非結構化的方式存在 , 例如網頁 , 電子郵件...
大綱•   結構與非結構化資訊•   什麼是 Hadoop ?•   關聯式資料庫與 Hadoop 的差異•   連結關聯式資料庫與 Hadoop•   SQL 與 Hadoop 整合應用的策略•   Etu Appliance 簡介
什麼是非結構化資訊 ?    Unstructured Data refers to information that either does    not have a pre-defined data model and/or does n...
非結構化資訊的特性•   無法事先定義資料模型•   不適合存放於關聯式資料庫•   通常含有大量無格式的文字訊息•   可能含有非文字資訊 , 如圖片 , 影像 , 聲    音
有哪些非結構化資訊        Web        DOC / Media   Social Media   Machine / Sensor    Clickstream    Call Log/xDR     Apps         ...
Hadoop 與大數據處理         15%結構化            關聯式資料庫 & DW非結構化         85%     異質資料處理平台 7
Big Data 時代來臨 – 新量級、新處理模式、新企業智慧       行動 / 網際網路        Mobile/Internet            物聯網       Internet of Things
Big Data 新處理方式                        Scale Out (TB to PB)     關連式     查詢應用                     NoSQL     NoSQL       NoSQ...
什麼是 Hadoop ?• 由 Doug Cutting 所發起的 Open Source  分散式計算框架• 參考 Google 的 GFS 與 Map Reduce  架構• 公有雲等級的資料儲存與處理能力• 內建資料與任務的容錯機制 , ...
為什麼要用 Hadoop•    儲存並處理海量結構與非結構資訊•    執行資料分析程式於分散式系統上•    簡化分散式系統的管理與資源調度•    線性化的擴充能力•    高可用性與容錯性11
Hadoop 不只是 Hadoop               Big Data Applications                                   Pig!SQL     HIVE                  ...
Hadoop 生態系統 ZooKeeper – distributed coordination service HBase – distributed column-oriented database for random  read/w...
關聯式資料庫 vs Hadoop      關聯式資料庫      Hadoop資料量   GB -> TB    TB -> PB存取方式  互動式與批次      批次資料更新  多次讀寫        一次寫 , 多次讀資料結構  固定 ...
Big Data Taiwan 2012 整合大全聲音檔案影片檔案圖形檔案                                              Web, Mobile,                           ...
連結關聯式資料庫與 Hadoop• 匯入與匯出資料 – Sqoop (by Cloudera)• 查詢與整合 – Hive JDBC Driver (Java) – Hive ODBC Driver (C++) – Hive Add-in fo...
Hive 簡介• 由 Facebook 開發• 架構於 Hadoop 之上 , 設計用來管理結構化資料的中介  軟體   • 以 MapReduce 為執行環境   • 資料儲存於 HDFS 上   • Metadata 儲存於 RDMBS 中...
Hive 的架構                                               •   Driver                                   JDBC                • ...
Hive – SQL like Hadoop Database                                     JDBC   Web UI              CLI                        ...
Sqoop – SQL to HadoopSQL                      JDB        JDB          JDB                          C          C           ...
Sqoop 支援的 RDMBS•   Oracle•   Netezza•   Teradata•   SQL Server•   Microsoft PDW•   MySql•   Postgre SQL
傳統的資料處理流程            營運資訊      資料倉儲      新用戶      新訂單      新產品                   ETL 部份資料使用者瀏覽日誌                   大部份刪除
探索式的資料處理流程                              資料倉儲                營運資訊          新用戶          新訂單          新產品                   ...
企業的 Hadoop 應用策略 PowerView             Excel with           Predictive         Embedded                       PowerPivot   ...
第一招 : 參照 RDBMS 中的資料表                       Customers                        Products          HDFS         RDBMSWebLogs
第二招 : 離線數據分析                Customers                 Products        HDFS               Sales History                RDBMS
第三招 : 歷史數據與線上數據交互運用                     ODBC/JDBC                                 Sales 2010                              ...
第四招 : 利用 Hadoop 進行數據彙總                       WebLog                       Summary          HDFS                       RDBM...
第五招 : 利用 ODBC 連結 Excel & Hive                                E xcel Hive A dd-in       在線資料 : MS S QL S erver       歷史資料 :...
Hadoop 平台競爭要素 Hadoop Disruption Vectors                                                        整合                         ...
Etu Appliance 簡介Big Data End-to-End Solution in a Box儲存與運算一體,簡化與最佳化的優勢機種:•10 分鐘內可部署 100+ 節點•資料擷取能力 1U 勝過 8U•Big Data 運算處理最...
三種資料溫度的整合: Hot / Warm / Cold Hot Data 在線結構化資料 在線半 / 非結構化資 料               OLTP        OLAP Warm Data 在線半 / 非結構化資 料        ...
Etu Appliance 主要功能                  軟硬體整合     管理維運功能     全自動化部署     不停機擴充     軟硬體全面最佳化     中央叢集系統管理     中央叢集系統監控     ...
Etu Appliance 軟體架構Application Layer                                       (by SYSTEX) Search API               Pig        ...
Etu Management Console
Etu Cluster Management
Etu Service Management
總結• 關聯式資料庫與 Hadoop 的連結是企業導  入 Hadoop 的重要關鍵• Sqoop 及 Hive 提供企業延伸資訊管理能  力及於非結構化資訊• 關聯式資料庫與 Hadoop 皆為工具 , 更重  要的是整體的解決方案• 精誠 ...
Demo• Etu Appliance 自動佈署• Sqoop 與 MS SQL 連結• Excel 與 Hive 連結
One Service    Etu Consulting     顧問服務         商業暨科技顧問One Application   Etu Recommender 分析應用系統           精準推薦應用  One Platf...
Follow Us: 歡迎加入 Etu Taiwan Facebook 粉絲專頁                  http://www.facebook.com/etusolution
Upcoming SlideShare
Loading in …5
×

Hadoop 與 SQL 的甜蜜連結

15,794 views

Published on

精誠集團行雲流水系列第三場-流, 大會主題 2012 Taiwan Big Data, 我在其中一個 Track 跟大家分享 Hadoop 與 SQL 的整合運用

Published in: Technology
  • Be the first to comment

Hadoop 與 SQL 的甜蜜連結

  1. 1. Hadoop 與 SQL 的甜蜜連結 精誠資訊 雲中心 Etu 首席顧問 陳昭宇
  2. 2. 摘要您曾經聽說過 Hadoop 和 NoSQL 嗎 ? 您是否了解非結構化與結構化資料 ? 它們之間是什麼樣的關係 ? 根據統計 , 企業內結構化的資料約僅佔 15%, 另有 85% 的寶貴資訊是以非結構化的方式存在 , 例如網頁 , 電子郵件 , 應用系統的日誌等等 . 如何處理並分析這些非結構化資料 , 挖掘其中所蘊藏的商業價值 , 已成為企業 IT 必須面對的課題 .關聯式資料庫及資料倉儲系統可說是今日企業資訊的核心 , 結構化查詢語言 SQL 也幾乎是企業資訊從業人員必需具備的技能之一 . 然而面對爆炸性成長的非結構化資訊 , 企業應該採用什麼樣的策略 ? 該如何讓既有的關聯式資料庫與 Hadoop 整合 , 建立企業對於非結構化資訊的管理能力 ? 精誠 Etu 團隊將協助您的企業 , 打開 SQL to Hadoop 之路.
  3. 3. 大綱• 結構與非結構化資訊• 什麼是 Hadoop ?• 關聯式資料庫與 Hadoop 的差異• 連結關聯式資料庫與 Hadoop• SQL 與 Hadoop 整合應用的策略• Etu Appliance 簡介
  4. 4. 什麼是非結構化資訊 ? Unstructured Data refers to information that either does not have a pre-defined data model and/or does not fit well into relational tables. Unstructured information is typically text-heavy, but may contain data such as dates, numbers, and facts as well. This results in irregularities and ambiguities that make it difficult to understand using traditional computer programs as compared to data stored in fielded form in databases or annotated (semantically tagged) in documents -- from Wikipedia http://en.wikipedia.org/wiki/Unstructured_data4
  5. 5. 非結構化資訊的特性• 無法事先定義資料模型• 不適合存放於關聯式資料庫• 通常含有大量無格式的文字訊息• 可能含有非文字資訊 , 如圖片 , 影像 , 聲 音
  6. 6. 有哪些非結構化資訊 Web DOC / Media Social Media Machine / Sensor Clickstream Call Log/xDR Apps Log6
  7. 7. Hadoop 與大數據處理 15%結構化 關聯式資料庫 & DW非結構化 85% 異質資料處理平台 7
  8. 8. Big Data 時代來臨 – 新量級、新處理模式、新企業智慧 行動 / 網際網路 Mobile/Internet 物聯網 Internet of Things
  9. 9. Big Data 新處理方式 Scale Out (TB to PB) 關連式 查詢應用 NoSQL NoSQL NoSQL 資料庫 ETL 工具 資料處理 平行運算 平行運算 平行運算 或 script 原始數據 分散式檔案 分散式檔案 分散式檔案 檔案系統 系統 系統 系統
  10. 10. 什麼是 Hadoop ?• 由 Doug Cutting 所發起的 Open Source 分散式計算框架• 參考 Google 的 GFS 與 Map Reduce 架構• 公有雲等級的資料儲存與處理能力• 內建資料與任務的容錯機制 , 可以容忍硬 體及網路故障• 設計運行於商用伺服器 , 無需特殊之硬體10
  11. 11. 為什麼要用 Hadoop• 儲存並處理海量結構與非結構資訊• 執行資料分析程式於分散式系統上• 簡化分散式系統的管理與資源調度• 線性化的擴充能力• 高可用性與容錯性11
  12. 12. Hadoop 不只是 Hadoop Big Data Applications Pig!SQL HIVE ZooRAW Keeper 12
  13. 13. Hadoop 生態系統 ZooKeeper – distributed coordination service HBase – distributed column-oriented database for random read/write HIVE – SQL like database on top of Hadoop Pig – high level scripting language for data processing Mahout – a scalable machine learning library for MapReduce Sqoop – SQL-to-Hadoop connector Flume – a distributed streaming data collection framework13
  14. 14. 關聯式資料庫 vs Hadoop 關聯式資料庫 Hadoop資料量 GB -> TB TB -> PB存取方式 互動式與批次 批次資料更新 多次讀寫 一次寫 , 多次讀資料結構 固定 schema 無 schema資料一致性 高 (ACID) 低擴充性 非線性 線性
  15. 15. Big Data Taiwan 2012 整合大全聲音檔案影片檔案圖形檔案 Web, Mobile, CRM, ERP, SCM,  … 商務交易文件檔案文字資料 回饋 / 歷史資料 與XML 檔案 行為互動Web Logs點擊事件 NewSQ SQL NoSQL L 社交網路 關聯圖譜 Big Data 新聞 Feeds 精煉處理場 預處理  EDW MPP NewSQ a 感應器 多結構資料 L 傳統 嵌入設備 儲存 / 彙整 / 轉換 / 運 ETLRFID Tags 算 商業智慧地理資訊  與GPS 點位 回饋 / 歷史資料 線上分析 Dashboard, 事件 Report, 其他 Visualization, … Original source: http://hortonworks.com/blog/big-data-refinery-fuels-next-generation-data- architecture
  16. 16. 連結關聯式資料庫與 Hadoop• 匯入與匯出資料 – Sqoop (by Cloudera)• 查詢與整合 – Hive JDBC Driver (Java) – Hive ODBC Driver (C++) – Hive Add-in for Excel (by Microsoft) – Thrift (C/C++, Python, Perl, PHP)
  17. 17. Hive 簡介• 由 Facebook 開發• 架構於 Hadoop 之上 , 設計用來管理結構化資料的中介 軟體 • 以 MapReduce 為執行環境 • 資料儲存於 HDFS 上 • Metadata 儲存於 RDMBS 中• Hive 的設計原則 • 採用類 SQL 語法 • 擴充性 – Types, Functions, Formats, Scripts • 性能與平水擴展能力兼具
  18. 18. Hive 的架構 • Driver JDBC • 將 SQL 語法編譯成 Web UI CLI ODBC MapReduce 任務 , 進行最 佳化 , 發送到 Job Tracker Driver (compiler, optimizer, executor) metastore 執行 • CLI/Web UI • Ad-hoc 查詢 • Schema 查詢 • 管理介面 • JDBC/ODBC • 標準介面與其他資料庫工 具及應用程式介接
  19. 19. Hive – SQL like Hadoop Database JDBC Web UI CLI ODBC Driver (compiler, optimizer, executor) metastore Create M/R Job Hadoop Cluster M/R M/R M/R M/R Data Data Data Data Node Node Node Node
  20. 20. Sqoop – SQL to HadoopSQL JDB JDB JDB C C C Create Map Tasks Map Map Map HDFS/HIVE/HBase
  21. 21. Sqoop 支援的 RDMBS• Oracle• Netezza• Teradata• SQL Server• Microsoft PDW• MySql• Postgre SQL
  22. 22. 傳統的資料處理流程 營運資訊 資料倉儲 新用戶 新訂單 新產品 ETL 部份資料使用者瀏覽日誌 大部份刪除
  23. 23. 探索式的資料處理流程 資料倉儲 營運資訊 新用戶 新訂單 新產品 廣告效益分析 ? 促銷活動分析 ? 電子報效益分析 ?使用者瀏覽日誌
  24. 24. 企業的 Hadoop 應用策略 PowerView Excel with Predictive Embedded PowerPivot Analytics BI Familiar End User Tools S S SSAS R S BI Platform Connectors Hadoop Web Sensors Devices Crawlers Log ERP CRM LOB APPs 非結構化資料來源 結構化資料來源
  25. 25. 第一招 : 參照 RDBMS 中的資料表 Customers Products HDFS RDBMSWebLogs
  26. 26. 第二招 : 離線數據分析 Customers Products HDFS Sales History RDBMS
  27. 27. 第三招 : 歷史數據與線上數據交互運用 ODBC/JDBC Sales 2010 Sales 2009 Sales 2008 Sales 2008 HDFS RDBMS
  28. 28. 第四招 : 利用 Hadoop 進行數據彙總 WebLog Summary HDFS RDBMSWebLogs
  29. 29. 第五招 : 利用 ODBC 連結 Excel & Hive E xcel Hive A dd-in 在線資料 : MS S QL S erver 歷史資料 : Hive
  30. 30. Hadoop 平台競爭要素 Hadoop Disruption Vectors 整合 部署 存取 Source: GigaOM Pro, 2012
  31. 31. Etu Appliance 簡介Big Data End-to-End Solution in a Box儲存與運算一體,簡化與最佳化的優勢機種:•10 分鐘內可部署 100+ 節點•資料擷取能力 1U 勝過 8U•Big Data 運算處理最適化 • 延展:公有雲等級的運算架構 • 可靠:電信等級的系統品質 • 效能:企業等級的創新績效
  32. 32. 三種資料溫度的整合: Hot / Warm / Cold Hot Data 在線結構化資料 在線半 / 非結構化資 料 OLTP OLAP Warm Data 在線半 / 非結構化資 料 Hadoop-based Solution Cold Data 離線資料 SAN / NAS / Scale-out NAS
  33. 33. Etu Appliance 主要功能 軟硬體整合 管理維運功能 全自動化部署 不停機擴充 軟硬體全面最佳化 中央叢集系統管理 中央叢集系統監控 完整的高可用性設計33
  34. 34. Etu Appliance 軟體架構Application Layer (by SYSTEX) Search API Pig Hive QL MonitoringData Processing Layer Log Management Data Katta/Lucene Mahout Account Processing Lib Management MapReduce Configuration ManagementData Data Store LayerSource Scheduler Sqoop Hive HBase High Flume HDFS Availability Etu OS for Hadoop (by SYSTEX)
  35. 35. Etu Management Console
  36. 36. Etu Cluster Management
  37. 37. Etu Service Management
  38. 38. 總結• 關聯式資料庫與 Hadoop 的連結是企業導 入 Hadoop 的重要關鍵• Sqoop 及 Hive 提供企業延伸資訊管理能 力及於非結構化資訊• 關聯式資料庫與 Hadoop 皆為工具 , 更重 要的是整體的解決方案• 精誠 Etu 團隊是您整合 SQL 與 Hadoop 的最佳夥伴
  39. 39. Demo• Etu Appliance 自動佈署• Sqoop 與 MS SQL 連結• Excel 與 Hive 連結
  40. 40. One Service Etu Consulting 顧問服務 商業暨科技顧問One Application Etu Recommender 分析應用系統 精準推薦應用 One Platform Etu Appliance 處理平台 巨量資料處理解決方案
  41. 41. Follow Us: 歡迎加入 Etu Taiwan Facebook 粉絲專頁 http://www.facebook.com/etusolution

×