淺談台灣巨量資料產業供應鏈串聯現況

4,479 views

Published on

Published in: Technology

淺談台灣巨量資料產業供應鏈串聯現況

  1. 1. 1 淺談台灣巨量資料產業供應鏈串聯現況 March 28, 2014 By Jazz Yao-Tsung Wang 王耀聰 < jazzwang@etusolution.com >
  2. 2. • 王耀聰 Jazz Yao-Tsung Wang • jazzwang@etusolution.com • Etu 首席架構師 暨 Hadoop 傳教士 • 技術協理 產品經理 • Hadoop.TW 共同創辦人 • Hadoop The Definitive Guide 譯者 • Hadoop Operations 譯者 • 自由軟體愛好者 / 推廣者 / 開發者 • http://about.me/jazzwang 2 Who AM I
  3. 3. • 流 :巨量資料應用的本質 • 轉 :從運算中心到資料中心的典範轉移 • 智慧:雲端運算的商業模式 • 聚 :台灣雲端產業發展的反思 • 合 :從特定應用談跨界供應鏈串聯 • 價值:串聯上下游價值鏈,一起走出台灣 流 轉 智 慧 ● 聚 合 價 值 2 Agenda 大綱
  4. 4. 巨量資料的現況 … Current Status of Big Data ….. '' Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it .. '' – Dan Ariely, Professor at Duke University and Professor at Center for Advanced Hindsight
  5. 5. 巨量資料應用的本質 出處碑帖 : 王羲之 / 臨鍾繇千字文 http://www.cns11643.gov.tw/AIDB/fm_view.do?font=cns_0000&id=38552
  6. 6. 巨量資料的五大生命週期 5 Stage of Big Data Life Cycle 蒐 存 取 析 用
  7. 7. 資料科學工作流程 Data Science Workflow 資料 擷取 蒐集 資料 整理 凈化 資料 儲存 管理 特徵 萃取 視覺化分析 互動式查詢 資料模型/模式 說故事 結果闡釋 “Data Analysis: Just One Component of the Data Science Workflow”, By Ben Lorica, 'Big Data Now 2013', OR'eilly http://www.oreilly.com/data/free/files/bigdatanow2013.pdf
  8. 8. Ex. Data Flow of Log Analysis 用算 看流生 存
  9. 9. 從運算中心到資料中心的典範轉移
  10. 10. 典範轉移的時間間距據愈來愈短 Source : TIME Magazine, “2045: The Year Man Becomes Immortal”, Feb. 10, 2011 http://content.time.com/time/magazine/article/0,9171,2048299,00.html Image Source : http://trickvilla.com/wp-content/uploads/Moores-law-graph.gif
  11. 11. Trend of Computing – Moore's Law 摩爾定律是1965年由英特爾 創始人之一戈登·摩爾提出來 的。 在積體電路上可容納的電晶體 數目,約每隔24個月便會增加 一倍。 英特爾執行長David House 所說:每隔18個月晶片的效能 提高一倍。 Source: Moore's Law, Wikipedia http://upload.wikimedia.org/wikipedia/commons/c/c5/PPTMooresLawai.jpg
  12. 12. Trend of Network – Nielsen's Law of Internet Bandwidth Source: “Nielsen's Law of Internet Bandwidth”, April 5, 1998 http://www.nngroup.com/articles/law-of-bandwidth/ Image Source: “Nielsen's Law”, May 31, 2013 http://redstone.us.com/2013/05/31/subject-nielsens-law/ 尼爾森定律是1998 年由Jakob Nielsen 提出。 每隔20個月,網際網 路頻寬會增加一倍。
  13. 13. Trend of Storage – Kryder's Law Source: 奎德定律,科學人雜誌,2005年9月號,第43期 http://203.68.243.199/saweb/read.asp?docsn=2005092489 Image Source: “Hard drive capacity over time following Kryder's Law (1980-2011)”, Wikepedia http://en.wikipedia.org/wiki/File:Hard_drive_capacity_over_time.svg 奎德定律是2005年, 由希捷資深研發副總 馬克奎德提出的。 每隔13個月相同價格 的儲存容量就會增加 一倍。
  14. 14. Moore's Law , Nielsen's Law , Kryder's Law 1960 1962 1964 1966 1968 1970 1972 1974 1976 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 2014 2016 0 2 4 6 8 10 12 14 CPU Network Storage Log(*) 60% 50% ~100% Mainframe Parrallel Distributed Grid Cloud 18個月 13個月 24個月 指 數 (Log) 巨量資料 面對的挑戰 西元
  15. 15. https://amplab.cs.berkeley.edu/2013/02/07/for-big-data-moores-law-means-better-decisions/
  16. 16. Paradigm Shift in Architecture from Computing Center to Data Center Infiniband Network Cluster File System High Density Server Computing Center Move Data To Compute Message Passing 減少資料搬運 Reduce Data Transfer 強調能源效率 Energy- Efficiency 易於橫向擴充 High- Scalability Gigabit Ethernet Distributed File System Commodity Hardware Data Center Move Compute To Data Share Noting
  17. 17. 雲端的智慧來自於群眾的智慧 The Wisdom of Cloud
  18. 18. 知識源自彙整過去,智慧在能預測未來 Knowledge is from the PAST, Wisdom is for the FUTURE. http://www.pursuantgroup.com/blog/tag/dikw-model/ 資料多寡不是 重點,重點是 我們想要產生 什麼價值呢? 時效合理嘛? 成本合理嘛? It does not matter how big is your data. The goal is to create VALUE within reasonable time period and total cost of ownership.
  19. 19. 大家都說「資料是金礦」, 那就讓我們拿採礦當類比吧! Open Data資料集 分析資料的合法性 資料鑑價? 個資法 商業模式 金礦 開採權 含金度 提煉廠 分析平台與工具軟體 SMAQ 開採成本 總擁有成本 軟硬體投資 國際金價 提供給客戶的價值 產品通路
  20. 20. 從創新到創業,最難的是『創造價值』! 獲利世代:自己動手,畫出你的商業模式 Business Model Generation http://www.books.com.tw/products/0010567254
  21. 21. 雲端運算的商業模式 Business Model of Cloud Computing 規模經濟 (Economies of Scale) 眾人共用資料中心的軟硬體資源,降低總持有成本 網路即通路 (Network as a Channel) 一雲多螢,雲端的成功關鍵在於網路頻寬普及率 資料即服務 (Data as a Service) 綁架你的資料,當資料越來越大,網路傳不動,你就付錢吧! 運算即價值 (Compute as a Value) 當資料集中,連結愈多,愈能透過運算的手段, 找出群眾的智慧,就是提供給客戶最好的價值!
  22. 22. 台灣雲端產業發展的反思 我們是否有設法形成『規模經濟』呢? 出處碑帖: 趙孟頫 感興詩並序 http://www.cns11643.gov.tw/AIDB/fm_view.do?font=cns_0000&id=61700
  23. 23. 沒有聚量 何來巨量
  24. 24. 請暫停錄音 本頁之批判言論 僅代表個人觀點
  25. 25. 軟體人才:雲端產業無法大量複製的重要資源!! Global Hadoop & Big Data Analytics Market by Type, 2012- 2017 (%) Source: Hadoop & Big Data Analytics Market [Hardware, Software, Services, Hadoop-as-a- Service] - Trends, Geographical Analysis & Worldwide Market Forecasts (2012 – 2017) http://www.marketsandmarkets.com/Market-Reports/hadoop-market-766.html
  26. 26. Supply Chain of Big Data Industry and Current Community Status JavaScript.TW 7759 members NoSQL Taiwan 2083 members Open Data Taiwan 1462 members Hadoop Taiwan 1969 members Open Data Storage MapReduce Query Web 2.0 Mobile IoT Analytics Taiwan R User 699 members @ 2014/03/28
  27. 27. SNA of Big Data Communities 巨量資料社群的群聚分析 node = facebook id 每個點代表一個臉書帳號 edge = membership 每一邊代表社群歸屬 Social Network Analysis SNA @ 2013/03/22
  28. 28. SNA of Big Data Communities 巨量資料社群的群聚分析 SNA @ 2013/08/31 5個月以後, OpenData.TW 人數翻了5倍 與NoSQL.TW 跟Hadoop.TW 的連結也變強!
  29. 29. SNA of Big Data Communities 巨量資料社群的群聚分析 JavaScript.TW 人數非常龐大! 代表台灣有很多 人對前端工程有 興趣。 NoSQL.TW Hadoop.TW OpenData.TW 巨觀來看,對於資料庫 有興趣的人數比較高! SNA @ 2013/08/31 玩OpenData的人不少都需 要前端視覺化的技術。 跨領域人才? 玩後端的人比例上 仍舊比較少。
  30. 30. 高手總是藏在 我們不知道的 偏僻角落…. 有時候得設法 鼓勵這些人上 新的舞台揮灑
  31. 31. 從特定應用談跨界供應鏈串聯 http://www.cns11643.gov.tw/AIDB/fm_view.do?font=cns_0000&id=18515
  32. 32. 資料科學家 Data Scientist http://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/ar/pr
  33. 33. 資料科學團隊 Data Team http://www.ithome.com.tw/node/82093
  34. 34. 物 聯 網 產 業 雲 服 務 IaaS OpenData 巨 量 資 料 處 理 預 測 分 析 工 具 Web2.0 網 站 MobileApp 創造給客戶的價值,先思考產業供應鍊下游是誰?
  35. 35. 來談個案例 電子發票
  36. 36. 民眾政府 廠商 減少蒐集發票 對獎的困擾 方便記帳 減少紙張用量 減少地下經濟 增加稅收 預測與分析 社會趨勢 ( Ex. 食安危機, 控制流感疫情 ) 各項稅務 電子化 不同區域的 消費行為特徵 競業現況 制定銷售策略 需求分析:建立電子發票蒐集與資料交換平台
  37. 37. 財政部財政資訊中心 國網中心 中華電信 硬體製造商:Intel, MTK, ASUS, etc. 關貿網路 中華電信 民眾 廠商 基礎建設 機房維運 權責單位 國網中心 Etu TCloud 電信研究所 TL 中介軟體 佈署管理 分散式 資料庫 亦思 趨勢 輿情分析 聯經數位 工研院 巨資中心預測分析 行銷策展 稅務專業 最終客戶
  38. 38. 串聯上下游價值鏈,一起走出台灣
  39. 39. 付諸行動 成立SIG
  40. 40. 巨量資料產業的粗略分工 Internet of Things Data as a Service Big Data Stack Big Data Security Big Data Analytics Big Data Applications 硬體製造商, Ex. ASUS, Intel … 國網中心 – 技術試驗場 Etu, is-land, TCloud Trend Micro ITRI CITC 關貿網路 /
  41. 41. Taskforce #1 : Big Data Stack + Hardware Vendor - 尋找黃金比例 : 硬體架構 & 軟體參數 - NCHC : 大量佈署試驗場 /標準驗證 Taskforce #2 : Big Data Stack + Big Data Security - 如何符合企業資安需求 - 處理資訊安全相關應用的巨量資料處理架構
  42. 42. Is There A Golden Ratio for Big Data Hardware Design FLOPS=~IOPS 電路講究阻抗匹配,資料中心的硬體設計 將講究計算與讀寫通量的匹配。
  43. 43. 程式執行與狀態監控形成 回饋控制(Feedback Control) 當讀寫 I/O 遠慢於 CPU 運算時,會發生 IOWAIT 軟體如何監控南北橋流量,以得出最佳的匹配比?
  44. 44. 當人才免不了分布在不同組織,我們需要跨組織的力量
  45. 45. 在台灣內部比高下沒意思,團結才有機會走出去
  46. 46. 想找到巨量資料的終極祕寶 ONE PIECE 來當我們的夥伴吧!! http://www.books.com.tw/img/N00/029/53/N000295364_t_01.jpg
  47. 47. Etu Big Data SYSTEX Coroperation 318, Rueiguang Rd., Taipei 114, Taiwan T: +886 2 7720 1888 F: +886 2 8798 6069 www.etusolution.com 流 轉 智 慧 ● 聚 合 價 值

×