Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Data Engineering in Taiwan: PAST, NOW and FUTURE

1,397 views

Published on

2019-09-06 DataCon.TW 2019 Opening Session

Published in: Technology
  • Be the first to comment

Data Engineering in Taiwan: PAST, NOW and FUTURE

  1. 1. DataCon.TW 2019 Opening Data Engineering in Taiwan: PAST, NOW and FUTURE Jazz Yao-Tsung Wang Initiator and Chair of Taiwan Data Engineering Association Co-Founder of Taiwan Hadoop User Group Shared at 2019-09-06 DataCon.TW 2019 @ NTUH International Convention Center
  2. 2. 1. Opening 開幕式 Before we start DataCon.TW 2019 …. 2
  3. 3. 3 風雨生信心 Faith Grows Amid Storms
  4. 4. 4 2018-10-03 What the Cloudera and Hortonworks merger means Will you still believe after DataCon.TW 2019 ?? 2019-08-06 HPE acquires the business assets of MapR2018-08-02 Arm acquires Treasure Data to set the stage for IoT transformation
  5. 5. 5 Hit the bottom yet? https://www.facebook.com/photo.php?fbid=10205989049499660&set=a.3351956552057&type=3&theater
  6. 6. 6 Data Talents are moving to Cloud Providers “解讀雲端大數據新趨勢 ”, Jazz Yao-Tsung Wang, 2018-05-16 @ iThome Cloud Summit 2018 https://www.slideshare.net/jazzwang/ss-97231624/19
  7. 7. 7 https://goo.gl/xY5nrJ https://tw.voicetube.com/videos/22050 人生課題 心懷感恩 40s is the new 30s ?!
  8. 8. 沒有妳(你)們的支持,就沒有今日的盛況! Thanks for your support ~ DataCon.TW 2019 Committees 8 協會秘書長 Angie Chang 協會常務理事 Anna Yen 情義相挺小編 Kai-Ting Kao ASF member 葉祐欣 Evans Ye 超人氣講師 郭二文 ErhWen Kuo 協會秘書 徐薇妮 Winnie 協會常務理事 Bryan Yang
  9. 9. 感謝今年的贊助商,讓年會創 600 人票房紀錄 Big Thanks to DataCon.TW 2019 Sponsors!! 9
  10. 10. 2. 台灣 大數據 十年回顧 與未來展望 Data Engineering in Taiwan: PAST, NOW and FUTURE 10 資料工程
  11. 11. 11 Source: http://blog.evocator.org/2010/04/hype-chasm.html 2010 半導體 Semiconductor 2012 電信 Telecom 2012 電商 eCommerce 2015 金融 Finance 2018 製造 Manufactory 2008 萌芽 2014 零售 Retail 2015 支付 Mobile Payment 2015 遊戲 Gaming 2016 廣告 AdTech Data-driven Adoption Trend in Taiwan 基於我的職涯 與產業觀察 This is based on my personal experience 2016 封裝 Assembly / IC
  12. 12. 12 “Gold mine” model of Data-driven Adoption Project Source: “Big Data Projet Management the Body of Knowledge (BDPMBOK)”, Jazz Wang, 2015-12-09 Big Data Conference https://www.slideshare.net/jazzwang/big-data-projet-management-the-body-of-knowledge-bdpmbok/12 Gold Mine (Data) Royalty (Access Right) Fineness of Gold (Value of Data) Refinery (Data Platform) TCO (Total cost of ownership) Global Gold Price (Value to Customer)
  13. 13. 13 “Six Thinking Hats” of Data-driven Adoption Project Source: “Big Data Projet Management the Body of Knowledge (BDPMBOK)”, Jazz Wang, 2015-12-09 Big Data Conference https://www.slideshare.net/jazzwang/big-data-projet-management-the-body-of-knowledge-bdpmbok/12
  14. 14. 14 2010~2014 半導體 Semiconductor Source: https://www.ithome.com.tw/news/92290 2000年,廠內開始蒐集機臺製程資料並分析 但跑一次分析就得要花上一個星期。 2011年之後,透過大資料分析技術,才明顯改善。 一個台積電12吋晶圓廠,每秒約產出100萬筆資料 每片晶圓完成需歷經千道製程,監測百萬筆資料 台積電在半導體大資料分析上, 主要包含了五個大資料應用範疇: ● 機臺控制(Tool Control) ● 機臺健康(Tool Healthy) ● 機臺生產力(Tool Productivity) ● 品質控管(Quality Control) ● 人員生產力(People Productivity)
  15. 15. 15 商務問題 Problem 良率改善 Yield Rate Improvement → 機臺匹配 → 健康診斷 降低營運成本 OPEX ↓ 數據驅動 Data-Driven? Yes 資料來源 Data Source 內部資料 Internal Data 資料型態 Variety: Sensor , Image, Log 法規限制 Legality 擁有權 Ownership: Yes 處理權 Process Right: Yes 使用權 Access Right: Yes 含金度 Fineness 可靠度 Veracity: High (6 sigma) 內含答案: Yes (根據以前機台經驗推論) 平台架構 Platform 架構 Lambda Architecture (資料先落地整理後再分析) 技術挑戰: (生) High Data Write Throughput (析) 多變量 Multivariate -- too many columns 維運成本 TCO 人: 開發 Dev | 維運 Ops | 分析 Analysis | 決策 Expert 流程: 蒐集資料 → 前處理(整理) → 分析 → 建模/預測 → 反饋 技術: Hadoop/HBase → SPSS/SAS/R 永續條件: TCO << Diff of Lost(Yield Rate)
  16. 16. 16 High Level Date Pipeline in Semiconductor Source: “製造業生產歷程全方位整合查詢與探勘的規劃心法 ”, Jazz Wang, 2015-05-20 https://www.slideshare.net/jazzwang/20150520-final
  17. 17. “ 過去 20奈米 時代可以用 Lambda Architecture 資料落地後才做計算分析 現在進行式:預防性維護 Now: Predictive maintenance (更多近況留待 智慧製造 Keynote 講者分享 ...) 那 5 奈米製程 時代,資料通量與容量倍增, 網路/儲存/運算的比例與物理極限 是否會再次受到挑戰呢? 也許該改用 Streaming Processing? 17 反思 FUTURE ?
  18. 18. 18 2011 ~ 2014 電信 Telecom Use Case Example 北區 路由 南區 路由 DUP DUP Header Header HBase MapReduce Billing Report Query UI
  19. 19. 19 商務問題 Problem 數據用量 Billing for data network 數據驅動 Data-Driven? Yes 資料來源 Data Source 內部資料 Internal Data 資料型態 Variety: Packet Header 法規限制 Legality 擁有權 Ownership: No (Ex. Packet Payload) 處理權 Process Right: Yes 使用權 Access Right: Yes 含金度 Fineness 可靠度 Veracity: High 內含答案: Yes 平台架構 Platform 架構 Lambda Architecture (資料先落地整理後再查詢/報表) 技術挑戰: (生) High Data Write Throughput (算) High Volume Data Aggregation by Key 維運成本 TCO 人: 開發 Dev | 維運 Ops 流程: 蒐集資料 → 前處理(整理) → 查詢系統 / 帳單報表 技術: Hadoop/HBase 永續條件: TCO << Revenue(Data Network) 2011 ~ 2014 電信 Telecom
  20. 20. “ 過去 3G/4G 時代可以用 Lambda Architecture 資料落地後才做計算分析 但未來 5G 時代呢?資料通量更高了~ 若要落地儲存,磁碟容量的寫入壓力更大 同樣的需求,或許改用 Streaming Processing 用 Kappa Architecture 比較有 C/P 值? 其次,5G 時代是否有其他 更具挑戰性的商務問題呢? 20 反思 FUTURE ?
  21. 21. 21 商務問題 Problem 商品推薦 Recommendation / 再行銷 Retargeting 數據驅動 Data-Driven? Yes 資料來源 Data Source 內部資料 Internal Data 資料型態 Variety: Web Server Access Log 法規限制 Legality 擁有權 Ownership: ?? (Ex. 購物紀錄) 處理權 Process Right: Yes 使用權 Access Right: Yes 含金度 Fineness 可靠度 Veracity: High (實名制 - 購物紀錄) 內含答案: Yes (購物喜好 - 隨時間變化) 平台架構 Platform 架構 Lambda Architecture 技術挑戰: (生) High Data Write Throughput (算) High Volume Data Aggregation by Key 維運成本 TCO 人: 開發 Dev | 維運 Ops 流程: Cookie 日誌 → 前處理(整理) → 推薦引擎 → 商品版位 技術: Hadoop/Mahout 永續條件: TCO << Profit(Convert Rate) 電商/零售 eCommerce / Retail
  22. 22. 22 商務問題 Problem 增加開戶數 Account Opening | 導購金融商品 客戶洞察 Customer 360 數據驅動 Data-Driven? Yes 資料來源 Data Source 內部資料 Internal Data → 異業結盟 → 交換外部資料 資料型態 Variety: 紙捲資料, 網銀日誌, etc. 法規限制 Legality 擁有權 Ownership: ?? (Ex. 金融交易紀錄) 處理權 Process Right: Yes 使用權 Access Right: Maybe (視開戶時是否同意聯合行銷) 含金度 Fineness 可靠度 Veracity: High (實名制 - 登入網銀後的瀏覽行為) 內含答案: Yes (投資偏好/特徵 - 隨人生階段變化) 平台架構 Platform 架構 Lambda Architecture 技術挑戰: (析) Data warehouse offload 維運成本 TCO 人: 開發 Dev | 維運 Ops 流程: 日誌 → 前處理(整理) → 資料倉儲 → 分析建模 → BI 技術: Hadoop/Hive/Sqoop/SAS/Impala 永續條件: TCO << LTV (Lifetime Value) 金融 Finance @ 2015~2016 (更多近況留待 數位金融 Keynote 講者分享 ...)
  23. 23. 23 商務問題 Problem 增加點擊率 CTR | 透過即時競價 RTB 來取得超額利潤 受眾洞察 Audience 360 (DMP) 數據驅動 Data-Driven? Yes 資料來源 Data Source 內部資料 Internal Data → 外部資料 External (Ex. Google) 資料型態 Variety: RTB 平台服務日誌 Log (with Cookie) 法規限制 Legality 擁有權 Ownership: Maybe (Ex. 跨站瀏覽紀錄 - GDPR) 處理權 Process Right: Yes 使用權 Access Right: Maybe (視是否同意存 Cookie) 含金度 Fineness 可靠度 Veracity: Low (匿名制 - 靠 Tracking Pixel Cookie) 內含答案: Maybe (購物偏好/特徵 - 隨時間變化 - 銷售漏斗) 平台架構 Platform 架構 Lambda Architecture → Kappa Architecture 技術挑戰: (析) Cardianlity - 匿名受眾數量過高 維運成本 TCO 人: 開發 Dev | 維運 Ops | 廣告操盤手 流程: 日誌 → 前處理(整理) → 競價引擎 → 廣告成效報表 技術: Spark/NoSQL/Kafka/Machine Learning 永續條件: TCO << Profit 數位行銷 廣告 AdTech @ 2016~2018
  24. 24. How about the FUTURE? 很快談了過去式與現在進行式 那未來式會是什麼? 24
  25. 25. 25 老實說,我也說不準... 只能給些可能的方向/線索 Source: “Big Data Industry Insights”, Gartner, 2015-01-27 http://www.gartner.com/webinar/2931518 2015 Gartner US
  26. 26. 26 Source: IEK Trends, 2019-09-05 http://iektrends.iek.org.tw/Client/page.aspx?page_id=5
  27. 27. 27 Source: IEK Trends, 2019-09-05 http://iektrends.iek.org.tw/Client/page.aspx?page_id=5
  28. 28. 28 人文溫度 / 剛需市場 / 智慧醫療?AI + Robot + 長照?
  29. 29. 29 商務問題 Problem 病患洞察 Patient 360 數據驅動 Data-Driven? Yes 資料來源 Data Source 外部資料 External Data 資料型態 Variety: 財務 Financial (X12) / 病例 Clinical (HL7) 法規限制 Legality 擁有權 Ownership: No 處理權 Process Right: Yes 使用權 Access Right: Maybe (視病患是否同意) 含金度 Fineness 可靠度 Veracity: Medium (生態系破碎/髒資料/重複資料) 內含答案: Maybe (看應用目的) 平台架構 Platform 架構 Lambda Architecture 技術挑戰: (資安) Data Right Management (PCI/HIPAA) 維運成本 TCO 人: 開發 Dev | 維運 Ops 流程: 日誌 → 前處理(整理) → Data Lake → Marketplace 技術: Spark/Hive/Ranger 永續條件: TCO << Profit of Business Model 醫療支付 Healthcare Payment
  30. 30. Q & A 歡迎掃描 QR Code 填寫年會 Keynote 滿意度調查 30

×