Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

大數據獲利模式 Ch 2

大數據獲利模式 Ch 2

  1. 1. 大數據的獲利模式 第二章 支撐巨量資料的技術 Part 2 2013.09.28 Hans
  2. 2. 創投也對Hadoop、NoSQL開發企業投以熱切的目 光
  3. 3. Data Is the New Oil!!
  4. 4. 結構化資料
  5. 5. 非結構化資料 無法完全數字化的信息稱為非結構化信息 - MBA智庫 EX : 圖片跟影片
  6. 6. 巨量資料時代的資料處理基礎 # Hadoop & NoSQL 火紅的原因是因為可以有效率 處理以前不能處理的非結構化巨量資料。 # 企業現有平台要處理巨量資料有相當的困難度, 就算能處理,效能也會不好。 # 對多數企業而言,砍掉重練不實際。 # 比較好的做法是先用Hadoop處理,在匯入現有平 台做分析。
  7. 7. 備受矚目的分析資料庫有以下特點 1. 大規模平行處理架構 2. 無分享 3. 欄位導向 4. 資料壓縮功能 5. 可在通用硬體設備上運作 6. 以伺服器設備的型態所提供的解決方案 7. 對於Hadoop的支援
  8. 8. 串流資料(即時資料)處理 # 串流資料不將資料存到硬碟,而是在記憶體做處 理。 # 上次處理完的資料會儲存成中期資料,下次就不 用從頭到尾對資料進行處理。 # 此技術可運用在即時監控塞車、交通事故。即時 的POS資料收集與分析與EC點擊串流資料之產品 推薦。
  9. 9. 串流資料(即時資料)處理 軟體 記憶體 硬碟 不將資料存到硬碟,而是在記憶體做處理。
  10. 10. 自行開發串流資料處理技術的網路公司 # Facebook、Twitter、Walmart、Amazon、 Linkedin、Google。 每個巨人的肚子裡都有一部份的你。
  11. 11. 機器學習、統計分析 1. 機器學習 : 用演算法學習規律去預測 2. 資料探勘 : 找資料中的相互關係與Pattern 3. 資料分群 : 相似度分群 EX:興趣分群 4. 神經網路 : 電腦模擬人腦的處理資料方式 5. 迴歸分析 : 兩個以上多變數的相關分析 6. 決策樹 : 依機率/權重運算決策分析 7. 關聯分析 : 購物籃分析,研究關聯度。
  12. 12. 自然語言處理、其他 1. 自然語言處理: Siri對話 2. 語意搜尋 : 詞類關聯性分析詞彙意義,提升準確 3. 連結探勘 : Social Networking Services (SNS) 4. A/B 測試 : 網站優化。
  13. 13. 第二章重點整理 1. 在技術面支撐熱潮的是開源碼的Hadoop 2. Hadoop有好有壞,也是個正在發展中的技術。 3. 與傳統關聯式資料庫是互補的技術 4. 開源碼成本低,但找工程師的成本可能居高不下 5. 網路公司自行開發的案例越來越多($$) 6. 為了有效率的挖掘有用資訊,機器學習,資料探 勘,語意搜尋與統計分析的技術便相當重要。
  14. 14. The End Thank You !

×