Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Big Data 有多⼤大?
第三次⼯工業⾰革命的到來
關於我
• 李冠緯
• 臺⼤大電機所碩畢
• 研究Data Mining與Hadoop
• ⺫⽬目前是ShareLike的Android ⼯工程師
Outline
• Big data 是什麼
• 4V:Volume, Velocity, Variety, Veracity …
• Life of Big Data
• Big data value Chain
• Big Data 的應⽤...
Big Data就像 …
• “Big data is like teenage sex: everyone talks
about it, nobody really knows how to do it,
everyone thinks e...
所以Big Data 是 …
• 資料是21世紀的原油
• 資料是⿈黃⾦金
• 資料是下⼀一個前瞻技術
• 資料就是⼀一切
以前的電腦 …
有在收集資料
也能分析資料
所以這次有什麼不⼀一樣?
• 傳說中的3V
• Volume, 資料的⼤大⼩小
• Velocity, 資料產出的速度
• Variety, 資料多樣化的程度
Volume - 量
• Facebook ⼀一年產⽣生180 pera-byte的資料
• Google 每⽉月處理的資料是600 pera-byte
• pera-byte = 10,00 tera-byte = 1,00,00,00 gi...
Velocity - 速度
• Twitter 每秒產⽣生1.2million的tweets
• Google 每秒處裡1 million的搜尋
Variety - 種類
結構化資料與⾮非結構化資料
Variety
各式各樣的資料來源
⼩小結
巨量資料:難以利⽤用現有技術進⾏行管理的⼤大量資料群
Volume
資料量

10TB~數PB
Variety 

資料多樣
(結構化資料+

⾮非結構化資料)
Velocity
資料產⽣生頻率、
更新頻率
(1秒內數萬條以上)
Big...
Big Data 的⼀一⽣生
source: ⺩王耀聰,淺談台灣資料產業供應鏈現況
巨

量

資

料

的

五

個

步

驟
愈多資料愈好?
by 和沛執⾏行⻑⾧長 翟本橋
• 存的起來的,就是storage(儲存)
• 看得到的,才是data(資料)
• 看的懂的,叫做information(資訊)
• ⽤用得出來的,才能稱為intelligence(情報智慧)
—...
Big Data 的價值
Big Data應⽤用的重點
是我們想要產⽣生什麼
價值呢?
時效合理嗎?
成本合理嗎?
Big Data 的應⽤用
Raw

Data
Preprocessed

Data
Transformed

Data
Pattern Knowledge
01010
op

Cleaning

資料清理
Feature Extraction...
商業智慧流程
過去發⽣生什麼
這件事為什麼發
⺫⽬目前正發⽣生什麼
未來將發⽣生什麼
固定報
多維分析

Excel, 

監控
(儀表
板
計分
預測分析,最佳化
(資料探勘,機器學習
對
商
業
的
影
響
程
1980年代 1990年代 ...
資料探勘應⽤用
Walmart: 啤酒與尿布
來源:雲端⾏行銷⼤大師
Target : 怒氣沖沖的⽼老爸
社交網絡分析
source : ⺩王耀聰—台灣big data 產業供應鏈與⼈人才社群發展現況分析

Live Singapore — Smart
City
Big data Landscape
魔球
電影魔球劇照:http://troubadourconsulting.com/wp-content/uploads/2014/03/Moneyball-Brad-Pitt-and-Jonah-Hill.jpg
Big Data v.s Small Data
• ⼤大部份的公司並不⼀一定會有⼤大量的資料
資料驅動
• 重點不在資料⼤大⼩小,⽽而在依靠資料作決策
Zynga
• 我們是披著遊戲開發商外⽪皮的

資料分析企業 — Zynga CEO
• 遊戲其實是資料驅動營運
• ⼤大量使⽤用 A/B Test
• 三次點擊原則
source:Zynga’s Z-Cloud Infrastructure ...
資料科學家
• 21世紀最性感的職業 

— Harvard Business Review













電腦科學家
數學家領域專家
資料科學家
資料驅動的時代
• 擁有原始資料的企業在巨量資料時代勝出的機會
很⾼高
• 新的創業機會在於資料整合公司
• 資料科學家(團隊)會在未來企業中扮演重要⾓角⾊色
• 企業內部要能將資料分析的結果與洞⾒見連結到正
確決策與企業⽂文化。
來源:Big...
Big Data 也不是萬能的
Big data的未來
• 資料庫系統的「分析流程」和「報告⼯工具」之間
的界限開始模糊,我們最終將會使⽤用「分析科學
的整合⼯工具」
• 服務供應商可能會為同⼀一種商業問題準備多種不
同的解決⽅方案,⽤用⼾戶⼀一樣⾯面臨⼤大量選擇過程
• 使...
報告完畢
• Q & A
What is big data
Upcoming SlideShare
Loading in …5
×

What is big data

1,247 views

Published on

Published in: Internet
  • Be the first to comment

What is big data

  1. 1. Big Data 有多⼤大? 第三次⼯工業⾰革命的到來
  2. 2. 關於我 • 李冠緯 • 臺⼤大電機所碩畢 • 研究Data Mining與Hadoop • ⺫⽬目前是ShareLike的Android ⼯工程師
  3. 3. Outline • Big data 是什麼 • 4V:Volume, Velocity, Variety, Veracity … • Life of Big Data • Big data value Chain • Big Data 的應⽤用 • 資料驅動與資料科學家 • Big data 的未來發展
  4. 4. Big Data就像 … • “Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it … “ 
 
 
 
 — Dan Ariely, Professor of Psychology and Behavioral Economics
  5. 5. 所以Big Data 是 … • 資料是21世紀的原油 • 資料是⿈黃⾦金 • 資料是下⼀一個前瞻技術 • 資料就是⼀一切
  6. 6. 以前的電腦 … 有在收集資料 也能分析資料
  7. 7. 所以這次有什麼不⼀一樣? • 傳說中的3V • Volume, 資料的⼤大⼩小 • Velocity, 資料產出的速度 • Variety, 資料多樣化的程度
  8. 8. Volume - 量 • Facebook ⼀一年產⽣生180 pera-byte的資料 • Google 每⽉月處理的資料是600 pera-byte • pera-byte = 10,00 tera-byte = 1,00,00,00 giga-byte
  9. 9. Velocity - 速度 • Twitter 每秒產⽣生1.2million的tweets • Google 每秒處裡1 million的搜尋
  10. 10. Variety - 種類 結構化資料與⾮非結構化資料
  11. 11. Variety 各式各樣的資料來源
  12. 12. ⼩小結 巨量資料:難以利⽤用現有技術進⾏行管理的⼤大量資料群 Volume 資料量
 10TB~數PB Variety 
 資料多樣 (結構化資料+
 ⾮非結構化資料) Velocity 資料產⽣生頻率、 更新頻率 (1秒內數萬條以上) Big Data
  13. 13. Big Data 的⼀一⽣生 source: ⺩王耀聰,淺談台灣資料產業供應鏈現況 巨
 量
 資
 料
 的
 五
 個
 步
 驟
  14. 14. 愈多資料愈好? by 和沛執⾏行⻑⾧長 翟本橋 • 存的起來的,就是storage(儲存) • 看得到的,才是data(資料) • 看的懂的,叫做information(資訊) • ⽤用得出來的,才能稱為intelligence(情報智慧) — 和沛科技執⾏行⻑⾧長 翟本喬
  15. 15. Big Data 的價值 Big Data應⽤用的重點 是我們想要產⽣生什麼 價值呢? 時效合理嗎? 成本合理嗎?
  16. 16. Big Data 的應⽤用 Raw
 Data Preprocessed
 Data Transformed
 Data Pattern Knowledge 01010 op
 Cleaning
 資料清理 Feature Extraction 
 特徵選取 Machine learning 機器學習 Pattern Mining
 尋找模式 Visualization 資料視覺化 Data preprocessing
 資料前處理 Data Mining
 知識挖掘 Interpreting
 解析結果 Storage " Data Warehousing
 資料倉儲 原始資料 前處理資料 轉換後資料 模式 知識儲存資料
  17. 17. 商業智慧流程 過去發⽣生什麼 這件事為什麼發 ⺫⽬目前正發⽣生什麼 未來將發⽣生什麼 固定報 多維分析
 Excel, 
 監控 (儀表 板 計分 預測分析,最佳化 (資料探勘,機器學習 對 商 業 的 影 響 程 1980年代 1990年代 2000年代 2010年代 從分析現狀到預測未 來源:野村綜合研究所
  18. 18. 資料探勘應⽤用
  19. 19. Walmart: 啤酒與尿布 來源:雲端⾏行銷⼤大師
  20. 20. Target : 怒氣沖沖的⽼老爸
  21. 21. 社交網絡分析 source : ⺩王耀聰—台灣big data 產業供應鏈與⼈人才社群發展現況分析

  22. 22. Live Singapore — Smart City
  23. 23. Big data Landscape
  24. 24. 魔球 電影魔球劇照:http://troubadourconsulting.com/wp-content/uploads/2014/03/Moneyball-Brad-Pitt-and-Jonah-Hill.jpg
  25. 25. Big Data v.s Small Data • ⼤大部份的公司並不⼀一定會有⼤大量的資料
  26. 26. 資料驅動 • 重點不在資料⼤大⼩小,⽽而在依靠資料作決策
  27. 27. Zynga • 我們是披著遊戲開發商外⽪皮的
 資料分析企業 — Zynga CEO • 遊戲其實是資料驅動營運 • ⼤大量使⽤用 A/B Test • 三次點擊原則 source:Zynga’s Z-Cloud Infrastructure by Ravi Kalalota
  28. 28. 資料科學家 • 21世紀最性感的職業 
 — Harvard Business Review
 
 
 
 
 
 
 電腦科學家 數學家領域專家 資料科學家
  29. 29. 資料驅動的時代 • 擁有原始資料的企業在巨量資料時代勝出的機會 很⾼高 • 新的創業機會在於資料整合公司 • 資料科學家(團隊)會在未來企業中扮演重要⾓角⾊色 • 企業內部要能將資料分析的結果與洞⾒見連結到正 確決策與企業⽂文化。 來源:Big Data⼤大數據的獲利模式 — 成⽥田真琴
  30. 30. Big Data 也不是萬能的
  31. 31. Big data的未來 • 資料庫系統的「分析流程」和「報告⼯工具」之間 的界限開始模糊,我們最終將會使⽤用「分析科學 的整合⼯工具」 • 服務供應商可能會為同⼀一種商業問題準備多種不 同的解決⽅方案,⽤用⼾戶⼀一樣⾯面臨⼤大量選擇過程 • 使⽤用者最終的結局是,他們將購買各種各樣的分 析技術,儘管可能不會有任何作⽤用。 來源:印度:Big Data後的機會?或許正在Data的另⼀一⾯面
  32. 32. 報告完畢 • Q & A

×