Your SlideShare is downloading. ×
10708
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

10708

284
views

Published on

Published in: Technology, Business

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
284
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Big Data應用實例10708林姿仱
  • 2. Big Data 是什麼 ?• 「Big Data」這二個字,以為是指超大量的資料的意思,其實,這麼說 Big Data 就太小看它了。• Big Data 指的是對於大量資料處理的工具、程序、方法和流程等的集合,而不是單單指資料的本身而己,因為大量資料在沒有做任何處理以前,就資料本身來說,是不會有任何價值的,所以,需要經過適當的萃取才會有價值。• Big Data 使用的技術其實並不怎麼新奇,主要是利用平行運算、搜尋和客製搜尋等技術,不過,這些技術也都不是什麼很容易就能弄出來的技術 ! 一般來說,Big Data 處理的資料量會在 Petabyte 以上,就是要買 1000 顆 1TB的硬碟來組才有會 1 PB !• http://www.arthurtoday.com/2012/01/big-data.html#.UZTUY6JHJ8E
  • 3. Google• 當你在瀏覽器上輸入想要搜尋的字串時,Google 會檢視數十億個網頁,並依據索引值從中找出內容相符合的網頁,再依據相關的規則列出先後次序,而搜尋引擎會將結果以最快的時間回傳。• Google 就必須時時進行更新的動作,這個動作叫「爬行」(Crawling),而執行爬行動作的程式一般俗稱「爬蟲」(Crawler)或「網路蜘蛛」(Spider),除了搜尋引擎之外,常見的應用還有比價系統,像是 FindPrice、背包客棧國際訂房中心比價等都是。• Google 所開發的三個核心技術:GFS、BigTable 與MapReduce 演算法。
  • 4. • 1. Google File System,用來用以儲存 Big Data• Google File System(GFS 或 GoogleFS)是由數百個叢集(Cluster)所組成。每一個叢集有多達數千台的伺服器,是一種分散式容錯檔案系統,主要的任務是儲存網頁、影片、照片、Email 和 Google Map等資料,而這些檔案極少被刪除或異動,大多數時候都是新增或讀取,因此,對其進行最佳化的管理就非常重要了。• 儲存在 GFS 的檔案會被切割成 64 MB 左右的資料塊(Chunk),分別放在三台稱為 Chunkserver 的伺服器內,當 Chunkserver 發生問題時,主伺服器(Master Server)就會將資料複製到另一個 Chunkserver 上。
  • 5. • 2. BigTable ,利用成對的 Key-Value,快速讀取資料• 主要負責管理 GFS 的機制,屬於分散式資料儲存系統,可以管理分佈在數千台伺服器上的 Big Data,就像是一張資料表(Table),資料表上註明了每一台伺服器所有的資料,包括 Gmail、Google Reader、Google Map以及YouTube 等。• BigTable 採用了鍵與值 Key-Value 的資料架構,其具有水平擴充的能力,只要空間不足就可以立即新增資料庫,而它的儲存容量屬於 PB 等級(1 Petabyte(PB)= 1024TB)• 當然對 Google 而言,系統的回應時間仍是首要考量,因此,BigTable 設計時的主要目標就著重於「可靠地處理大量的數據」,因而採用了叢集平行處理技術。
  • 6. • 3. MapReduce ,用來處理與分析 Big Data• MapReduce 用來進行 Big Data 的計算,其包含了 Map和 Reduce 兩個部份,主要用於大規模資料集的平行運算。• 簡單來說,MapReduce 在處理資料時,Map 函數會把原始資料映射成新的一組鍵與值(Key-Value)的序對,並切割成有規律性的小資料,並經過 Shuffle 做排序,最後再透過 Reducer 函數依相同的 Key 整合結果,最後才能將整體的結果輸出。• 例如,上網查 MapReduce 這個字串,會透過 Map 函數計算網頁上出現「MapReduce」的次數,如果出現 10 次就用(MapReduce, 10)來表示;再用 Reduce 函數彙整所有具有相同 Key 值的資料,並統計它們出現的次數。• http://techorange.com/2013/05/07/meet-google-search-engines-technique/
  • 7. 加速基因研究,癌症將不再折磨人• 電腦運算能力和道德問題為兩大挑戰• 「我們將大量的產生研究數據,此數據量之大是前人無法掌控的」這項研究計畫將囊括基因學家、生醫工程師等學者以解構人類基因譜,藉此找出導致癌症的突變基因,透過了解人類的基因組成。• 「每名病患的疾病分子構造都是 TB(Terabyte,兆位元組)容量的數據,如果我們有 100 萬名病患,整體數據量將變得十分驚人」• 「人類的 DNA 就像是基因分子藍圖,理論上我們不需要直接接觸病患就可以媒合與重製一份病患個資」。• http://techorange.com/2013/05/06/intel-and-oregon-school-seek-to-speed-up-genetic-research-to-fight-cancer/
  • 8. WhosCall• WhosCall這款App產品掌握了人性的兩個需求,一是對於陌生電話的恐懼、二是離線的權利,現今的網路社會,連線是很容易的;離線不被打擾才是人們希望的。• WhosCall總共累積了5億筆電話號碼,每天辨識1千萬通電話、阻擋30萬以上的惡意來電、收到1萬筆以上的Spammer Call(惡意廣播電話、簡訊)使用者回報,這都是WhosCall累積的巨量資料(Big data)。• 分析「短時間密集撥打的電話」,偵測出高頻騷擾電話,提供給使用者最即時的詐騙、騷擾、高風險電話資訊。• http://mix.hpx.tw/2013/ch/whoscall-product-design-and-big-data/
  • 9. 尿布啤酒星期五• 從龐大的交易資料當中,發現了這三者間微妙的連結。最初,Walmart的分析人員只是不經意地發現,在每個週五晚間,總是會有大量的尿布與啤酒被一併購買。• 發現婦女們常會在週五提醒先生在下班後要順路去幫孩子買尿布再回家,而同時先生也會想要順手帶個幾罐啤酒歡渡週末。• 有了這一層面的市場認知後,Walmart就開始在尿布區擺上啤酒飲料架,甚至在啤酒區擺上銷路較差、但價格較高的尿布(吃米都不知道米價了,又有幾個男人真的去研究尿布的價格)。結果,尿布跟啤酒的銷量便大幅成長了三成之多!這樣的「購物車分析」,現在也普遍的存在於一般電子商務中了。• http://store.gixia-group.com/design/infos-data340-8.html
  • 10. 好萊塢也愛 Big Data• 科技之於電影,不僅止帶來炫麗的 3D 特效,也能協助片商擬定最佳行銷策略,衝高票房收入。• IBM 為片商提供的語意分析工具,監測社交媒體對特定電影的討論,以每一分鐘為單位,蒐集到計 11 億條推特推文、 570 萬篇部落格以及論壇貼文、350 萬條相關訊息,擷取其中關鍵訊息,分析主題,判斷網友意向,歸結出網友對電影預告片的看法與評價。• 這些文字被擷取下來之後,首先會進行分類、統計,再與觀眾性別、職業、是否為常上電影院或愛看漫畫等個人特質作交叉分析。• http://techorange.com/2013/04/24/big-data-x-hollywood-movies/
  • 11. 美國知名零售連鎖店Target• 2012年1月,Target發生了涉及顧客隱私的事件,引發了廣泛關注。事件的起因是Target寄了一些有關嬰兒搖籃和嬰兒服的優惠券給讀一名高中女生,居住在明尼蘇達州明尼阿波利斯近郊的女生父親來到該公司的商店提出抗議,向其質問:「你們是建議我女兒早點懷孕嗎?」但隨後了解到女兒確實是懷孕了,這名男子便轉變態度進行了賠禮道歉。• 零售通路對女兒懷孕竟然比其父母發現得還早,到底是怎麼做到的呢?• Target此次發覺高中女生懷孕的過程如下:Target的統計專家使用25種商品進行分析時發現了處於懷孕初期的女性特有的購 買行為,基於這一發現,該公司從這名女高中生的購物記錄中捕捉到了其懷孕的徵兆,甚至推測出了預產期。結果,就按照預產期,向這名女高中生寄出了搖籃及嬰 兒服的折扣券。• http://www.igotmail.com.tw/top/year/34381
  • 12. Big Data商機• IDC:2016年亞太區巨量資料市場規模將達17.6億美元• 根據IDC(國際數據資訊)所做的2012-2016年亞太區(不含日本)巨量資料市場分析與預測報告研究顯示,亞太區的巨量資料市場的成長力道強勁,預估市場規模將從2012年的3億美金成長到2016年的17.6億美元;台灣巨量資料市場規模則是從2012年的1.13千萬美元成長到2016年的4.61千萬美元。• 金融、電信、政府、零售、製造與能源產業對於數據資料分析的需求最為強勁。• http://www.bnext.com.tw/article/view/tag/Big+Data/id/27446
  • 13. http://www.youtube.com/watch?v=iMoNnXxle14