Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
大數據的基本概念
(上)
彙整自《大數據(Big Data)》一書
作者:麥爾荀伯格、庫基耶
天下文化2013年出版
Chris Liao
版權聲明
本簡報中使用的內容與圖片引用,版權皆屬原作者
或原出版商所有。
本簡報僅為個人閱讀書籍、彙整與分享交流之用,
並無商業用途。
內容來源
中文書名:大數據
英文書名:Big Data – A Revolution That Will
Transform How We Live, Work, and Think
作者:麥爾荀伯格(Viktor Mayer-Schӧnber...
大綱
• 什麼是大數據(Big Data)?
• 大數據跟一般數據有何不同?
• 大數據的第一項特性:樣本 = 母體
• 大數據的第二項特性:雜亂不精確
• 大數據的第三項特性:相關性為王
圖片來源:http://www.thebigdatasolutions.com/
什麼是
數據?
什麼是大數據?
• 原文是Big Data,直翻為大數據,又翻為巨量資料
或海量資料
• 大數據該有多大?事實上,沒有絕對的標準,只
要分析的樣本數趨近母體數(相對的概念),都可叫
大數據;總之,不會太小
圖片來源:
http://www.fo...
什麼是大數據?
• 哪裡看的到大數據?在天文觀察、人類基因組解
密、股市交易、Google搜尋、Facebook的照片與
留言、Youtube的影片、Twitter的訊息等領域,都
看的到大數據及其應用
圖片來源:https://sites.g...
什麼是大數據?
Google每天的搜尋量超過
35億次!
推特(Twitter)每天發布的訊
息量超過5億則!
當我們利用幾乎全部的資料來進行分析,就是使用大數據的第一步
大數據 有何不同?
圖片來源:https://someoffenseintended.wordpress.com/tag/mens-rights/
大數據有何不同?
1. 資料可以重複利用,產生新的經濟價值
2. 資料規模的改變引發狀態的改變 (量變質變)
3. 必須使用新的工具來分析資料
4. 創新之處不在於處理資料的機器,而是資料本身
和使用的方式
大數據有何不同?
• 巨量資料的使用包含三種思維的改變:
1. 要具備針對主題分析龐大資料整體的能力
2. 願意接受真實資料會雜亂不清的事實
3. 要看重相關性,而非因果關係
圖片來源:http://www.taopic.com/search....
案例一
http://www.google.org/flutrends
Google利用搜尋關鍵字預測H1N1流感傳播情形
案例一
• Google拿美國最常見的5000萬個搜尋關鍵字與疾
病管制局的歷史流感傳播資料比對
• 建立4萬5千種數學模型,找出45個搜尋關鍵字,
與流感最有關連
• 這些關鍵字能夠提供即時的疫情爆發預測,而非
疾管局遲至一、兩個禮拜後的通報...
案例二
Farecast利用大數據分析預測飛機票價資訊
圖片來源:https://www.flickr.com/photos/7773848@N03/500455560/
案例二
• Farecast從航空業航班預定資料庫中取得2000億
筆飛機票價紀錄,與出發前天數做比較
• 如果系統預測機票價格平均將下跌,就會建議消
費者再等等;如果預測機票價格將上漲,則會建
議以目前票價購買
• 2008年被微軟併購,結合...
大數據特性一:
樣本 = 母體
圖片來源:http://tiffyx.deviantart.com/art/LEGO-population-72423610
大數據特性一:樣本=母體
• 母體:針對一主題研究調查的全體對象
• 樣本:母體中抽樣取出的子集合
• 大部分研究基於成本與時間考量,無法針對所有
對象(母體)做研究,於是便採用隨機抽樣的方式挑
選出足以代表母體特徵的樣本作為研究對象
母體:例...
抽樣的問題
• 很多時候,刻意打造能代表母體的樣本,反而導
致巨大的誤差,最好的方法便是進行隨機抽樣
• 但真正的隨機抽樣其實難上加難,易受系統性偏
差影響
• 抽樣的另外一個問題是:抽樣後的尺度無法調整,
若想將結果分成子群,結果的錯誤率會大增
抽樣的問題
• 抽樣後調整尺度的問題舉例:
全校2000位小學生中,抽樣100位學生,依據年齡與身高做比對,結果如下:
再從9~10歲的子群中,進一步分析男女的身高影響,結果如下:
除了樣本數少造成誤差提高之外,子群能否代表原先
抽樣的群體也是...
抽樣的問題
• 抽樣調查必須精心的規劃與執行,蒐集的樣本無
法再繼續擴展延伸,只能用於最初蒐集的目的,
無法以全新觀點加以分析
• 若一開始針對顧客年齡、性別、購買頻率的資料
進行抽樣調查,蒐集完成後要再進一步分析平均
購買單價,便會很難
圖片...
大數據特性一:樣本=母體
• 由於技術與資料化已有長足進步,蒐集全部對象
的資料不再是不可能的任務
• 大數據分析要能創造新的價值,勢必要在一開始
便盡量蒐集全部的資料,也就是「樣本 = 母體」
• 所以大數據指的不是絕對的資料量,而是相對的
...
案例三
Xoom透過大數據分析監控國際匯款業務
https://www.xoom.com/
案例三
• 2011年透過系統警告發現,紐澤西州有一批信用
卡的交易出現異常,資料庫中原本不應該有固定
模式的地方,出現了固定模式,而這些交易隨後
證實都出自同一犯罪集團
Xoom透過大數據分析監控國際匯款業務
http://www.econo...
案例四
• 芝加哥大學經濟學家
李維特分析11年來超過
64000場相撲比賽紀錄,
發現了比賽的作假情形
• 由於選手勝場數必須
過半才能維持級別與收入,若甲方不差一場勝利,而
乙方只差一場勝利,則乙方獲勝的機率極高
日本相撲比賽作假
圖片來源...
案例五
利用通話紀錄分析群體人際網絡
• 網路理論學家巴拉巴西分析在歐洲某國市占率達
五分之一的行動通訊商之四個月內的通訊資料
• 在分析整體資料後,得出了獨特的結論:如果把
社群中連結眾多的人去除後,網絡雖不再緊密,
但仍不會崩潰;若是移除與...
圖片來源:http://dreamtouchrenovations.com/home-clutter-cleaning/
大數據特性二:
雜
亂
不精確
大數據特性二:雜亂不精確
• 雜亂的來源:
1. 資料量越多,資料錯誤不精確的可能性越高
2. 結合不同源頭、不同類型的資料
3. 資料格式不一致
巨量資料的概念,就是讓數據的重點從「精確」走
向「可能性」
大數據特性二:雜亂不精確
• 過去的類比時代缺乏資訊,每個資料點都至關重
要,因此資料的精確是最重要的
• 但現在,透過科技技術的發展,我們可以輕易蒐
集到大量的數位資料,資料的精確性已不再重要
• 事實上,造成雜亂的不是大數據本身,是測量、
...
大數據特性二:雜亂不精確
• 以往的關連式資料庫用於應付當時資料有限的狀
況,必須在一開始就知道要問那些問題,據以設
計資料庫,但資料庫就只能回答這些問題而已
• 現在的資料庫漸漸從SQL資料庫程式語言轉換成
NoSQL,像是Google的Ma...
大數據特性二:雜亂不精確
• 有人估計,所有數位資料中,只有5%適合傳統資
料庫的結構化形式,如果不接受雜亂,就無從使
用其他95%的非結構化資料
從現在開始,我們應該擁抱不精確所帶來的好處!
資料雜亂
但數量龐大 資料精確
但數量少
案例六
• 早在1997年,超級電腦「深藍」就曾擊
敗世界西洋棋王卡斯巴羅夫
• 現在,電腦的棋力更大為進步,因為系
統裡有了更多的殘局應對資料,電腦的
殘局處理能力有顯著進步
• 針對六顆棋子以下的殘局,所有的棋步
都有完整分析,人類絕對無法...
案例七
電腦自然語言處理(語言翻譯)能力
Google目前提供共91種語言的翻譯,也能提供一些罕見的語言對譯,例如:北
印度語和加泰羅尼亞語;甚至可由查詢的使用者決定哪一種翻譯最好
案例七
• 2000年微軟研究員實驗證實,與其開發演算法,
擴大語料庫的成效更好
• 1990年代,IBM開發Candide系統,輸入英法語國
會文件,將語言翻譯問題轉換為數學運算問題
• 2006年Google利用全球網路多達數十億的翻譯網
...
案例八
• 英國石油公司在櫻桃岬煉油廠各處裝有感應器,
藉以即時產生大量監測資料
• 由於環境溫度高,又有各種電器設備,所以雜訊
也多,但龐大的資料量蓋過此缺點,協助英國石
油公司預測或分析風險點與原因
英國石油公司煉油廠的風險控管
圖片來源:...
案例九
• 美國勞工統計局需雇用數百名員工蒐集市場上八
萬個項目的價格來計算消費者物價指數,需花費
大量金錢與時間
• 麻省理工學院利用抓取網頁的軟體,每天蒐集全
美超過50萬品項的產品價格,雖然資料十分混亂,
但結合巨量資料的蒐集與分析,能比...
案例十
• 由於不可能預先設想到所有可能的分類,Flickr便
讓使用者自訂標籤(當然可能打錯或拼錯字)
Flickr用標籤(Tag)取代照片分類
圖片來源: http://climbtothestars.org/archives/2007/0...
案例十一
ZestFinance利用大數據判斷是否提供小額短期貸款
http://www.zestfinance.com/
案例十一
• Google前資訊長梅瑞爾成立的ZestFinance透過分
析大量重要與「不重要」因素,判斷申請人的信
用評比,藉此決定是否該提供小額短期貸款
• 許多借款客戶的資料欄位都是空的,或甚至被誤
登記為「已死亡」(高達10%的客戶!...
大數據特性三:
相
關
性
為王
圖片來源: http://www.ucchusma.net/station/art_web/thangka/tk_other/Wheel_of_life/
大數據特性三:相關性為王
• 很多時候,我們只需要知道「正是如此」,不需
要知道「為何如此」
• 也就是注重「相關性」,而非「因果關係」
圖片來源:http://www.garmaonhealth.com/the-hormone
-chroni...
因果研究的缺點
• 小量資料的時代,往往是先提出假說,再調查因
果關係或相關性分析,易受先入為主的偏見或錯
覺影響
• 人類直覺式尋找因果關係的「快思系統」,讓我
們能很快下結論,但容易產生偏見與誤解
• 因果關係的研究與實驗,往往非常昂貴又費...
大數據特性三:相關性為王
• 許多過去基於假說的研究方法,現在可以改用資
料作為基礎,讓研究結果減少偏見及更準確,而
且更加快速
• 大數據的應用之一,就是「預測分析」,例如預
測歌曲是否為暢銷金曲、偵測機械或結構中的問
題,藉由偵測徵兆而發出...
大數據特性三:相關性為王
• 以往面對大型資料集的分析,通常只能尋找線性
關係,但有許多現實世界的關係並非線性關係,
而是非線性關係,在運算分析能力精進的現在,
應能找出這些非線性的關係
圖片來源:http://www.emathzone.co...
案例十二
• 亞馬遜起初聘請十多
位書評和編輯提出建
議閱讀書目
• 隨後開發「品項對品
項」協同篩選技術,
由系統自動推薦書目
• 測試結果竟比書評的建議更具成效,即使電腦壓
根不知道為什麼買A產品的人還會買B產品
亞馬遜網路商店的大數據推薦...
案例十三
• 2004年沃爾瑪透過Teradata的相關性分析協助,
從龐大的歷史交易紀錄中發掘獨特的購買行為
• 颶風來襲前,除了手電筒,小甜點Pop-Tarts也意
外熱銷,此發現讓沃爾瑪得以提出相應行銷策略
沃爾瑪利用相關性分析找出颶風來...
案例十四
• 塔吉特(Target)利用大數據分析,判斷哪些消費者
屬於懷孕婦女客群,甚至能預測懷孕階段與小孩
出生日期,藉此寄送恰到好處的優惠券
• 有一次,一位父親抱怨塔吉特竟然寄送嬰兒服與
嬰兒床的優惠券給就讀高中的女兒,認為是在變
相鼓...
案例十五
• IBM與醫院合作,偵測與紀錄早產兒的16種資料
流,每秒有1260個資料點
• 透過即時的數據分析,便能在感染症狀出現前24
小時預先偵測到,讓醫師能對症下藥
• 獨特的發現包括:以往認為感
染爆發前會有身體不適的症狀
,但數據結...
案例十六
• 愛迪生聯合電力公司求助哥倫比亞大學的統計學
者,希望透過巨量資料分析,找出高風險的人孔
蓋,讓他們可以提早維修
• 透過分析2008年以前的所有資料,結果顯示「電
纜年份」與「過去是否發生事故」是最重要的指
標
• 用於預測200...
謝謝您的閱讀與指教!
預計「大數據的基本概念(中)」的內容:
1. 大數據的基礎:資料化
2. 大數據的價值所在
3. 大數據的資料價值鏈
Upcoming SlideShare
Loading in …5
×

大數據的基本概念(上)

以"大數據(麥爾荀伯格、庫基耶著、林俊宏譯、天下文化出版)"一書內容為主軸,所彙整之簡報,用於分享與交流。
有任何問題與意見,請email至:chris.liao0516@gmail.com

  • Be the first to comment

大數據的基本概念(上)

  1. 1. 大數據的基本概念 (上) 彙整自《大數據(Big Data)》一書 作者:麥爾荀伯格、庫基耶 天下文化2013年出版 Chris Liao
  2. 2. 版權聲明 本簡報中使用的內容與圖片引用,版權皆屬原作者 或原出版商所有。 本簡報僅為個人閱讀書籍、彙整與分享交流之用, 並無商業用途。
  3. 3. 內容來源 中文書名:大數據 英文書名:Big Data – A Revolution That Will Transform How We Live, Work, and Think 作者:麥爾荀伯格(Viktor Mayer-Schӧnberger) 庫基耶(Kenneth Cukier) 出版商:天下文化;譯者:林俊宏
  4. 4. 大綱 • 什麼是大數據(Big Data)? • 大數據跟一般數據有何不同? • 大數據的第一項特性:樣本 = 母體 • 大數據的第二項特性:雜亂不精確 • 大數據的第三項特性:相關性為王
  5. 5. 圖片來源:http://www.thebigdatasolutions.com/ 什麼是 數據?
  6. 6. 什麼是大數據? • 原文是Big Data,直翻為大數據,又翻為巨量資料 或海量資料 • 大數據該有多大?事實上,沒有絕對的標準,只 要分析的樣本數趨近母體數(相對的概念),都可叫 大數據;總之,不會太小 圖片來源: http://www.forbes.com/sites/gartnergroup/2013/03/27/gart ners-big-data-definition-consists-of-three-parts-not-to-be- confused-with-three-vs/
  7. 7. 什麼是大數據? • 哪裡看的到大數據?在天文觀察、人類基因組解 密、股市交易、Google搜尋、Facebook的照片與 留言、Youtube的影片、Twitter的訊息等領域,都 看的到大數據及其應用 圖片來源:https://sites.google.com/site/jjhumangenome/ 人類基因組共包括23對 染色體,約30億個鹼基對!
  8. 8. 什麼是大數據? Google每天的搜尋量超過 35億次! 推特(Twitter)每天發布的訊 息量超過5億則! 當我們利用幾乎全部的資料來進行分析,就是使用大數據的第一步
  9. 9. 大數據 有何不同? 圖片來源:https://someoffenseintended.wordpress.com/tag/mens-rights/
  10. 10. 大數據有何不同? 1. 資料可以重複利用,產生新的經濟價值 2. 資料規模的改變引發狀態的改變 (量變質變) 3. 必須使用新的工具來分析資料 4. 創新之處不在於處理資料的機器,而是資料本身 和使用的方式
  11. 11. 大數據有何不同? • 巨量資料的使用包含三種思維的改變: 1. 要具備針對主題分析龐大資料整體的能力 2. 願意接受真實資料會雜亂不清的事實 3. 要看重相關性,而非因果關係 圖片來源:http://www.taopic.com/search.php?keyword=%D0%A1%C5%AE%BA%A2%CB%BC%BF%BC 分析 資料整體 不精確 是必然 重視 相關性
  12. 12. 案例一 http://www.google.org/flutrends Google利用搜尋關鍵字預測H1N1流感傳播情形
  13. 13. 案例一 • Google拿美國最常見的5000萬個搜尋關鍵字與疾 病管制局的歷史流感傳播資料比對 • 建立4萬5千種數學模型,找出45個搜尋關鍵字, 與流感最有關連 • 這些關鍵字能夠提供即時的疫情爆發預測,而非 疾管局遲至一、兩個禮拜後的通報速度 Google利用搜尋關鍵字預測H1N1流感傳播情形
  14. 14. 案例二 Farecast利用大數據分析預測飛機票價資訊 圖片來源:https://www.flickr.com/photos/7773848@N03/500455560/
  15. 15. 案例二 • Farecast從航空業航班預定資料庫中取得2000億 筆飛機票價紀錄,與出發前天數做比較 • 如果系統預測機票價格平均將下跌,就會建議消 費者再等等;如果預測機票價格將上漲,則會建 議以目前票價購買 • 2008年被微軟併購,結合進Bing搜尋引擎中(儼然 是扼殺了這套系統…) Farecast利用大數據分析預測飛機票價資訊
  16. 16. 大數據特性一: 樣本 = 母體 圖片來源:http://tiffyx.deviantart.com/art/LEGO-population-72423610
  17. 17. 大數據特性一:樣本=母體 • 母體:針對一主題研究調查的全體對象 • 樣本:母體中抽樣取出的子集合 • 大部分研究基於成本與時間考量,無法針對所有 對象(母體)做研究,於是便採用隨機抽樣的方式挑 選出足以代表母體特徵的樣本作為研究對象 母體:例如所有65歲以上的人口 樣本:例如65歲以上的人口中,依據縣市人口比例抽樣共1萬人
  18. 18. 抽樣的問題 • 很多時候,刻意打造能代表母體的樣本,反而導 致巨大的誤差,最好的方法便是進行隨機抽樣 • 但真正的隨機抽樣其實難上加難,易受系統性偏 差影響 • 抽樣的另外一個問題是:抽樣後的尺度無法調整, 若想將結果分成子群,結果的錯誤率會大增
  19. 19. 抽樣的問題 • 抽樣後調整尺度的問題舉例: 全校2000位小學生中,抽樣100位學生,依據年齡與身高做比對,結果如下: 再從9~10歲的子群中,進一步分析男女的身高影響,結果如下: 除了樣本數少造成誤差提高之外,子群能否代表原先 抽樣的群體也是問題 年齡區間 學生數 平均身高 7~8歲 35 124 cm 9~10歲 40 133 cm 11~12歲 25 140 cm 性別 學生數 平均身高 男 22 130 女 18 136.7
  20. 20. 抽樣的問題 • 抽樣調查必須精心的規劃與執行,蒐集的樣本無 法再繼續擴展延伸,只能用於最初蒐集的目的, 無法以全新觀點加以分析 • 若一開始針對顧客年齡、性別、購買頻率的資料 進行抽樣調查,蒐集完成後要再進一步分析平均 購買單價,便會很難 圖片來源:http://www.examiner.com/article/don-t-suffer-from- regretful-social-networking-part-1
  21. 21. 大數據特性一:樣本=母體 • 由於技術與資料化已有長足進步,蒐集全部對象 的資料不再是不可能的任務 • 大數據分析要能創造新的價值,勢必要在一開始 便盡量蒐集全部的資料,也就是「樣本 = 母體」 • 所以大數據指的不是絕對的資料量,而是相對的 概念,指的是要有完整的資料集
  22. 22. 案例三 Xoom透過大數據分析監控國際匯款業務 https://www.xoom.com/
  23. 23. 案例三 • 2011年透過系統警告發現,紐澤西州有一批信用 卡的交易出現異常,資料庫中原本不應該有固定 模式的地方,出現了固定模式,而這些交易隨後 證實都出自同一犯罪集團 Xoom透過大數據分析監控國際匯款業務 http://www.economist.com/node/21554743
  24. 24. 案例四 • 芝加哥大學經濟學家 李維特分析11年來超過 64000場相撲比賽紀錄, 發現了比賽的作假情形 • 由於選手勝場數必須 過半才能維持級別與收入,若甲方不差一場勝利,而 乙方只差一場勝利,則乙方獲勝的機率極高 日本相撲比賽作假 圖片來源:http://japan-magazine.jnto.go.jp/tw/1312_sumo.html
  25. 25. 案例五 利用通話紀錄分析群體人際網絡 • 網路理論學家巴拉巴西分析在歐洲某國市占率達 五分之一的行動通訊商之四個月內的通訊資料 • 在分析整體資料後,得出了獨特的結論:如果把 社群中連結眾多的人去除後,網絡雖不再緊密, 但仍不會崩潰;若是移除與社群外有聯繫的人, 則整個網絡反而有可能會崩潰
  26. 26. 圖片來源:http://dreamtouchrenovations.com/home-clutter-cleaning/ 大數據特性二: 雜 亂 不精確
  27. 27. 大數據特性二:雜亂不精確 • 雜亂的來源: 1. 資料量越多,資料錯誤不精確的可能性越高 2. 結合不同源頭、不同類型的資料 3. 資料格式不一致 巨量資料的概念,就是讓數據的重點從「精確」走 向「可能性」
  28. 28. 大數據特性二:雜亂不精確 • 過去的類比時代缺乏資訊,每個資料點都至關重 要,因此資料的精確是最重要的 • 但現在,透過科技技術的發展,我們可以輕易蒐 集到大量的數位資料,資料的精確性已不再重要 • 事實上,造成雜亂的不是大數據本身,是測量、 記錄與分析的工具尚不完善
  29. 29. 大數據特性二:雜亂不精確 • 以往的關連式資料庫用於應付當時資料有限的狀 況,必須在一開始就知道要問那些問題,據以設 計資料庫,但資料庫就只能回答這些問題而已 • 現在的資料庫漸漸從SQL資料庫程式語言轉換成 NoSQL,像是Google的MapReduce系統與開放 碼軟體Hadoop
  30. 30. 大數據特性二:雜亂不精確 • 有人估計,所有數位資料中,只有5%適合傳統資 料庫的結構化形式,如果不接受雜亂,就無從使 用其他95%的非結構化資料 從現在開始,我們應該擁抱不精確所帶來的好處! 資料雜亂 但數量龐大 資料精確 但數量少
  31. 31. 案例六 • 早在1997年,超級電腦「深藍」就曾擊 敗世界西洋棋王卡斯巴羅夫 • 現在,電腦的棋力更大為進步,因為系 統裡有了更多的殘局應對資料,電腦的 殘局處理能力有顯著進步 • 針對六顆棋子以下的殘局,所有的棋步 都有完整分析,人類絕對無法勝出 對弈數越多,電腦下西洋棋越強 圖片來源: https://zh.wikipedia.org/wik i/%E6%B7%B1%E8%97% 8D_(%E9%9B%BB%E8% 85%A6)
  32. 32. 案例七 電腦自然語言處理(語言翻譯)能力 Google目前提供共91種語言的翻譯,也能提供一些罕見的語言對譯,例如:北 印度語和加泰羅尼亞語;甚至可由查詢的使用者決定哪一種翻譯最好
  33. 33. 案例七 • 2000年微軟研究員實驗證實,與其開發演算法, 擴大語料庫的成效更好 • 1990年代,IBM開發Candide系統,輸入英法語國 會文件,將語言翻譯問題轉換為數學運算問題 • 2006年Google利用全球網路多達數十億的翻譯網 頁開發語言翻譯功能,雖然資料雜亂,翻譯的成 效卻比其他系統好得多 電腦自然語言處理(語言翻譯)能力
  34. 34. 案例八 • 英國石油公司在櫻桃岬煉油廠各處裝有感應器, 藉以即時產生大量監測資料 • 由於環境溫度高,又有各種電器設備,所以雜訊 也多,但龐大的資料量蓋過此缺點,協助英國石 油公司預測或分析風險點與原因 英國石油公司煉油廠的風險控管 圖片來源:http://beaconnews.ca/blog/2015/08/western-canada-feeling- pains-of-low-crude-and-high-gas-prices/
  35. 35. 案例九 • 美國勞工統計局需雇用數百名員工蒐集市場上八 萬個項目的價格來計算消費者物價指數,需花費 大量金錢與時間 • 麻省理工學院利用抓取網頁的軟體,每天蒐集全 美超過50萬品項的產品價格,雖然資料十分混亂, 但結合巨量資料的蒐集與分析,能比人工作業快 上2個月看出通貨緊縮的端倪 蒐集大量網頁中的價格資訊來預測通貨緊縮危機
  36. 36. 案例十 • 由於不可能預先設想到所有可能的分類,Flickr便 讓使用者自訂標籤(當然可能打錯或拼錯字) Flickr用標籤(Tag)取代照片分類 圖片來源: http://climbtothestars.org/archives/2007/06/20/flickr-open-up-tagging-your-photos-to-the-community-please/ 2015年時,Flickr已 有9200萬名會員, 每天上傳超過350萬 張照片!
  37. 37. 案例十一 ZestFinance利用大數據判斷是否提供小額短期貸款 http://www.zestfinance.com/
  38. 38. 案例十一 • Google前資訊長梅瑞爾成立的ZestFinance透過分 析大量重要與「不重要」因素,判斷申請人的信 用評比,藉此決定是否該提供小額短期貸款 • 許多借款客戶的資料欄位都是空的,或甚至被誤 登記為「已死亡」(高達10%的客戶!) • 2012年,該公司的貸款違約率比起行業平均低上 三分之一 ZestFinance利用大數據判斷是否提供小額短期貸款
  39. 39. 大數據特性三: 相 關 性 為王 圖片來源: http://www.ucchusma.net/station/art_web/thangka/tk_other/Wheel_of_life/
  40. 40. 大數據特性三:相關性為王 • 很多時候,我們只需要知道「正是如此」,不需 要知道「為何如此」 • 也就是注重「相關性」,而非「因果關係」 圖片來源:http://www.garmaonhealth.com/the-hormone -chronic-health-problem-connection/ • 相關性 (Correlation) A增加,則B有很高機率增加 • 因果關係 (Causation) 若有P,則有Q;若非Q,則非P
  41. 41. 因果研究的缺點 • 小量資料的時代,往往是先提出假說,再調查因 果關係或相關性分析,易受先入為主的偏見或錯 覺影響 • 人類直覺式尋找因果關係的「快思系統」,讓我 們能很快下結論,但容易產生偏見與誤解 • 因果關係的研究與實驗,往往非常昂貴又費時, 而相關性的研究,相較之下相當快速又便宜,相 關性分析甚至能協助找出因果關係
  42. 42. 大數據特性三:相關性為王 • 許多過去基於假說的研究方法,現在可以改用資 料作為基礎,讓研究結果減少偏見及更準確,而 且更加快速 • 大數據的應用之一,就是「預測分析」,例如預 測歌曲是否為暢銷金曲、偵測機械或結構中的問 題,藉由偵測徵兆而發出警告,能夠避免突然的 重大故障
  43. 43. 大數據特性三:相關性為王 • 以往面對大型資料集的分析,通常只能尋找線性 關係,但有許多現實世界的關係並非線性關係, 而是非線性關係,在運算分析能力精進的現在, 應能找出這些非線性的關係 圖片來源:http://www.emathzone.com/tutorials/basic-statistics/linear-and-non-linear-correlation.html
  44. 44. 案例十二 • 亞馬遜起初聘請十多 位書評和編輯提出建 議閱讀書目 • 隨後開發「品項對品 項」協同篩選技術, 由系統自動推薦書目 • 測試結果竟比書評的建議更具成效,即使電腦壓 根不知道為什麼買A產品的人還會買B產品 亞馬遜網路商店的大數據推薦系統 圖片來源:http://www.jayteo.me/2014/05/25/the-future-of-brick-mortar- business-will-be-an-integrated-offline-online-experience/
  45. 45. 案例十三 • 2004年沃爾瑪透過Teradata的相關性分析協助, 從龐大的歷史交易紀錄中發掘獨特的購買行為 • 颶風來襲前,除了手電筒,小甜點Pop-Tarts也意 外熱銷,此發現讓沃爾瑪得以提出相應行銷策略 沃爾瑪利用相關性分析找出颶風來襲前的熱銷商品 圖片來源:http://www.savingwellspendingless.com/2012/04/03/hot- kelloggs-pop-tarts-and-mini-crisps-coupon-1-85-each-at-walmart/
  46. 46. 案例十四 • 塔吉特(Target)利用大數據分析,判斷哪些消費者 屬於懷孕婦女客群,甚至能預測懷孕階段與小孩 出生日期,藉此寄送恰到好處的優惠券 • 有一次,一位父親抱怨塔吉特竟然寄送嬰兒服與 嬰兒床的優惠券給就讀高中的女兒,認為是在變 相鼓勵未婚懷孕,結果後來證實是女兒懷孕瞞著 父親 塔吉特的相關性分析結果讓它比父親還早知道女兒懷孕
  47. 47. 案例十五 • IBM與醫院合作,偵測與紀錄早產兒的16種資料 流,每秒有1260個資料點 • 透過即時的數據分析,便能在感染症狀出現前24 小時預先偵測到,讓醫師能對症下藥 • 獨特的發現包括:以往認為感 染爆發前會有身體不適的症狀 ,但數據結果顯示在爆發前, 有一段時間生命徵象非常穩定 在早產兒出現明顯症狀前就預先偵測感染情況 圖片來源:https://www.yumpu.com/en/document/view/18888177/neonatal-rashes
  48. 48. 案例十六 • 愛迪生聯合電力公司求助哥倫比亞大學的統計學 者,希望透過巨量資料分析,找出高風險的人孔 蓋,讓他們可以提早維修 • 透過分析2008年以前的所有資料,結果顯示「電 纜年份」與「過去是否發生事故」是最重要的指 標 • 用於預測2009年的危險人孔蓋,其中列出的前 10%危險清單中,有44%之後確實發生嚴重事故 紐約市如何找出高氣爆風險人孔蓋? 圖片來源:http://web.mit.edu/rudin/www/RudinEtAl2011ComputerMagazine.pdf
  49. 49. 謝謝您的閱讀與指教! 預計「大數據的基本概念(中)」的內容: 1. 大數據的基礎:資料化 2. 大數據的價值所在 3. 大數據的資料價值鏈

×