SlideShare a Scribd company logo
1 of 23
Download to read offline
理所當然的大數據
空間資訊
高英勛
2014/10/29
什麼叫大?
Bytes, “1”
kilobytes (10^3), text
megabytes (10^6), image
gigabytes (10^9), movie(DVD)
terabytes (10^12), facebook每天資料量600T
petabytes (10^15), 福衛總影像資料量
exabytess (10^18)
...
Cloud
資料探勘 統計學
超級電腦
資料庫
分散式資料庫
分散式檔案系統
分散式運算環境
NoSQL
Internet of Things
看看Wiki
大數據:指的是所涉及的資料量規模巨大到無法
透過人工,在合理時間內達到擷取、管理、處理、
並整理成為人類所能解讀的資訊
3Vs:資料增長的挑戰和機遇
有三個方向:
量(Volume,資料大小)、
速(Velocity,資料輸入輸出
的速度)與
多變(Variety,多樣性)
Wiki本身正是大數據的典型例子
愈來愈多
很多資料一直都在....
可能很多人做過:
Backups
+ Backup of 2013
+ Backup of C
+ Backup of D
+ Backup of E
+ Backup of 40G-HD
+ My first HD (40MB)
但現在不太會這樣做了,因為
對拷的時間愈來愈長.....
愈來愈多
人愈來愈多,電腦也愈來愈多,數位化的東西也
愈來愈多
這是天空中人造衛星和碎片的數量變化圖:
Payloads ALL / ROC
On Orbit: 3973 / 9
Decayed: 3030 / 0
Total: 7003 / 9
Active: 1348 / 8
資料來源:
http://www.celestrak.com/satcat/boxscore.asp
愈來愈多,也愈來愈快
● 底片和沖洗照片
● 36張
● 你在玩攝影?
● 來我家看照片
● 我會寄給你
● JPEG / Mpeg4 / ...
● 100張加一些影片
● 人手一機
● 趕快上傳打卡
● 為什麼已讀不回?
JPEG EXIF
Exchangeable image file
format
日本電子工業發展協會在
1996年制定
要不要來分析時間和使用閃
光燈的關連性呢?
還能加上位置和當時的氣象
資料就很有趣了
Tag Value
Manufacturer CASIO
Model QV-4000
Orientation (rotation) top - left [8 possible values]
Software Ver1.01
Date and Time 2003:08:11 16:45:32
YCbCr Positioning centered
Compression JPEG compression
x-Resolution 72.00
y-Resolution 72.00
Resolution Unit Inch
Exposure Time 1/659 sec.
FNumber f/4.0
ExposureProgram Normal program
Exif Version Exif Version 2.1
Date and Time (original) 2003:08:11 16:45:32
Date and Time (digitized) 2003:08:11 16:45:32
ComponentsConfiguration Y Cb Cr -
Compressed Bits per Pixel 4.01
Exposure Bias 0.0
MaxApertureValue 2.00
Metering Mode Pattern
Flash Flash did not fire.
來看看空間資訊
量(Volume,資料大小):
幾個點?時間軸?多少屬性資料?
速(Velocity,資料輸入輸出的速度):
輸入:”要數化嗎?”, 自動生產的資料, Crowd sourcing(很久
沒有人說的Web2.0:台灣數鳥、OpenStreetMap)
輸出:應該要多快?WebGIS、預報、緊急應變
多變(Variety,多樣性):
幾層?聯集?交集?緩衝區?Time-series?Profiling?
一個有趣的例子
AIS: Automatic Identification System
資料來源:交通部運輸研究所港灣技術研究中心,台灣海域船舶動態系統
http://ais.ihmt.gov.tw/
再一個有趣的例子
OpenStreetMaps
http://www.openstreetmap.org/ http://openstreetmap.tw/
● 當地的知識:貢獻者使用 航照圖、GPS裝置與低科技的實
地考察製圖,來驗證OSM 是正確而最新的。
● 社群推動:OpenStreetMap的社群多元化、懷有熱情,而且
日益壯大。我們的貢獻者包括地圖製作愛好者,地理信息
系統的專業人員,提供OSM伺服器的工程師,為受災害影
響區域製圖的人道主義志願人士,以及其他各界人士。
● 開放資料:您可以自由地使用作任何用途,前提是您須標
明作者為OpenStreetMap及其貢獻者。(ODbL & CC
BY-SA)
理所當然的大數據
GPS 和遙測技術讓空間資訊的
量(Volume,資料大小)和
速(Velocity,資料輸入輸出的速度)
進入了不同 “order” 的狀態
網路則創造了各式各樣的資料匯流
這時真正進入了大數據的世界
➔ 特別是在大家的手機有GPS又能連網之後
有差嗎?
測量、數化、校正影像,偶爾用用GIS軟體好像還
是佔去生活的全部.....
➔ 屬性資料還是都來自測量
➔ 遙測回來的資料還是需要轉檔和校正
➔ Google Map 好像取代不了 ArcGIS
其中有一項很大的差別是多少資料被丟掉了
關鍵在產出
所以現在資料科學家 (Data scientist) 蠻紅的。
Google, Facebook 和很多商業公司分析數據是為
了賺錢。
分析空間資訊可以怎麼賺錢?
或是怎麼拯救世界?
當然,那些要賺錢的公司,也讓軟硬體技術更成
熟了
來看看空間資訊(咦?這張看過了?)
量(Volume,資料大小):
幾個點?時間軸?多少屬性資料?
速(Velocity,資料輸入輸出的速度):
輸入:”要數化嗎?”, 自動生產的資料, Crowd sourcing(很久
沒有人說的Web2.0:台灣數鳥、OpenStreetMap)
輸出:應該要多快?WebGIS、預報、緊急應變
多變(Variety,多樣性):
幾層?聯集?交集?緩衝區?Time-series?Profiling?
關鍵在產出(咦?這張也看過了?)
分析空間資訊可以怎麼賺錢? 或是怎麼拯救世
界?
什麼是有價值的產出?
不要小看視覺化的價值
什麼是來得及的產出?
不過”來不及”的產出還可以用來寫論文
想想看:這也是空間資訊
這樣的資料量一點
都不大,不太有趣
用YouBike數據能產出什麼?
● 大家關心的是什麼?
○ 使用者:下一台車在哪裡,要等多久
○ 營運商:車體壽命和維運成本最佳化(賺錢!)
● 多蒐集一些資料
○ YouBike上裝感測器:GPS?
○ 結合 YouBike app 的使用記錄
○ 整合其他的資料:氣候、紅綠燈的燈號狀態
○ 透過分析或模擬產出新的資料:每一台車的使用年限
/總里程
● 即時性?
○ 也許真正需要的是增加平均等待時間的顯示
○ 和一些很厲害的”單車工程師”
大數據帶來的挑戰
● 資料面:
○ 品質
○ 整合
○ 應用
● 技術面:
○ 儲存技術
○ 運算效能
○ 分析工具
● 資料科學
○ 定義品質和篩檢
○ 運用不同性質不同來
源的資料
○ 了解使用者需求,解
決新問題
● Apache Hadoop
○ HDFS
○ MapReduce
○ 其他分析工具: R,
MathLab, ...
和30年前的平行運算環境最大的差別是:所有的硬體現在都很便宜!
可以透過大量浪費來換取速度
HDFS & Object database
● 資料複寫:Balanced & mixed, High availability
● 基於 write-once, read many 的使用型態來設計
● Object database: index + data, data無固定的欄
位
Map&Reduce
關鍵想法:傳程式和結果,比傳資料快
● 要知道資料在哪一台server
● “外部”資料仍要透過傳輸 (程式的一部份)
● 結果要可以合併
Map&Reduce
簡單的例子: Top 1%
● Map: 直接對所有資
料集作運算 Top 1%
● Reduce: 合併個別
的 Top 1%,排序後
再找出真正的 Top
1%
2000筆資料,複寫3份
➔ Node A: 1000筆資料
➔ Node B: 3000筆資料
➔ Node C: 2000筆資料
1. 分配Top 1%任務到Node A, B, C
2. Node A 先回傳10筆結果
3. Node C 再回傳20筆結果,開始
merge & sort (會有重複)
4. Node B 再回傳 30筆,加入
merge & sort
5. 列出最後的 Top 20筆
大數據的機會:針對空間資訊
● 提升原始資料(或即有的加值資料)產出的速
度和品質
● 尋找資料整合分析的機會:不只是疊圖,而是
即時運算
● 思考可以解決什麼新問題,或新產出什麼高品
質的加值資料
● 新的空間資訊呈現方式:如時間地圖
● 系統設計比演算法重要 - 任務導向的思考:
○ 如何”符合運算需求”的儲存資料
○ 如何有效的進行平行運算

More Related Content

Similar to 理所當然的大數據 空間資訊(北科大土木防災所演講)

9825415研討會心得
9825415研討會心得9825415研討會心得
9825415研討會心得瑗玲 宋
 
開放資料(Open Data)、 自願性地理資訊(VGI)、 開放街圖(OSM)
開放資料(Open Data)、 自願性地理資訊(VGI)、 開放街圖(OSM)開放資料(Open Data)、 自願性地理資訊(VGI)、 開放街圖(OSM)
開放資料(Open Data)、 自願性地理資訊(VGI)、 開放街圖(OSM)Dongpo Deng
 
解读信息设计
解读信息设计解读信息设计
解读信息设计dasiyjun
 
解读信息设计
解读信息设计解读信息设计
解读信息设计dasiyjun
 
用互相关联的数据创建超级数据库
用互相关联的数据创建超级数据库用互相关联的数据创建超级数据库
用互相关联的数据创建超级数据库Stephen Wang
 
從社群資料來看 工人(群眾)智慧與人工智慧 的結合
從社群資料來看 工人(群眾)智慧與人工智慧 的結合從社群資料來看 工人(群眾)智慧與人工智慧 的結合
從社群資料來看 工人(群眾)智慧與人工智慧 的結合Gene Hong
 
雲端運算與數位策展
雲端運算與數位策展雲端運算與數位策展
雲端運算與數位策展子軒 簡
 
解读信息设计[郭俊]Final
解读信息设计[郭俊]Final解读信息设计[郭俊]Final
解读信息设计[郭俊]Finaldasiyjun
 
知了新聞 GIS X OpenStreetMap
知了新聞 GIS X OpenStreetMap知了新聞 GIS X OpenStreetMap
知了新聞 GIS X OpenStreetMapDennis Raylin Chen
 
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘Riquelme624
 
社交网络在知识管理的应用 Share (gss-bj)
社交网络在知识管理的应用 Share (gss-bj)社交网络在知识管理的应用 Share (gss-bj)
社交网络在知识管理的应用 Share (gss-bj)Yeong-Long Chen
 
Mesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ DoubanMesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ DoubanZhong Bo Tian
 
雲端運算與社群網路的新未來 (成功大學)
雲端運算與社群網路的新未來 (成功大學)雲端運算與社群網路的新未來 (成功大學)
雲端運算與社群網路的新未來 (成功大學)Yeong-Long Chen
 
六合彩
六合彩六合彩
六合彩dizhen
 
香港六合彩
香港六合彩香港六合彩
香港六合彩cxljdqd
 
肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践hdhappy001
 

Similar to 理所當然的大數據 空間資訊(北科大土木防災所演講) (20)

9825415研討會心得
9825415研討會心得9825415研討會心得
9825415研討會心得
 
開放資料(Open Data)、 自願性地理資訊(VGI)、 開放街圖(OSM)
開放資料(Open Data)、 自願性地理資訊(VGI)、 開放街圖(OSM)開放資料(Open Data)、 自願性地理資訊(VGI)、 開放街圖(OSM)
開放資料(Open Data)、 自願性地理資訊(VGI)、 開放街圖(OSM)
 
Dltrendsatzjpolytech
DltrendsatzjpolytechDltrendsatzjpolytech
Dltrendsatzjpolytech
 
解读信息设计
解读信息设计解读信息设计
解读信息设计
 
解读信息设计
解读信息设计解读信息设计
解读信息设计
 
用互相关联的数据创建超级数据库
用互相关联的数据创建超级数据库用互相关联的数据创建超级数据库
用互相关联的数据创建超级数据库
 
從社群資料來看 工人(群眾)智慧與人工智慧 的結合
從社群資料來看 工人(群眾)智慧與人工智慧 的結合從社群資料來看 工人(群眾)智慧與人工智慧 的結合
從社群資料來看 工人(群眾)智慧與人工智慧 的結合
 
About grow up
About grow upAbout grow up
About grow up
 
Emc keynote 1130 1200
Emc keynote 1130 1200Emc keynote 1130 1200
Emc keynote 1130 1200
 
雲端運算與數位策展
雲端運算與數位策展雲端運算與數位策展
雲端運算與數位策展
 
解读信息设计[郭俊]Final
解读信息设计[郭俊]Final解读信息设计[郭俊]Final
解读信息设计[郭俊]Final
 
知了新聞 GIS X OpenStreetMap
知了新聞 GIS X OpenStreetMap知了新聞 GIS X OpenStreetMap
知了新聞 GIS X OpenStreetMap
 
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
 
社交网络在知识管理的应用 Share (gss-bj)
社交网络在知识管理的应用 Share (gss-bj)社交网络在知识管理的应用 Share (gss-bj)
社交网络在知识管理的应用 Share (gss-bj)
 
Mesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ DoubanMesos-based Data Infrastructure @ Douban
Mesos-based Data Infrastructure @ Douban
 
雲端運算與社群網路的新未來 (成功大學)
雲端運算與社群網路的新未來 (成功大學)雲端運算與社群網路的新未來 (成功大學)
雲端運算與社群網路的新未來 (成功大學)
 
六合彩
六合彩六合彩
六合彩
 
香港六合彩
香港六合彩香港六合彩
香港六合彩
 
肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践肖永红:科研数据应用和共享方面的实践
肖永红:科研数据应用和共享方面的实践
 
Open Source from Legend, Business, to Ecosystem
Open Source from Legend, Business, to EcosystemOpen Source from Legend, Business, to Ecosystem
Open Source from Legend, Business, to Ecosystem
 

理所當然的大數據 空間資訊(北科大土木防災所演講)