SlideShare a Scribd company logo
Muyueh Limited Company
muyueh@muyueh.com
Muyueh Lee
Data Visualization
We help you see (Big ) Data
Muyueh builds visual interfaces
with effective representation of
data for the human eyes.
Muyueh Lee
(李慕約)
co-founder
Ronny builds robots that gather,
clean, and access data.
Ronny worked for Pixnet, the 93rd
largest website in the world, where
he served as VP in product
development.
Ronny Wang
(⺩向榮)
co-founder
We empower organizations with data visualization
through three services
Services
We teach classes about
data analysis/visualization
Main Clients
We help companies analyze insights
from their proprietary databases
Locations include: China, Taiwan, Hong Kong, and Singapore
We build visuals that allow humans
to effectively interact with data
Several awards certify the quality of our service
Presentation of the visualization tool at the
Al Jazeera Global Hackathon in Dubai
Best Editorial Context Solution in
the Al Jazeera Global Contest, a
competition focused on tech
innovation in media1
Best open data application from
the Vice President of Taiwan (ROC)
First place in Taipei Hackathon
1. This was a team effort, Muyueh developing the
visualization interface (as seen in the photo)
如何備料
資料的抓取、清理以及串接
百項資料應⽤
各種產業、各種資料:
農業、電⼦票證
交易
電信、公⾞、交通肇事
時間空間
公⺠科技、⾦融、政策
開放資料
3D 建築、4G 基地台分佈、
GPS 軌跡、肇事、⽤⽔⽤電
新聞⼩幫⼿、求職⼩幫⼿、⾦管會、
2016 總統⼤選政策
資料類別產業應⽤
YouBike 租借、悠遊卡刷卡、
⽔果、蔬菜、花卉交易紀錄
經濟:
- 公司登記資料 (平均: 2,000 ⼈/天)
- 公司關係圖
- 關務署進出⼝資料整理
媒體:
- 新聞⼩幫⼿(2 萬下載,五顆星評價)
- NewsDiff
- NewsTrend
- PTT 熱⾨紀錄
- 歷史四⼤報頭條
其他:
- 求職⼩幫⼿(1 萬 8下載,4.5顆星 )
- 政治獻⾦數位化(最⾼: 30 萬⼈/天)
- Green Honey(最⾼: 58 萬⼈/天)
- 發電成本計算機
- 果菜花終端機
- Youbike 微預測
- 台電發電量歷史記錄
- 台北市建築執照記錄
政治獻⾦數位化
果菜花終端機
公司關係圖
百項資料應⽤
各種產業、各種資料:
線上資料處理服務
企業個⼈
100 ⼩時資料顧問服務
整包資料、API、視覺化介⾯
備料佔 50% - 80% 時間
或100% 到 400% 改善空間
Data scientists, spend from 50 percent to 80 percent of their time mired in
this more mundane labor of collecting and preparing unruly digital data
資料流程
機器可以怎麼樣幫助⼈類處理資料?
抓取
清理
視覺
連接
分析
資料散佈,格式、編碼不同
如何⼤量即時搜集?
資料約 1%~0.1% 錯誤率
如何持續增進品質?
單⼀資料沒有意義
如何透過串接產⽣智慧?
分析耗時,反應速度太慢
如何偵測趨勢、即時反應?
靜態圖表看不清楚
如何⽤瀏覽器技術呈現相關資料?
流程是單向的,還是持續來來回回?
每⼀個步驟沒有太複雜的條件
每⼀個步驟的需求清楚
每⼀個步驟只會做⼀次就好
步驟的定義不清楚
需要砍掉重練
每⼀步驟會需要常常重做
持續來來回回單向永不回頭
每⼀個步驟都進⾏許多假設
「是否能成為⼀個好的資料科學者,我認為關鍵就在
什麼時候該回頭,⽽不是開始鑽⽜⾓尖」
資料處理的⼯作是否可以外包?
會需要常常回來重做,不符效益
關鍵就在資料處理的程序裡
條件、假設、期待產出很難解釋清楚
不同資料處理程序有共通的地⽅
有限時間,只能專注在最重要的事情
正⽅反⽅
規模經濟,⼤規模做成本低
機器輔助的五個層次
從純⾃動,到純⼿動
機器診斷、機器處理
⼈類診斷,機器處理
⼈類診斷,⼈類處理,
我做⼀次,其他⼈⽤現成
⼈類診斷,⼈類處理,
我做⼀次,未來不⽤再做
⼈類診斷,⼈類處理,
我做⼀次,下⼀次還是要我做
寫程式的解法,⾄少下⼀次
類似的問題可以⾃動解決
純粹⼿動的⽅式
把程式放在 Github 上,⾄
少其他⼈不需要重新寫爬蟲
我只需要告訴機器這是什麼
問題,機器可以⾃動解決
機器可以⾃動偵測這是什麼
問題,⾃動解決
取得資料
資料的抓取、清理以及串接
取得資料
抓取
清理
視覺
連接
分析
資料散佈,格式、編碼不同
如何⼤量即時搜集?
資料約 1%~0.1% 錯誤率
如何持續增進品質?
單⼀資料沒有意義
如何透過串接產⽣智慧?
分析耗時,反應速度太慢
如何偵測趨勢、即時反應?
靜態圖表看不清楚
如何⽤瀏覽器技術呈現相關資料?
抓取外部資料
⺫標:
- 持續、⼤量、快速抓取資料
現狀:
- ⼤量抓取資料
- 模擬⼈類⾏為(下拉選單、帳密)
- 模擬 Refer、更換 IP 防封鎖
挑戰:
- 確保品質變化 (交易機器⼈案例;
type, range check)
- 刑法360條,如何「溫柔」抓取
- 不知道有什麼資料
特別案例:
- 圖像辨識圖⽚價格
- 線上印度⼈協作解 CAPTCHA
- 政治獻⾦數位化
確保品質變化
NewsDiff 每年約 50 個網站改版
確保品質變化 (交易機器⼈案例; type,
range check)
抓取外部資料
如何「溫柔」抓取資料
刑法360條:無故以電腦程式或其他電磁⽅式干
擾他⼈電腦或其相關設備,致⽣損害於公眾或他
⼈者,處三年以下有期徒刑、拘役或科或併科⼗
萬元以下罰⾦。
特別案例
價格以圖⽚儲存
特別案例
CAPTCHA
政治獻⾦數位化
政治獻⾦數位化
政治獻⾦數位化
不知道有什麼資料
網⾴瀏覽
不知道不知道的事情
領域專家
哲學性問題
訪談
解法觀點
集中搜尋、推薦、收藏、分群、連結
SheetHub.com
搜尋、推薦、收藏、分群、連結
散佈的開放資料平台
抓取內部資料
⺫標:
- 即時取得⾼品質資料
現狀:
- n + 1 個系統來整合 n 個系統
挑戰:
- 各資料庫筆數不同(⽤介接程式直接跟
資料庫做拉取)
- 遺失的商業邏輯(沒有⼈知道死亡率的
計算⽅式;將計算⽅式暴露出來)
特別案例:
- 逐筆整合資料庫
資料庫串接
挑戰,以及解決⽅式
問題:
公司開發了多不同資料庫
解決不同任務;但問題需
要跨資料庫才可以回答。
技術挑戰:
不同廠商使⽤
不同欄位規格
開發不同資料庫
解法:
我們的介接程式可以跨平
台跟多資料庫互動,將資
料來抓出來,整合回答問
題
不同的作業系統:
Microsoft
Linux
不同的編碼:
utf-8、Big 5、utf-16
不同的資料庫,及版本
Oracle 8-12、MS SQL
PostgreSQL、MySQL
重要資訊以 Free-text 的
⽅式儲存,需要萃取
不同的地理紀錄法:
TWD 97、經緯度、地址
單⼀公司內可能有:
舊系統仍持續運作,
但資料被接出來做新
的呈現
客訴:
客訴時間、地址、內容
基台硬體設備:
4G 基台的分布點、位置
顧客資料:
平均貢獻、性別、年齡分佈
收到客訴是否是因為最近站台維修暫
時關站造成?
我們總共有多少男性客⼾?
我們的客⼾分布在哪裡?
傳統問題資料庫
傳統:單⼀系統回答單⼀問題
我們已經知道這些問題了,難有改善動作
最近哪裡的客訴⽐較多、哪邊變少?
客訴:
客訴時間、地址、內容
基台硬體設備:
4G 基台的分布點、位置
顧客資料:
平均貢獻、性別、年齡分佈
三⽉的暫時關站是否導致客訴增加?
所有的客訴中,哪⼀些的優先順序⽐
較⾼?(顧客貢獻⾼)
交互問題資料庫
現代:串接資料庫,產⽣交互問題
交互問題讓我們可以產⽣改善⾏動
建築物輪廓⾼度
(外部資料)
這邊發⽣的客訴都集中在低樓層,是
不是因為建築物把基地台擋住了?
清理資料
清理資料
抓取
清理
視覺
連接
分析
資料散佈,格式、編碼不同
如何⼤量即時搜集?
資料約 1%~0.1% 錯誤率
如何持續增進品質?
單⼀資料沒有意義
如何透過串接產⽣智慧?
分析耗時,反應速度太慢
如何偵測趨勢、即時反應?
靜態圖表看不清楚
如何⽤瀏覽器技術呈現相關資料?
機器輔助的五個層次
從純⾃動,到純⼿動
機器診斷、機器處理
⼈類診斷,機器處理
⼈類診斷,⼈類處理,
我做⼀次,其他⼈⽤現成
⼈類診斷,⼈類處理,
我做⼀次,未來不⽤再做
⼈類診斷,⼈類處理,
我做⼀次,下⼀次還是要我做
寫程式的解法,⾄少下⼀次
類似的問題可以⾃動解決
純粹⼿動的⽅式
把程式放在 Github 上,⾄
少其他⼈不需要重新寫爬蟲
我只需要告訴機器這是什麼
問題,機器可以⾃動解決
機器可以⾃動偵測這是什麼
問題,⾃動解決
清理資料
統⼀編號為例
統⼀編號分別由不同的主管機關掌管,
並無中央單整合,並有 2% 是錯誤的。
右圖,可以看到:
- A 是經濟部⼯商資料,約 300 萬筆
- B 是財政部稅務資料,約 150 萬筆
- A、B 的交集,約有 110 萬筆
- A、B 各⾃有 200 萬筆、 20 萬筆資
料視對⽅沒有的。
- 還有⼀塊 C,是兩邊都有登記,但是
名稱卻不⼀致的資料,約有 6 萬筆
清理資料
統⼀編號為例
異體字
- 峯、峰
- 氷、冰
- 葯、藥
- 芸、藝
- 栗、粟
⽤語不同:
- 有限責任基隆市第⼀信⽤合作社安⼀
路分社
- 保証責任基隆市第⼀信⽤合作社安⼀
路分社
以及
- 張朝慶⾃營計程⾞
- 張朝慶⾃營計程⾞⾏
格式不同:
- 薪楠菖⽔果⾏(0598)
- 薪楠菖⽔果⾏
清理資料
經濟部投審會
右⽅表格,是經濟部投審會所公布的資
料中統⼀編號對不起來的地⽅。以「永
豐裕資產管理股份有限公司 25134101」
來說 ,拿永豐裕去
company.g0v.ronny.tw 搜尋,可以發
現統編是 25134104 ,所以是投審部打
錯。
廠商名稱 統一編號
吉麒科技股份有限公司 8460567
大印膠合板有限公司 24534835
曜瑞光電科技股份有限公司 81085991
華笠實業有限公司 24574224
鉅揚管理顧問有限公司 20800977
永豐裕資產管理股份有限公司 25134101
日商鐵建營造股份有限公司 9600128
達康購物股份有限公司 27766288
金大科技股份有限公司 54704940
皇浦有限公司 25313338
尚達精密科技股份有限公司 24318443
新加坡商奧碩品牌規劃設計有
限公司
28432444
三福添加劑股份有限公司 9037287
台灣大公企業股份有限公司 12175095
⼈⼯判斷、機器清理
Type Check, Range Check, Linked Data
⼈⼯判斷,機器清理
檔案格式
機器判斷、機器清理
Data exists in (too) many formats.
檔案格式
機器判斷、機器清理
Data exists in (too) many formats.
檔案格式
機器判斷、機器清理
Data exists in (too) many formats.
檔案結構
⼈⼯判斷、機器清理
清理資料版本控制
我做⼀次,未來不⽤再做
對資料進⾏版本控制 對程式碼進⾏版本控制
矯正公⾞路線
矯正公⾞路線
⼤都會客運紅5 (routeId=10821) gist ⼭⼦后幾站不在路線上
矯正公⾞路線
北市府:⺫前已將331站點之200多點點位修正後並已上傳介接平臺
連結資料
資料連結
抓取
清理
視覺
連接
分析
資料散佈,格式、編碼不同
如何⼤量即時搜集?
資料約 1%~0.1% 錯誤率
如何持續增進品質?
單⼀資料沒有意義
如何透過串接產⽣智慧?
分析耗時,反應速度太慢
如何偵測趨勢、即時反應?
靜態圖表看不清楚
如何⽤瀏覽器技術呈現相關資料?
https://sheethub.com/ronnywang/中華⺠國村⾥/uri/6500100-011
資料連結
The tone of news reports changed when Lee
Kuan Yew, PM of Singapore, passed away
NewsDiff tracks media changes
Data
News from 20 media in Taiwan (4,000 /
day, scanned hourly)
Problem
News articles are updated after being
published, but the changes are not
visible to the public
Solution
By tracking every news update, the
reader can track the on-going issue
with the editorial decision
Project in the g0v.tw community
The pop-up shows the work infringement
history of the recruitment page of the company
JobHelper (求職小幫手) empowers job seekers with employer
workplace infringement history
Data
Employer workplace infringement data
Problem
Some employers have workplace
infringement histories that are
unknown to job seekers
Solution
When browsing the recruiting websites
of the potential employee, this browser
extension will display an alert for
workplace infringement history
Project in the g0v.tw community
HTC with a change in the capital structure of its
major share holder
CompanyDiff tracks the next move of a company
Data
Financial information of 640,000
companies from the past 3 years. This
includes assets, and operated industry
Problem
Tracking the evolution of different
company financial status
Solution
By collecting and comparing the
financial info of a specific company,
one can see the next move of a
company (change in assets, or change
in registered industry)
2015-04-05
董事⻑ , 姓名: ⺩雪紅 , 持有股份數: 32,272,427
董事 , 姓名: 陳⽂琦 , 持有股份數: 22,391,389
董事 , 姓名: 卓⽕⼟ , 持有股份數: 139,530
96,530
董事 , 姓名: 缺額 , 持有股份數:
董事 , 姓名: David Bruce Yoffie , 持有股份數: 0
獨⽴董事 , 姓名: 林振國 , 持有股份數: 0
獨⽴董事 , 姓名: Josef Felder , 持有股份數:
133,985 229,985
監察⼈ , 姓名: 威智投資股份有限公司 , 持有股份
數: 43,819,290
監察⼈ , 姓名: 朱⿈傑 , 持有股份數: 0
Companies with financial investment
relationship with President Chain Store Corp.
Company Investment Relationship Graph
Data
Financial data from all 640,000
companies
Problem
Identify the investment relationship
between companies
Solution
Tracing the board of directors to
identify the financial investment
relationship
Project in the g0v.tw community
案例:3D 建築物以及公司登記資料
可以查看 101 ⼤樓幾樓登記什麼公司
整合資料:
1.經濟部商業司公司登記資料
2.財政部資訊中⼼稅務資料
3.臺北市政府建管處建築執照資料
4. 臺北市政府都發局⽴體建物資料
5.內政部國⼟測繪中⼼地址轉經緯度資料
案例:3D 建築物以及公司執照
最近⼗年的建築物
A map of Taipei showing the population density,
brighter being more
Population Density Map
Data
District boundary data with
presidential election voting statistics
Problem
Calculating the population of an area
is hard, as people’s actual residence
may be different than the one they
registered
Solution
Use water, electricity usage and
election data to estimate the actual
residence in a specific area
A map of Taiwan showing the voting result of
the 2012 presidential voting election.
Election Voting Map
Data
District boundary data with
presidential election voting statistics
Problem
Calculating the population of an area
is hard, as people’s actual residence
may be different than the one they
registered
Solution
Use water, electricity usage and
election data to estimate the actual
residence in a specific area
線上資料處理服務
企業個⼈
100 ⼩時資料顧問服務
整包資料、API、視覺化介⾯
Muyueh Limited Company
muyueh@muyueh.com
Muyueh Lee
Data Visualization
always efficient,
sometimes beautiful

More Related Content

What's hot

資料科學團隊人才培育分享 ─ 以 DSP 為例
資料科學團隊人才培育分享 ─ 以 DSP 為例資料科學團隊人才培育分享 ─ 以 DSP 為例
資料科學團隊人才培育分享 ─ 以 DSP 為例
Fred Chiang
 
Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享
Etu Solution
 
轉兌數據的價值 — 從導購到策購
轉兌數據的價值 — 從導購到策購轉兌數據的價值 — 從導購到策購
轉兌數據的價值 — 從導購到策購
Fred Chiang
 
Big Data 現象,以及現象中的我們
Big Data 現象,以及現象中的我們Big Data 現象,以及現象中的我們
Big Data 現象,以及現象中的我們
Fred Chiang
 
[DSC 2016] 系列活動:許懷中 / R 語言資料探勘實務
[DSC 2016] 系列活動:許懷中 / R 語言資料探勘實務[DSC 2016] 系列活動:許懷中 / R 語言資料探勘實務
[DSC 2016] 系列活動:許懷中 / R 語言資料探勘實務
台灣資料科學年會
 
那些你知道的,但還沒看過的 Big Data 風景
那些你知道的,但還沒看過的 Big Data 風景那些你知道的,但還沒看過的 Big Data 風景
那些你知道的,但還沒看過的 Big Data 風景
Etu Solution
 
資料價值 — 一位資料產品經理的視野
資料價值 — 一位資料產品經理的視野資料價值 — 一位資料產品經理的視野
資料價值 — 一位資料產品經理的視野
Fred Chiang
 
Big Data vs. Open Data
Big Data vs. Open DataBig Data vs. Open Data
Big Data vs. Open Data
Fred Chiang
 
Data Science: Z > B 的資料科學
Data Science: Z > B 的資料科學Data Science: Z > B 的資料科學
Data Science: Z > B 的資料科學
ckliu
 
台灣生活資料科學團隊養成計畫 (@Data Weekend #5)
台灣生活資料科學團隊養成計畫 (@Data Weekend #5)台灣生活資料科學團隊養成計畫 (@Data Weekend #5)
台灣生活資料科學團隊養成計畫 (@Data Weekend #5)
Fred Chiang
 
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖
Etu Solution
 
電子商務資料分析 上課投影片
電子商務資料分析 上課投影片電子商務資料分析 上課投影片
電子商務資料分析 上課投影片
Ethan Yin-Hao Tsui
 
資料在手,希望無窮
資料在手,希望無窮資料在手,希望無窮
資料在手,希望無窮
ckliu
 
Silf2012lw3
Silf2012lw3Silf2012lw3
Silf2012lw3
Shanghai Library
 
大數據獲利模式 Ch 2
大數據獲利模式 Ch 2大數據獲利模式 Ch 2
大數據獲利模式 Ch 2Hans Shih
 
淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況
Jazz Yao-Tsung Wang
 
Postmortem of 'Person of Interest' - Big data rc sharing
Postmortem of 'Person of Interest' - Big data rc sharingPostmortem of 'Person of Interest' - Big data rc sharing
Postmortem of 'Person of Interest' - Big data rc sharing
Gandalf Huang
 
從網頁存取記錄瞭解使用者行為與網頁區塊貢獻分析-崔殷豪
從網頁存取記錄瞭解使用者行為與網頁區塊貢獻分析-崔殷豪從網頁存取記錄瞭解使用者行為與網頁區塊貢獻分析-崔殷豪
從網頁存取記錄瞭解使用者行為與網頁區塊貢獻分析-崔殷豪
台灣資料科學年會
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況Jazz Yao-Tsung Wang
 
資料科學計劃的成果與展望
資料科學計劃的成果與展望資料科學計劃的成果與展望
資料科學計劃的成果與展望
Johnson Hsieh
 

What's hot (20)

資料科學團隊人才培育分享 ─ 以 DSP 為例
資料科學團隊人才培育分享 ─ 以 DSP 為例資料科學團隊人才培育分享 ─ 以 DSP 為例
資料科學團隊人才培育分享 ─ 以 DSP 為例
 
Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享Hadoop Big Data 成功案例分享
Hadoop Big Data 成功案例分享
 
轉兌數據的價值 — 從導購到策購
轉兌數據的價值 — 從導購到策購轉兌數據的價值 — 從導購到策購
轉兌數據的價值 — 從導購到策購
 
Big Data 現象,以及現象中的我們
Big Data 現象,以及現象中的我們Big Data 現象,以及現象中的我們
Big Data 現象,以及現象中的我們
 
[DSC 2016] 系列活動:許懷中 / R 語言資料探勘實務
[DSC 2016] 系列活動:許懷中 / R 語言資料探勘實務[DSC 2016] 系列活動:許懷中 / R 語言資料探勘實務
[DSC 2016] 系列活動:許懷中 / R 語言資料探勘實務
 
那些你知道的,但還沒看過的 Big Data 風景
那些你知道的,但還沒看過的 Big Data 風景那些你知道的,但還沒看過的 Big Data 風景
那些你知道的,但還沒看過的 Big Data 風景
 
資料價值 — 一位資料產品經理的視野
資料價值 — 一位資料產品經理的視野資料價值 — 一位資料產品經理的視野
資料價值 — 一位資料產品經理的視野
 
Big Data vs. Open Data
Big Data vs. Open DataBig Data vs. Open Data
Big Data vs. Open Data
 
Data Science: Z > B 的資料科學
Data Science: Z > B 的資料科學Data Science: Z > B 的資料科學
Data Science: Z > B 的資料科學
 
台灣生活資料科學團隊養成計畫 (@Data Weekend #5)
台灣生活資料科學團隊養成計畫 (@Data Weekend #5)台灣生活資料科學團隊養成計畫 (@Data Weekend #5)
台灣生活資料科學團隊養成計畫 (@Data Weekend #5)
 
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖
台灣 Hadoop Big Data 2014 趨勢預測與企業策略藍圖
 
電子商務資料分析 上課投影片
電子商務資料分析 上課投影片電子商務資料分析 上課投影片
電子商務資料分析 上課投影片
 
資料在手,希望無窮
資料在手,希望無窮資料在手,希望無窮
資料在手,希望無窮
 
Silf2012lw3
Silf2012lw3Silf2012lw3
Silf2012lw3
 
大數據獲利模式 Ch 2
大數據獲利模式 Ch 2大數據獲利模式 Ch 2
大數據獲利模式 Ch 2
 
淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況
 
Postmortem of 'Person of Interest' - Big data rc sharing
Postmortem of 'Person of Interest' - Big data rc sharingPostmortem of 'Person of Interest' - Big data rc sharing
Postmortem of 'Person of Interest' - Big data rc sharing
 
從網頁存取記錄瞭解使用者行為與網頁區塊貢獻分析-崔殷豪
從網頁存取記錄瞭解使用者行為與網頁區塊貢獻分析-崔殷豪從網頁存取記錄瞭解使用者行為與網頁區塊貢獻分析-崔殷豪
從網頁存取記錄瞭解使用者行為與網頁區塊貢獻分析-崔殷豪
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
 
資料科學計劃的成果與展望
資料科學計劃的成果與展望資料科學計劃的成果與展望
資料科學計劃的成果與展望
 

Viewers also liked

[系列活動] 智慧製造與生產線上的資料科學 (製造資料科學:從預測性思維到處方性決策)
[系列活動] 智慧製造與生產線上的資料科學 (製造資料科學:從預測性思維到處方性決策)[系列活動] 智慧製造與生產線上的資料科學 (製造資料科學:從預測性思維到處方性決策)
[系列活動] 智慧製造與生產線上的資料科學 (製造資料科學:從預測性思維到處方性決策)
台灣資料科學年會
 
Informatics Master's Programs at USC (webinar)
Informatics Master's Programs at USC (webinar) Informatics Master's Programs at USC (webinar)
Informatics Master's Programs at USC (webinar)
USC Viterbi School of Engineering
 
吳齊軒/漫談 R 的學習挑戰與 R 語言翻轉教室
吳齊軒/漫談 R 的學習挑戰與 R 語言翻轉教室吳齊軒/漫談 R 的學習挑戰與 R 語言翻轉教室
吳齊軒/漫談 R 的學習挑戰與 R 語言翻轉教室
台灣資料科學年會
 
RESTful API Design
RESTful API DesignRESTful API Design
RESTful API Design
Amigo 陳兆祥
 
整合 Open ID
整合 Open ID整合 Open ID
整合 Open ID
Shengyou Fan
 
吳牧恩/一個賭徒的告白 2:交易策略建構與分析,為何你該賭小一點?
吳牧恩/一個賭徒的告白 2:交易策略建構與分析,為何你該賭小一點?吳牧恩/一個賭徒的告白 2:交易策略建構與分析,為何你該賭小一點?
吳牧恩/一個賭徒的告白 2:交易策略建構與分析,為何你該賭小一點?
台灣資料科學年會
 
許懷中/娛樂產業中的資料科學家 : 談資料科學於線上遊戲與職業運動之應用
許懷中/娛樂產業中的資料科學家 : 談資料科學於線上遊戲與職業運動之應用許懷中/娛樂產業中的資料科學家 : 談資料科學於線上遊戲與職業運動之應用
許懷中/娛樂產業中的資料科學家 : 談資料科學於線上遊戲與職業運動之應用
台灣資料科學年會
 
Relational databases vs Non-relational databases
Relational databases vs Non-relational databasesRelational databases vs Non-relational databases
Relational databases vs Non-relational databases
James Serra
 
[系列活動] 使用 R 語言建立自己的演算法交易事業
[系列活動] 使用 R 語言建立自己的演算法交易事業[系列活動] 使用 R 語言建立自己的演算法交易事業
[系列活動] 使用 R 語言建立自己的演算法交易事業
台灣資料科學年會
 

Viewers also liked (9)

[系列活動] 智慧製造與生產線上的資料科學 (製造資料科學:從預測性思維到處方性決策)
[系列活動] 智慧製造與生產線上的資料科學 (製造資料科學:從預測性思維到處方性決策)[系列活動] 智慧製造與生產線上的資料科學 (製造資料科學:從預測性思維到處方性決策)
[系列活動] 智慧製造與生產線上的資料科學 (製造資料科學:從預測性思維到處方性決策)
 
Informatics Master's Programs at USC (webinar)
Informatics Master's Programs at USC (webinar) Informatics Master's Programs at USC (webinar)
Informatics Master's Programs at USC (webinar)
 
吳齊軒/漫談 R 的學習挑戰與 R 語言翻轉教室
吳齊軒/漫談 R 的學習挑戰與 R 語言翻轉教室吳齊軒/漫談 R 的學習挑戰與 R 語言翻轉教室
吳齊軒/漫談 R 的學習挑戰與 R 語言翻轉教室
 
RESTful API Design
RESTful API DesignRESTful API Design
RESTful API Design
 
整合 Open ID
整合 Open ID整合 Open ID
整合 Open ID
 
吳牧恩/一個賭徒的告白 2:交易策略建構與分析,為何你該賭小一點?
吳牧恩/一個賭徒的告白 2:交易策略建構與分析,為何你該賭小一點?吳牧恩/一個賭徒的告白 2:交易策略建構與分析,為何你該賭小一點?
吳牧恩/一個賭徒的告白 2:交易策略建構與分析,為何你該賭小一點?
 
許懷中/娛樂產業中的資料科學家 : 談資料科學於線上遊戲與職業運動之應用
許懷中/娛樂產業中的資料科學家 : 談資料科學於線上遊戲與職業運動之應用許懷中/娛樂產業中的資料科學家 : 談資料科學於線上遊戲與職業運動之應用
許懷中/娛樂產業中的資料科學家 : 談資料科學於線上遊戲與職業運動之應用
 
Relational databases vs Non-relational databases
Relational databases vs Non-relational databasesRelational databases vs Non-relational databases
Relational databases vs Non-relational databases
 
[系列活動] 使用 R 語言建立自己的演算法交易事業
[系列活動] 使用 R 語言建立自己的演算法交易事業[系列活動] 使用 R 語言建立自己的演算法交易事業
[系列活動] 使用 R 語言建立自己的演算法交易事業
 

Similar to 如何備料:資料的抓取、清理以及串接

數位落差與發展策略(黃勝雄老師)
數位落差與發展策略(黃勝雄老師)數位落差與發展策略(黃勝雄老師)
數位落差與發展策略(黃勝雄老師)
tahr1984
 
談已發展與發展中國家數位落差
談已發展與發展中國家數位落差談已發展與發展中國家數位落差
談已發展與發展中國家數位落差
Kenny Huang Ph.D.
 
台中市創業平台建置計畫
台中市創業平台建置計畫台中市創業平台建置計畫
台中市創業平台建置計畫
Chris 克里斯
 
Website Architect Proposal of Lingpao Total Fitness Gym
Website Architect Proposal of Lingpao Total Fitness GymWebsite Architect Proposal of Lingpao Total Fitness Gym
Website Architect Proposal of Lingpao Total Fitness Gym
Huiqin Gao
 
8我有啦产品展示
8我有啦产品展示8我有啦产品展示
8我有啦产品展示36Kr.com
 
Bigdata bizoppor
Bigdata bizopporBigdata bizoppor
Bigdata bizopporAccenture
 
互邀新平台产品宣介
互邀新平台产品宣介互邀新平台产品宣介
互邀新平台产品宣介
Gauin
 
The Business Model Of Psy Business
The Business Model Of Psy BusinessThe Business Model Of Psy Business
The Business Model Of Psy Business
Oliver Ding
 
Data without Boundaries - 圍繞第一方數據,找到商業驅動力
Data without Boundaries - 圍繞第一方數據,找到商業驅動力Data without Boundaries - 圍繞第一方數據,找到商業驅動力
Data without Boundaries - 圍繞第一方數據,找到商業驅動力
Etu Solution
 
Bvod Overview Ch 20090715
Bvod Overview Ch 20090715Bvod Overview Ch 20090715
Bvod Overview Ch 20090715
bvod
 
Bvod Overview Ch 20090715
Bvod Overview Ch 20090715Bvod Overview Ch 20090715
Bvod Overview Ch 20090715
bvod
 
针对一淘的竞争策略研究
针对一淘的竞争策略研究针对一淘的竞争策略研究
针对一淘的竞争策略研究duanxin
 
京东针对一淘的竞争策略研究
京东针对一淘的竞争策略研究京东针对一淘的竞争策略研究
京东针对一淘的竞争策略研究VImLai
 
從開放源碼到開放資料 (縮減版)
從開放源碼到開放資料 (縮減版)從開放源碼到開放資料 (縮減版)
從開放源碼到開放資料 (縮減版)
Pofeng Lee
 
IoT Cloud Platforms- Players, Vendors and Vertical Segments -20160519
IoT Cloud Platforms- Players, Vendors and Vertical Segments -20160519IoT Cloud Platforms- Players, Vendors and Vertical Segments -20160519
IoT Cloud Platforms- Players, Vendors and Vertical Segments -20160519
August Lin
 
2023 Agile Kaohsiung 3月聚會:探索與交付之間的愛恨糾葛
2023 Agile Kaohsiung 3月聚會:探索與交付之間的愛恨糾葛2023 Agile Kaohsiung 3月聚會:探索與交付之間的愛恨糾葛
2023 Agile Kaohsiung 3月聚會:探索與交付之間的愛恨糾葛
Jenson Lee
 
2012美國商業模式創新研修說明
2012美國商業模式創新研修說明2012美國商業模式創新研修說明
2012美國商業模式創新研修說明基欽 劉
 
《氪周刊:互联网创业必读》(第41期)
《氪周刊:互联网创业必读》(第41期)《氪周刊:互联网创业必读》(第41期)
《氪周刊:互联网创业必读》(第41期)36Kr.com
 
QM-047-品管圈報告以飛利浦為例
QM-047-品管圈報告以飛利浦為例QM-047-品管圈報告以飛利浦為例
QM-047-品管圈報告以飛利浦為例handbook
 

Similar to 如何備料:資料的抓取、清理以及串接 (20)

數位落差與發展策略(黃勝雄老師)
數位落差與發展策略(黃勝雄老師)數位落差與發展策略(黃勝雄老師)
數位落差與發展策略(黃勝雄老師)
 
談已發展與發展中國家數位落差
談已發展與發展中國家數位落差談已發展與發展中國家數位落差
談已發展與發展中國家數位落差
 
台中市創業平台建置計畫
台中市創業平台建置計畫台中市創業平台建置計畫
台中市創業平台建置計畫
 
搜尋達人及市場調查
搜尋達人及市場調查搜尋達人及市場調查
搜尋達人及市場調查
 
Website Architect Proposal of Lingpao Total Fitness Gym
Website Architect Proposal of Lingpao Total Fitness GymWebsite Architect Proposal of Lingpao Total Fitness Gym
Website Architect Proposal of Lingpao Total Fitness Gym
 
8我有啦产品展示
8我有啦产品展示8我有啦产品展示
8我有啦产品展示
 
Bigdata bizoppor
Bigdata bizopporBigdata bizoppor
Bigdata bizoppor
 
互邀新平台产品宣介
互邀新平台产品宣介互邀新平台产品宣介
互邀新平台产品宣介
 
The Business Model Of Psy Business
The Business Model Of Psy BusinessThe Business Model Of Psy Business
The Business Model Of Psy Business
 
Data without Boundaries - 圍繞第一方數據,找到商業驅動力
Data without Boundaries - 圍繞第一方數據,找到商業驅動力Data without Boundaries - 圍繞第一方數據,找到商業驅動力
Data without Boundaries - 圍繞第一方數據,找到商業驅動力
 
Bvod Overview Ch 20090715
Bvod Overview Ch 20090715Bvod Overview Ch 20090715
Bvod Overview Ch 20090715
 
Bvod Overview Ch 20090715
Bvod Overview Ch 20090715Bvod Overview Ch 20090715
Bvod Overview Ch 20090715
 
针对一淘的竞争策略研究
针对一淘的竞争策略研究针对一淘的竞争策略研究
针对一淘的竞争策略研究
 
京东针对一淘的竞争策略研究
京东针对一淘的竞争策略研究京东针对一淘的竞争策略研究
京东针对一淘的竞争策略研究
 
從開放源碼到開放資料 (縮減版)
從開放源碼到開放資料 (縮減版)從開放源碼到開放資料 (縮減版)
從開放源碼到開放資料 (縮減版)
 
IoT Cloud Platforms- Players, Vendors and Vertical Segments -20160519
IoT Cloud Platforms- Players, Vendors and Vertical Segments -20160519IoT Cloud Platforms- Players, Vendors and Vertical Segments -20160519
IoT Cloud Platforms- Players, Vendors and Vertical Segments -20160519
 
2023 Agile Kaohsiung 3月聚會:探索與交付之間的愛恨糾葛
2023 Agile Kaohsiung 3月聚會:探索與交付之間的愛恨糾葛2023 Agile Kaohsiung 3月聚會:探索與交付之間的愛恨糾葛
2023 Agile Kaohsiung 3月聚會:探索與交付之間的愛恨糾葛
 
2012美國商業模式創新研修說明
2012美國商業模式創新研修說明2012美國商業模式創新研修說明
2012美國商業模式創新研修說明
 
《氪周刊:互联网创业必读》(第41期)
《氪周刊:互联网创业必读》(第41期)《氪周刊:互联网创业必读》(第41期)
《氪周刊:互联网创业必读》(第41期)
 
QM-047-品管圈報告以飛利浦為例
QM-047-品管圈報告以飛利浦為例QM-047-品管圈報告以飛利浦為例
QM-047-品管圈報告以飛利浦為例
 

如何備料:資料的抓取、清理以及串接