Crawler introduction cn_amicroconfxtechwed

408 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
408
On SlideShare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
2
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Crawler introduction cn_amicroconfxtechwed

  1. 1. Introduction to vegetable crawler for Taiwan Howardsun 2014/03/13 114年3月13⽇日星期四
  2. 2. Outline 緣起 程式內容 發展現況 2 214年3月13⽇日星期四
  3. 3. 緣起 颱⾵風、乾旱、傳統三節的⽇日⼦子前後,蔬 菜⽔水果⾁肉類常飆漲 「你們放假回家我很⾼高興,我特地去 菜市場採買,不過最近⾼高麗菜⼀一顆就 要200,實在買不下去,所以我只買 半顆」 3 314年3月13⽇日星期四
  4. 4. 緣起 農產品交易⾏行情站操作步驟多 第⼀一次使⽤用⽥田園好幫⼿手App查詢產地價 格要先註冊帳號?! 只是查個價格,居然要先註冊? 4 414年3月13⽇日星期四
  5. 5. hackpad 5 514年3月13⽇日星期四
  6. 6. 蔬菜......等等交易資料 下載處 data.g0v.tw/questions/244 6 614年3月13⽇日星期四
  7. 7. 程式內容 開源專案 agri_data_crawler_AT_github 抓官⽅方蔬菜、⽔水果、花卉資料 指定時間區間 驗證資料欄位與格式 轉換CSV和JSON格式的資料 7 714年3月13⽇日星期四
  8. 8. 抓官⽅方資料 準備物種清單 at data_format_at_every_site/ txt_at_amis_{vegetable | fruit | flowers}.txt 蔬菜, 例如:花椰菜, FB ⽔水果, 例如:鳳梨, ⾦金鑽鳳梨, B2 花卉, 例如:康乃馨, FA 請以專案檔案格式為主 8 814年3月13⽇日星期四
  9. 9. 抓官⽅方資料 讀取物種清單 從網⾴頁原始碼找⺫⽬目標表單網址 蔬菜 http://amis.afa.gov.tw/v- asp/v101r.asp ⽔水果 http://amis.afa.gov.tw/t- asp/v103r.asp 花卉 http://amis.afa.gov.tw/l- asp/v101r.asp 9 914年3月13⽇日星期四
  10. 10. ⺫⽬目標網站 10 1014年3月13⽇日星期四
  11. 11. 下命令囉 ruby my_vegetable_crawler.rb <StartDate> <EndDate> <OutputFile> [vegetable | fruit | flowers] 練習⻄西元轉⺠民國紀年 練習設計具實質意義的錯誤訊息 11 1114年3月13⽇日星期四
  12. 12. 檢查⽇日期參數 12 1214年3月13⽇日星期四
  13. 13. 設定查詢機器⼈人參數 13 1314年3月13⽇日星期四
  14. 14. 發出與接收網站回覆 14 1414年3月13⽇日星期四
  15. 15. 驗證資料欄位與格式 花費最多的時間 處理蔬菜、⽔水果和花卉三種欄位 數量與格式之差異 花卉有天氣資料, 蔬菜與⽔水果則無 系統早期⼀一些資料有遺失欄位 15 1514年3月13⽇日星期四
  16. 16. 過濾最⾼高階層的網⾴頁標籤 16 1614年3月13⽇日星期四
  17. 17. 驗證⽔水果的天氣欄位 17 1714年3月13⽇日星期四
  18. 18. 檢驗天氣資料的註解 18 1814年3月13⽇日星期四
  19. 19. 轉換成CSV格式 19 1914年3月13⽇日星期四
  20. 20. CSV轉換成JSON格式 ⾃自⼰己寫⼀一個符合需求的轉換器 順便了解JSON格式 [{ Obj1 }, { Obj2 }, ...... ] 最近才修好先前產⽣生的JSON格式bug my_format_csv_to_json.rb 20 2014年3月13⽇日星期四
  21. 21. 收獲 ⾮非常愛寫註解,防⽌止⾃自⼰己忘記當時處理 Bug程式碼之⽤用途 你的Regular expression會變超強 耐⼼心也變好了 21 2114年3月13⽇日星期四
  22. 22. 發展現況 為了讓⾃自⼰己省⼒力抓整月份資料,再寫了 automate_operator script,⾃自動處理抓 資料和轉換成JSON檔 最近正依據issue重新調整CSV的格式, 依照分析需求⽅方便匯⼊入資料庫 22 2214年3月13⽇日星期四
  23. 23. 成果展⽰示 2314年3月13⽇日星期四
  24. 24. CSV格式檔案 24 2414年3月13⽇日星期四
  25. 25. JSON格式檔案 25 2514年3月13⽇日星期四
  26. 26. Q&A 2614年3月13⽇日星期四

×