Submit Search
Upload
taibif_開放資料流程-清理資料01-通則_20240509_20240509.pdf
•
0 likes
•
7 views
J
jhujyunjhang
Follow
開放資料流程-清理資料01-通則.pdf
Read less
Read more
Education
Report
Share
Report
Share
1 of 67
Download now
Download to read offline
Recommended
taibif_開放資料流程-清理資料02-敏感資料處理原則_20240509.pdf
taibif_開放資料流程-清理資料02-敏感資料處理原則_20240509.pdf
jhujyunjhang
taibif_資料標準概念介紹_20240509_20240509_20340509.pdf
taibif_資料標準概念介紹_20240509_20240509_20340509.pdf
jhujyunjhang
20230513taibif-datapaper-tutorial_en.pdf.pdf
20230513taibif-datapaper-tutorial_en.pdf.pdf
jhujyunjhang
20230513taibif-datapaper-tutorial_zh.pdf
20230513taibif-datapaper-tutorial_zh.pdf
jhujyunjhang
2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
Recommended
taibif_開放資料流程-清理資料02-敏感資料處理原則_20240509.pdf
taibif_開放資料流程-清理資料02-敏感資料處理原則_20240509.pdf
jhujyunjhang
taibif_資料標準概念介紹_20240509_20240509_20340509.pdf
taibif_資料標準概念介紹_20240509_20240509_20340509.pdf
jhujyunjhang
20230513taibif-datapaper-tutorial_en.pdf.pdf
20230513taibif-datapaper-tutorial_en.pdf.pdf
jhujyunjhang
20230513taibif-datapaper-tutorial_zh.pdf
20230513taibif-datapaper-tutorial_zh.pdf
jhujyunjhang
2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
黑客成功修改国外大学成绩单,顺利毕业!【微 tytyqqww 信】修改大学成绩 #黑客改GPA #修改GPA成绩, #修改GPA排名#大学改挂科 #留学生...
黑客成功修改国外大学成绩单,顺利毕业!【微 tytyqqww 信】修改大学成绩 #黑客改GPA #修改GPA成绩, #修改GPA排名#大学改挂科 #留学生...
微信 tytyqqww业务接单
113年國中教育會考社會科試題本 113年國中教育會考社會科試題本 113年國中教育會考社會科試題本
113年國中教育會考社會科試題本 113年國中教育會考社會科試題本 113年國中教育會考社會科試題本
中 央社
1.[黑客]神秘代码破解!黑客如何修改数据? 小心,别被“数据”骗了你的眼睛和大脑。看看这个视频,揭秘黑客改数据背后的秘密! #解密 #黑客技术 #数据安...
1.[黑客]神秘代码破解!黑客如何修改数据? 小心,别被“数据”骗了你的眼睛和大脑。看看这个视频,揭秘黑客改数据背后的秘密! #解密 #黑客技术 #数据安...
微信 tytyqqww业务接单
《菁英體制的陷阱》《菁英體制的陷阱》《菁英體制的陷阱》《菁英體制的陷阱》《菁英體制的陷阱》
《菁英體制的陷阱》《菁英體制的陷阱》《菁英體制的陷阱》《菁英體制的陷阱》《菁英體制的陷阱》
powerdd
會考數學會考數學會考數學會考數學會考數學會考數學會考數學會考數學會考數學會考數學
會考數學會考數學會考數學會考數學會考數學會考數學會考數學會考數學會考數學會考數學
中 央社
113 年國中教育會考 自然科試題本113 年國中教育會考 自然科試題本113 年國中教育會考 自然科試題本
113 年國中教育會考 自然科試題本113 年國中教育會考 自然科試題本113 年國中教育會考 自然科試題本
中 央社
會考解答會考解答會考解答會考解答會考解答會考解答會考解答會考解答會考解答會考解答
會考解答會考解答會考解答會考解答會考解答會考解答會考解答會考解答會考解答會考解答
中 央社
國中會考國文國中會考國文國中會考國文國中會考國文國中會考國文國中會考國文國中會考國文
國中會考國文國中會考國文國中會考國文國中會考國文國中會考國文國中會考國文國中會考國文
中 央社
假营业执照价钱 【制作+微:892719599】
假营业执照价钱 【制作+微:892719599】
jipohal318
資訊安全宣導簡報資訊安全宣導簡報資訊安全宣導簡報資訊安全宣導簡報資訊安全宣導簡報
資訊安全宣導簡報資訊安全宣導簡報資訊安全宣導簡報資訊安全宣導簡報資訊安全宣導簡報
LinPhil
黑客改分,黑客改gpa,黑客改成绩,修改国外大学成绩黑客改GPA【微 tytyqqww 信】澳大利亚天主教大学__Australian Catholic ...
黑客改分,黑客改gpa,黑客改成绩,修改国外大学成绩黑客改GPA【微 tytyqqww 信】澳大利亚天主教大学__Australian Catholic ...
微信 tytyqqww业务接单
新加坡博伟教育学院 Dimensions International College怎么找黑客改成绩【微 tytyqqww 信】GPA低,要被开除怎么办...
新加坡博伟教育学院 Dimensions International College怎么找黑客改成绩【微 tytyqqww 信】GPA低,要被开除怎么办...
微信 tytyqqww业务接单
教育會考寫作測驗教育會考寫作測驗教育會考寫作測驗教育會考寫作測驗教育會考寫作測驗教育會考寫作測驗
教育會考寫作測驗教育會考寫作測驗教育會考寫作測驗教育會考寫作測驗教育會考寫作測驗教育會考寫作測驗
中 央社
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
Skeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
More Related Content
Recently uploaded
黑客成功修改国外大学成绩单,顺利毕业!【微 tytyqqww 信】修改大学成绩 #黑客改GPA #修改GPA成绩, #修改GPA排名#大学改挂科 #留学生...
黑客成功修改国外大学成绩单,顺利毕业!【微 tytyqqww 信】修改大学成绩 #黑客改GPA #修改GPA成绩, #修改GPA排名#大学改挂科 #留学生...
微信 tytyqqww业务接单
113年國中教育會考社會科試題本 113年國中教育會考社會科試題本 113年國中教育會考社會科試題本
113年國中教育會考社會科試題本 113年國中教育會考社會科試題本 113年國中教育會考社會科試題本
中 央社
1.[黑客]神秘代码破解!黑客如何修改数据? 小心,别被“数据”骗了你的眼睛和大脑。看看这个视频,揭秘黑客改数据背后的秘密! #解密 #黑客技术 #数据安...
1.[黑客]神秘代码破解!黑客如何修改数据? 小心,别被“数据”骗了你的眼睛和大脑。看看这个视频,揭秘黑客改数据背后的秘密! #解密 #黑客技术 #数据安...
微信 tytyqqww业务接单
《菁英體制的陷阱》《菁英體制的陷阱》《菁英體制的陷阱》《菁英體制的陷阱》《菁英體制的陷阱》
《菁英體制的陷阱》《菁英體制的陷阱》《菁英體制的陷阱》《菁英體制的陷阱》《菁英體制的陷阱》
powerdd
會考數學會考數學會考數學會考數學會考數學會考數學會考數學會考數學會考數學會考數學
會考數學會考數學會考數學會考數學會考數學會考數學會考數學會考數學會考數學會考數學
中 央社
113 年國中教育會考 自然科試題本113 年國中教育會考 自然科試題本113 年國中教育會考 自然科試題本
113 年國中教育會考 自然科試題本113 年國中教育會考 自然科試題本113 年國中教育會考 自然科試題本
中 央社
會考解答會考解答會考解答會考解答會考解答會考解答會考解答會考解答會考解答會考解答
會考解答會考解答會考解答會考解答會考解答會考解答會考解答會考解答會考解答會考解答
中 央社
國中會考國文國中會考國文國中會考國文國中會考國文國中會考國文國中會考國文國中會考國文
國中會考國文國中會考國文國中會考國文國中會考國文國中會考國文國中會考國文國中會考國文
中 央社
假营业执照价钱 【制作+微:892719599】
假营业执照价钱 【制作+微:892719599】
jipohal318
資訊安全宣導簡報資訊安全宣導簡報資訊安全宣導簡報資訊安全宣導簡報資訊安全宣導簡報
資訊安全宣導簡報資訊安全宣導簡報資訊安全宣導簡報資訊安全宣導簡報資訊安全宣導簡報
LinPhil
黑客改分,黑客改gpa,黑客改成绩,修改国外大学成绩黑客改GPA【微 tytyqqww 信】澳大利亚天主教大学__Australian Catholic ...
黑客改分,黑客改gpa,黑客改成绩,修改国外大学成绩黑客改GPA【微 tytyqqww 信】澳大利亚天主教大学__Australian Catholic ...
微信 tytyqqww业务接单
新加坡博伟教育学院 Dimensions International College怎么找黑客改成绩【微 tytyqqww 信】GPA低,要被开除怎么办...
新加坡博伟教育学院 Dimensions International College怎么找黑客改成绩【微 tytyqqww 信】GPA低,要被开除怎么办...
微信 tytyqqww业务接单
教育會考寫作測驗教育會考寫作測驗教育會考寫作測驗教育會考寫作測驗教育會考寫作測驗教育會考寫作測驗
教育會考寫作測驗教育會考寫作測驗教育會考寫作測驗教育會考寫作測驗教育會考寫作測驗教育會考寫作測驗
中 央社
Recently uploaded
(13)
黑客成功修改国外大学成绩单,顺利毕业!【微 tytyqqww 信】修改大学成绩 #黑客改GPA #修改GPA成绩, #修改GPA排名#大学改挂科 #留学生...
黑客成功修改国外大学成绩单,顺利毕业!【微 tytyqqww 信】修改大学成绩 #黑客改GPA #修改GPA成绩, #修改GPA排名#大学改挂科 #留学生...
113年國中教育會考社會科試題本 113年國中教育會考社會科試題本 113年國中教育會考社會科試題本
113年國中教育會考社會科試題本 113年國中教育會考社會科試題本 113年國中教育會考社會科試題本
1.[黑客]神秘代码破解!黑客如何修改数据? 小心,别被“数据”骗了你的眼睛和大脑。看看这个视频,揭秘黑客改数据背后的秘密! #解密 #黑客技术 #数据安...
1.[黑客]神秘代码破解!黑客如何修改数据? 小心,别被“数据”骗了你的眼睛和大脑。看看这个视频,揭秘黑客改数据背后的秘密! #解密 #黑客技术 #数据安...
《菁英體制的陷阱》《菁英體制的陷阱》《菁英體制的陷阱》《菁英體制的陷阱》《菁英體制的陷阱》
《菁英體制的陷阱》《菁英體制的陷阱》《菁英體制的陷阱》《菁英體制的陷阱》《菁英體制的陷阱》
會考數學會考數學會考數學會考數學會考數學會考數學會考數學會考數學會考數學會考數學
會考數學會考數學會考數學會考數學會考數學會考數學會考數學會考數學會考數學會考數學
113 年國中教育會考 自然科試題本113 年國中教育會考 自然科試題本113 年國中教育會考 自然科試題本
113 年國中教育會考 自然科試題本113 年國中教育會考 自然科試題本113 年國中教育會考 自然科試題本
會考解答會考解答會考解答會考解答會考解答會考解答會考解答會考解答會考解答會考解答
會考解答會考解答會考解答會考解答會考解答會考解答會考解答會考解答會考解答會考解答
國中會考國文國中會考國文國中會考國文國中會考國文國中會考國文國中會考國文國中會考國文
國中會考國文國中會考國文國中會考國文國中會考國文國中會考國文國中會考國文國中會考國文
假营业执照价钱 【制作+微:892719599】
假营业执照价钱 【制作+微:892719599】
資訊安全宣導簡報資訊安全宣導簡報資訊安全宣導簡報資訊安全宣導簡報資訊安全宣導簡報
資訊安全宣導簡報資訊安全宣導簡報資訊安全宣導簡報資訊安全宣導簡報資訊安全宣導簡報
黑客改分,黑客改gpa,黑客改成绩,修改国外大学成绩黑客改GPA【微 tytyqqww 信】澳大利亚天主教大学__Australian Catholic ...
黑客改分,黑客改gpa,黑客改成绩,修改国外大学成绩黑客改GPA【微 tytyqqww 信】澳大利亚天主教大学__Australian Catholic ...
新加坡博伟教育学院 Dimensions International College怎么找黑客改成绩【微 tytyqqww 信】GPA低,要被开除怎么办...
新加坡博伟教育学院 Dimensions International College怎么找黑客改成绩【微 tytyqqww 信】GPA低,要被开除怎么办...
教育會考寫作測驗教育會考寫作測驗教育會考寫作測驗教育會考寫作測驗教育會考寫作測驗教育會考寫作測驗
教育會考寫作測驗教育會考寫作測驗教育會考寫作測驗教育會考寫作測驗教育會考寫作測驗教育會考寫作測驗
Featured
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
Skeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
Introduction to Data Science
Introduction to Data Science
Christy Abraham Joy
Time Management & Productivity - Best Practices
Time Management & Productivity - Best Practices
Vit Horky
The six step guide to practical project management
The six step guide to practical project management
MindGenius
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Applitools
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
GetSmarter
ChatGPT webinar slides
ChatGPT webinar slides
Alireza Esmikhani
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
Project for Public Spaces & National Center for Biking and Walking
Featured
(20)
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
Skeleton Culture Code
Skeleton Culture Code
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Getting into the tech field. what next
Getting into the tech field. what next
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
How to have difficult conversations
How to have difficult conversations
Introduction to Data Science
Introduction to Data Science
Time Management & Productivity - Best Practices
Time Management & Productivity - Best Practices
The six step guide to practical project management
The six step guide to practical project management
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
ChatGPT webinar slides
ChatGPT webinar slides
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
taibif_開放資料流程-清理資料01-通則_20240509_20240509.pdf
1.
開放資料的前置準備 TaiBIF 內容經理 劉璟儀 除所引第三方素材皆隨頁標註另有宣告者外,本簡報採
CC0-1.0 公眾領域貢獻宣告 發布釋出。
2.
上傳資料前… 你應該準備好這些事 5
3.
上傳資料前… 你應該準備好這些事 24
4.
什麼是資料清理? 你可能以為的資料清理… 8 把別人的資料弄成自己看得懂的樣子 把資料表 A 貼到資料表
B 把不顯著的資料刪掉 刪除明顯錯誤的資料
5.
什麼是資料清理? 透過找出資料的錯誤、缺漏並修 正,進而提升資料品質的過程 9 你敢保證你的資料品質完美無缺? 對啊,怎樣? 你這裡多了 一個空格
6.
10 讓資料適合被利用 什麼是資料清理? 透過找出資料的錯誤、缺漏並修 正,進而提升資料品質的過程
7.
常見的資料錯誤 • 格式不一致/錯誤 • 拼字錯誤 •
資料缺漏 • 範圍錯誤 • ID/編碼重複 11 什麼!那樣也算?!
8.
資料清理小工具 • 地理分布線上座標系統轉換 12 https://portal.taibif.tw/coordinateConverter.php TWD 97 (生態調查常用) ↓ WGS
84 (國際通用/ GBIF 預設)
9.
資料清理小工具 • 座標轉換(度分秒- 十進位) 13 https://data.canadensys.net/tools/coordinates
10.
資料清理小工具 • 有效學名比對 NomenMatch 14 http://match.taibif.tw/
11.
資料清理小工具 • 有效學名比對 NomenMatch 15 http://match.taibif.tw/
12.
16 OpenRefine 資料清理小工具 不是資料庫 (無法儲存資料) 與 Excel 的使用方式不同 (只能清理資料)
13.
17 Excel OpenRefine 產生資料/ 管理資料
清理資料 檢核資料 GBIF data validator OpenRefine 資料清理小工具 2 1 3
14.
18 用 OpenRefine 清資料
https://openrefine.org/download.html 資料清理小工具
15.
19 用 OpenRefine 清資料 使用介面簡單 隨時自動暫存且離線操作 匯入CSV
/ Excel 不易出現亂碼 可一次修正整批資料錯誤/格式 可返回任何一步操作
16.
20 用 OpenRefine 清資料 選擇檔案後 a.
確認下方文字編碼為 UTF-8 b. 檢視表頭和欄位有沒 有抓錯 按下 Create Project 進入 使用介面 2 1 1 2
17.
21 用 OpenRefine 清資料
範例1 善用每個欄位中的Facet 功能 可作基本的文字內容歸類 找出重複或文字錯誤
18.
22 用 OpenRefine 清資料
範例2 使用正規表示式來搜尋格式不 符的學名 正規表示式 Regular expression 說明
19.
上傳資料前… 你應該準備好這些事 24
20.
檢核小工具 • GBIF data
validator 25 https://www.gbif.org/tools/data-validator
21.
檢核小工具 • GBIF data
validator 26 https://www.gbif.org/tools/data-validator
22.
用OpenRefine清理資料 TaiBIF 內容經理 劉璟儀 除所引第三方素材皆隨頁標註另有宣告者外,本簡報採
CC0-1.0 公眾領域貢獻宣告 發布釋出。
23.
3 用 OpenRefine 清資料 使用介面簡單 隨時自動暫存且離線操作 匯入CSV
/ Excel 不易出現亂碼 可一次修正整批資料錯誤/格式 可返回任何一步操作
24.
4 Excel OpenRefine 產生資料/ 管理資料
清理資料 檢核資料 GBIF data validator OpenRefine 資料清理小工具 2 1 3
25.
先產生並 彙整資料 5 驗證資料 GBIF Data Validator 查看資料問題 Validation
Issues 清理資料 OpenRefine 上傳資料 TaiBIF IPT 再次確認 資料問題 GBIF dataset 的 Issues & flags 1 2 3 4 5 6 清理資料流程
26.
用OpenRefine清理資料 會需要用到的連結 練習檔案下載 GBIF Data Validator NomenMatch
學名比對 Global Names Resolver
27.
8 下載並安裝在電腦 https://openrefine.org/download.html 用 OpenRefine
清資料
28.
9 下載並安裝在電腦 https://openrefine.org/download.html 用 OpenRefine
清資料
29.
檢核資料—先找出可能的資料錯誤 • GBIF data
validator 11 https://www.gbif.org/tools/data-validator
30.
案例練習- 進階作業 12 • 找出重複
ID occurrenceID • 新增欄位 basisOfRecord • 內容錯誤或與欄位不符 decimalLatitude, decimalLongitude, countryCode, country, day, year • 學名比對&清理 scientificName • 修正學名格式 ^[A-Z].*s[A-Z] • 清除多餘空格 country • 找出相似文字並合併 County 資料問題
31.
13 用 OpenRefine 清資料 選擇檔案並按
Next
32.
14 用 OpenRefine 清資料 選擇檔案後 a.
確認下方文字編碼為 UTF-8 b. 檢視表頭和欄位有沒有抓錯 按下 Creat Project 進入使用 介面 2 1 1 2
33.
15 用 OpenRefine 清資料 資料預覽區 資料呈現的地方 資料控制區 顯示選擇的資料 過濾器/查看編輯 歷程 專案列 檔案匯出/
編輯連結
34.
16 • 找出重複 ID
occurrenceID • 新增欄位 basisOfRecord • 內容錯誤或與欄位不符 decimalLatitude, decimalLongitude, countryCode, country, day, year • 學名比對&清理 scientificName • 修正學名格式 ^[A-Z].*s[A-Z] • 清除多餘空格 country • 找出相似文字並合併 County 資料問題 案例練習- 進階作業
35.
17 用 OpenRefine 清資料-
找出重複 ID Customized facets a. 在 occurrenceID 那欄 點選三角形小圖示 b. 選擇 Facet >> Customized facet >> Duplicates facet 1 2 選擇 true 的資料 找出重複的 ID 並修正
36.
18 • 找出重複 ID
occurrenceID • 新增欄位 basisOfRecord • 內容錯誤或與欄位不符 decimalLatitude, decimalLongitude, countryCode, country, day, year • 學名比對&清理 scientificName • 修正學名格式 ^[A-Z].*s[A-Z] • 清除多餘空格 country • 找出相似文字並合併 County 資料問題 案例練習- 進階作業
37.
19 用 OpenRefine 清資料-
新增欄位 Add Column a. 在 occurrenceID 那 欄點選三角形小圖示 b. 選擇 Edit Column >> Add column based on this column 1
38.
20 用 OpenRefine 清資料-
新增欄位 2 設定內容值 a. 填入新欄位名稱 basisOfRecord b. 把值都填入 "PresevedSpecimen"
39.
21 • 找出重複 ID
occurrenceID • 新增欄位 basisOfRecord • 內容錯誤或與欄位不符 decimalLatitude, decimalLongitude, countryCode, country, day, year • 學名比對&清理 scientificName • 修正學名格式 ^[A-Z].*s[A-Z] • 清除多餘空格 country • 找出相似文字並合併 County 資料問題 案例練習- 進階作業
40.
22 資料問題 案例練習- 進階作業 座標和國家不符
41.
23 用 OpenRefine 清資料-
內容錯誤(座標) Text Filter a. 利用正規表示式 ^[0-9] 篩選 出第一個字是數字的資料 b. 找出非十進位座標並修正成 十進位 2 1 此部分無法批次複 製修改,僅能個別 修正
42.
24 用 OpenRefine 清資料-
內容錯誤(座標) Canadensys Coordinate conversion 利用座標轉換工具,將度分秒的座 標格式換成十進位 貼上座標並按Submit 1
43.
25 資料問題 案例練習- 進階作業 推定經度應為負值
44.
26 用 OpenRefine 清資料-
內容錯誤(座標) Text Filter a. 利用正規表示式 ^[0-9] 篩選 出第一個字是數字的資料 b. 再從此篩選結果點選 Text Facet,找出那幾筆錯誤的 十進位座標並修正成負值 2 3 Text Facet 1
45.
27 資料問題 案例練習- 進階作業 國家代碼無效
46.
28 用 OpenRefine 清資料-
內容錯誤(countryCode) 1 Text Facet 將錯誤的值修改成GT 2
47.
29 • 找出重複 ID
occurrenceID • 新增欄位 basisOfRecord • 內容錯誤或與欄位不符 decimalLatitude, decimalLongitude, countryCode, country, day, year • 學名比對&清理 scientificName • 修正學名格式 ^[A-Z].*s[A-Z] • 清除多餘空格 country • 找出相似文字並合併 County 資料問題 案例練習- 進階作業
48.
30 用 OpenRefine 清資料-
學名比對 分類未對應 GBIF backbone
49.
31 用 OpenRefine 清資料-
學名比對 NomenMatch 將有問題的學名貼 上按 Check names 1 結果會顯示與有效學名差異之 處,以及比對吻合度的分數
50.
32 用 OpenRefine 清資料-
學名比對 Global Names Resolver 如果NomenMatch找不到,也可 以用這個比對看看
51.
33 用 OpenRefine 清資料-
學名清理 清除多餘空格 將連續空格清除成一個
52.
34 • 找出重複 ID
occurrenceID • 新增欄位 basisOfRecord • 內容錯誤或與欄位不符 decimalLatitude, decimalLongitude, countryCode, country, day, year • 學名比對&清理 scientificName • 修正學名格式 ^[A-Z].*s[A-Z] • 清除多餘空格 country • 找出相似文字並合併 County 資料問題 案例練習- 進階作業
53.
35 用 OpenRefine 清資料-
修正學名格式 Text Filter a. 利用正規表示式 ^[A-Z].*s[A-Z] 篩選 出第一個字開頭是大寫字母,同時第 二個字開頭也是大寫字母的資料 2 記得下面兩個選項要打勾 1
54.
36 用 OpenRefine 清資料-
修正學名格式 Text Facet 修正學名格式,第二個字開頭應 為小寫字母 4 可以批次修改 3
55.
37 用 OpenRefine 清資料-
修正學名格式 Text Filter 1. 利用正規表示式 ^[a-z].*s[a-z] 篩選出 第一個字開頭是小寫字母,同時第二個 字開頭也是小寫字母的資料 2. 將第一個字開頭修正為大寫 2 記得下面兩個選項要打勾 1
56.
38 • 找出重複 ID
occurrenceID • 新增欄位 basisOfRecord • 內容錯誤或與欄位不符 decimalLatitude, decimalLongitude, countryCode, country, day, year • 學名比對&清理 scientificName • 修正學名格式 ^[A-Z].*s[A-Z] • 清除多餘空格 country • 找出相似文字並合併 County 資料問題 案例練習- 進階作業
57.
39 用 OpenRefine 清資料-
清除多餘空格2 清除多餘空格 a. 選擇 Country 那欄 b. 點選 Edit cells >> Common transforms >> Trim leading and trailing whitespace c. 將文字前後的多餘空格去除
58.
40 • 找出重複 ID
occurrenceID • 新增欄位 basisOfRecord • 內容錯誤或與欄位不符 decimalLatitude, decimalLongitude, countryCode, country, day, year • 學名比對&清理 scientificName • 修正學名格式 ^[A-Z].*s[A-Z] • 清除多餘空格 country • 找出相似文字並合併 county 資料問題 案例練習- 進階作業
59.
41 用 OpenRefine 清資料-
統一資料格式 Cluster 比對相似資料及合併 a. 選擇 Text Facet b. 點選 Cluster c. 結果找出可能是一樣但格式不一致的值 d. 勾選要合併的值,按 Merge Selected & Re-cluster 2 1 3
60.
42 進階題-自動匯入高階層分類欄位 連接 GBIF backbone
API a. 選擇 scientificName b. 點選 Edit column >> Add column by fetching URLs 1
61.
43 進階題-自動匯入高階層分類欄位 貼上語法串接API a. 將新欄位名稱設定為 Api_name b.
Throttle delay 設定為 250 c. 在 Expression 貼上語法 2 3 4 語法在下一頁, 請整串複製貼上
62.
44 進階題-自動匯入高階層分類欄位 "http://api.gbif.org/v1/species/match?verbose=true&name="+escape(value,'url') 語法在此,請整串複製貼上
63.
45 進階題-自動匯入高階層分類欄位 呼叫各分類階層的值 a. 到 Api_name
欄位並選擇 Edit column >> Add column based on this column b. 將新欄位名稱寫為 higherClassification c. 貼上語法按 OK 2 3 1 語法在下一頁, 請整串複製貼上
64.
46 進階題-自動匯入高階層分類欄位 value.parseJson().get("kingdom")+", "+value.parseJson().get("phylum")+", "+value.parseJson().get("class")+", "+value.parseJson().get("order")+",
"+value.parseJson().get("family") 語法在此,請整串複製貼上 複製貼上請注意語法是否有空格和空行,請刪除
65.
47 進階題-自動匯入高階層分類欄位 2 1 將一個欄位中的值分成 不同欄位 a. 到
higherClassification 欄 位並選擇 Edit column >> Split into several columns b. 確認該欄位的分隔符號是逗 號並按 OK c. 一一將欄位名稱改為界、門、 綱… 3
66.
48 進階題-自動匯入高階層分類欄位 1 將不要的欄位刪除 a. 到 All欄位並選擇Edit
colimnus >> Re-order/ remove columns b. 拖曳左邊不想要的欄位到右邊區 域並按 OK 2
67.
Thank you!
Download now