Exercise 3a-c
這個練習中,你將進行技術性驗證與一致性檢查,以不同工具來增進資料集外,且學習如何使用 OpenRefine 。 |
請看 [練習案例一:情境] (若您還沒閱讀過的話)
你的機構隸屬於「國際禾本植物協會(Global Poales Association, 下稱GPA)」的其中一員。此協會已經募得了發表最新版植物誌所需的資助,並要求你的標本館去參與、並提供該目植物任何可能有的高品質紀錄資訊。該目在你的館藏中十分豐富,因此你認為你能很好地對此有所貢獻。
Exercise 3a
資料驗證檢查
此練習中,我們將專注在技術性錯誤,並練習執行基本的驗證檢查來找出技術性錯誤。請參考 [Validation checks] 來得到更多關於錯誤的種類資訊。
-
Download UC1-3ab-data-cleaning.csv. (207.5 KB)
-
將CSV以Excel wizard匯入Excel中。可見 Excel-tips-EN.pdf (PDF, 7 MB) 來獲得符合您操作系統(Windows, Mac, Linux)的更多說明。
-
找到、手動更正錯誤。
-
使用前面下載的練習表exercise sheet 來提供你的答案。
Exercise 3b
其他資料管理工具
GPA協會給了一份資料品質的要求清單要你驗證:
-
所有植物名稱(全名)都拼寫正確
-
所有植物名都屬於該目
-
所有紀錄都有座標
-
所有座標都在上面表示的國家內、並轉換至十進位制
-
所有日期資料都在適當的欄位內,並且格式為YYYY-MM-DD
錯誤的三種種類分別是:
-
命名錯誤
-
格式錯誤
-
地理資訊錯誤/離群值
-
請參考 [Helpful tools] 來完成整個練習。可以使用的工具不受限於這些,您可以使用任何想要的工具。
-
使用上個練習中的相同檔案
-
只對 Eriocaulaceae (穀精草科)的紀錄進行更正(對此你可能會要篩選資料)
-
更正那些在前個練習中(exercise 3a)找到的資料集錯誤,使用你選擇的工具,並將你做出的變更在練習表中記錄成檔。
-
若您有空的話,把整個檔案都做一遍。
-
使用前面下載的練習表exercise sheet 來提供你的答案。
-
Exercise 3c
在這影片中 (03:27),你將學習 OpenRefine。你可以用 OpenRefine來標準化、並增進你的資料集品質。若您無法觀看嵌入在課程頁面上的影片,可點此下載 download 至電腦上觀賞 (MP4 - 3.8 MB) |
OpenRefine
在此練習中,我們使用OpenRefine 來改善資料集的品質。將使用的是內建的基本功能、既存的網路服務、及正規表示式。
-
Download UC1-3c-open-refine.csv. (207.5 KB)
-
下載並完成連結中的練習 in OpenRefine-Exercise3c-EN.pdf. (PDF, 1.1 MB) 。亦可於此取得不同語言版本 French 及 Spanish.
-
使用前面下載的練習表exercise sheet 來提供你的答案。