Exercise 3a-c

這個練習中,你將進行技術性驗證與一致性檢查,以不同工具來增進資料集外,且學習如何使用 OpenRefine

請看 [練習案例一:情境] (若您還沒閱讀過的話)

你的機構隸屬於「國際禾本植物協會(Global Poales Association, 下稱GPA)」的其中一員。此協會已經募得了發表最新版植物誌所需的資助,並要求你的標本館去參與、並提供該目植物任何可能有的高品質紀錄資訊。該目在你的館藏中十分豐富,因此你認為你能很好地對此有所貢獻。

Exercise 3a

資料驗證檢查

此練習中,我們將專注在技術性錯誤,並練習執行基本的驗證檢查來找出技術性錯誤。請參考 [Validation checks] 來得到更多關於錯誤的種類資訊。

  1. Download UC1-3ab-data-cleaning.csv. (207.5 KB)

  2. 將CSV以Excel wizard匯入Excel中。可見 Excel-tips-EN.pdf (PDF, 7 MB) 來獲得符合您操作系統(Windows, Mac, Linux)的更多說明。

  3. 找到、手動更正錯誤。

  4. 使用前面下載的練習表exercise sheet 來提供你的答案。

Exercise 3b

其他資料管理工具

GPA協會給了一份資料品質的要求清單要你驗證:

  • 所有植物名稱(全名)都拼寫正確

  • 所有植物名都屬於該目

  • 所有紀錄都有座標

  • 所有座標都在上面表示的國家內、並轉換至十進位制

  • 所有日期資料都在適當的欄位內,並且格式為YYYY-MM-DD

錯誤的三種種類分別是:

  • 命名錯誤

  • 格式錯誤

  • 地理資訊錯誤/離群值

    1. 請參考 [Helpful tools] 來完成整個練習。可以使用的工具不受限於這些,您可以使用任何想要的工具。

    2. 使用上個練習中的相同檔案

    3. 只對 Eriocaulaceae (穀精草科)的紀錄進行更正(對此你可能會要篩選資料)

    4. 更正那些在前個練習中(exercise 3a)找到的資料集錯誤,使用你選擇的工具,並將你做出的變更在練習表中記錄成檔。

    5. 若您有空的話,把整個檔案都做一遍。

    6. 使用前面下載的練習表exercise sheet 來提供你的答案。

Exercise 3c

在這影片中 (03:27),你將學習 OpenRefine。你可以用 OpenRefine來標準化、並增進你的資料集品質。若您無法觀看嵌入在課程頁面上的影片,可點此下載 download 至電腦上觀賞 (MP4 - 3.8 MB)

OpenRefine

在此練習中,我們使用OpenRefine 來改善資料集的品質。將使用的是內建的基本功能、既存的網路服務、及正規表示式。

  1. Download UC1-3c-open-refine.csv. (207.5 KB)

  2. 下載並完成連結中的練習 in OpenRefine-Exercise3c-EN.pdf. (PDF, 1.1 MB) 。亦可於此取得不同語言版本 FrenchSpanish.

  3. 使用前面下載的練習表exercise sheet 來提供你的答案。