練習的小技巧
資料驗證檢查
技術性錯誤Technical errors 相對簡單、容易被自動化地檢查出來,檢查資料的完整性。 這也指那些錯誤的輸出格式、資料映射、欄位滑動(如:整行向右滑動一行)、及來源的資料缺失。
-
完整性Completeness: 所有的資料與後設資料是否齊全──是否所有欄位都在、且無缺失?
-
該有的限制Bounds: 比如日期應當於1至31之間(依月份而定)
-
資料類型Data type: 舉例來說,填在日期欄位中的是否是單一日期、或數字呢?
-
資料格式Data format: 舉例來說,日期格式會是如 01/01/2010 還是 01/Jan/10?
一致性錯誤Consistency errors
把真實世界的規則套用在資料上。這可能代表有些錯誤是來自於舊紀錄的資料輸入、過去的錯誤轉錄、或後處理;而有些規則應用上十分複雜、且 需要參考資料集才能檢驗 ───如:一份關於已知的蒐集者及其蒐集習慣的清單。這些規則可以從資料使用者、分析師中得到。
-
分類上的Taxonomic: 如,若鑑定至種,則得有屬名+種小名等完整的學名。
-
流通性Currency: 檢查採集、鑑定、更新及數位化的日期是否一致?
-
異常值Outliers: 去找出異常值,但記住不是所有的異常值都一定是錯誤。 比如:不同於已知的物種分布區域、或已知的環境範圍(但請記住,比起是座標的錯誤異常,這個異常值更可能是被錯誤鑑定至此而產生的結果)。
-
地理上的Geographic: 這些座標有落於對應的地點、地區內嗎? 比如:是否有任何出現在海上的陸生紀錄、或出現在陸地上的海洋紀錄?
-
採集模式Collecting patterns: 此筆出現紀錄的細節是否符合這個組織、採集者他們已知的採集模式呢? 是否有任何紀錄是在採集者死亡後新增的(或者,這可能是另一位有著同名的不同採集者)? 舉例如:是否有任何哺乳類紀錄出現在賞鳥團體的紀錄當中?
-
正確性與精準度Accuracy and precision: 具體來說,是否有任何具地理參照的紀錄在精確的定位之前,就有著非常高的GPS精準度、正確性?
-
採集方法Collecting methods: 不同採集方法(如:穿越線法、區域調查法)具有特定的特徵。這些記錄呈現出來與提供出來的方法是一致的嗎?
實用工具
-
GBIF Name Parser: https://www.gbif.org/tools/name-parser
-
Global Names Resolver: http://resolver.globalnames.org
-
Catalogue of Life name match: https://data.catalogueoflife.org/tools/name-match
-
Georeferencing Calculator: http://georeferencing.org/georefcalculator/gc.html
-
Canadensys coordinate conversion: http://data.canadensys.net/tools/coordinates
-
Canadensys date parsing: http://data.canadensys.net/tools/dates
-
Google Maps: https://maps.google.com/