資料品質
在這影片 (12:26)中,將介紹所使用的到的專有名詞。若您無法觀看嵌入在課程頁面上的影片,可以點此下載 download 並在電腦上觀賞。 (MP4 - 44.5 MB) |
以下為選讀文章──來自Arthur Chapman’s guide 的 “Principles of data quality” (資料品質原理) 此為全文 Full document ,參考資料及翻譯也可在GBIF.org上找到。 |
在近一步探討資料品質和它在物種出現紀錄上的應用前,尚有一些概念需要釐清,如:資料品質的意義、詞語上常被誤用的「正確性」與「精準性」間之定義與區別,與初級物種資料和物種出現紀錄資料的意義。
物種出現紀錄資料
物種出現紀錄資料(Species-occurrence data)包含:博物館與植物標本館中附在標本(或批次)上的標籤資料、一般的觀測資料、和環境調查資料。在這個範疇中,雖含有線段資料(環境調查中的穿越線調查資料,如:沿河流之蒐集)、多角形資料(於特定區域內的觀測,如:國家公園)、網格資料(於規則網格中的觀測、調查記錄)等不同樣態的資料,但廣義上它們仍算作所謂的"基於點的"(point-based)資料。就此而言,廣義上我們討論的是具有地理參照資訊之資料,其中的地理參照資訊便能將之與特定時空位置連結起來──其中的地理資訊可以含有確切的地理座標(若有則如:經緯度、UTM),或具對地區的具體描述(如:海拔、深度等),並這些資訊都需搭配上時間之資料(日期、時刻)。
物種出現紀錄資料一般都會帶有詳細的分類名稱,但亦可能包含有尚未鑑別者。因此,「物種出現紀錄資料」一詞有時能和「初級物種資料(“primary species data”)」相互替換。
初級物種資料
「初級物種資料」(“Primary species data” )用來指最原始的標本蒐集資料,它包含了沒有空間屬性的命名分類描述資訊,如:名稱、系統分類、與不具有地理空間屬性的分類概念。
正確性與精準度
正確性(Accuracy)與精準度(Precision)經常被搞混,其因在於人們普遍不理解其中的差異。
「正確性」指的是量測值(或觀測值、估計值)與真值(或實際情況、或被接受為真的值,如:測量控制點的座標)的靠近程度。
「精準度」(又稱解析度)則可被分為兩種類型: 首先,統計精度指的是重複觀測結果與它們自身的接近程度,其與真值的接近程度無關,因此有可能有高正確性、但低精準度的狀況。 其次,數值精度指的是記錄有效位數的個數,並隨著電腦的出現更加明顯。舉例而言,資料庫中可以輸出經度/緯度至小數點下10位的準確度(約為現實中之0.1mm),然而該記錄的解析度實際上並不優於10-100m(小數點下3-4位),這常導致大眾對解析度與準確度產生了混淆、錯誤的認識。
除了帶有空間屬性的資料外,「正確性」與「精準度」這兩個詞也能被用在不具空間屬性的資料上。舉例而言,一個標本可能雖被鑑定至亞種的層級(高的精準度)卻分在錯的分類底下(低正確性),或是僅鑑定至科的層級(高正確性、低精準度)。
資料品質
「資料品質」一詞具有多個面向,並同時與資料管理、建模分析、品質控管確認、儲存與呈現有關。在Chrisman (1991)及Strong et al. (1997)中分別指出,資料品質僅和資料的利用相關,並且無法獨立於使用者外評估。在資料庫中,一筆數據並沒有所謂「實際的」品質與價值(Dalcin 2004),它們的潛在價值只有在某位使用者的利用下才進而實現──故也由此可知,資料的品質便與滿足使用者需要的能力息息相關(English 1999)。
Redman (2001)認為:一適合使用的資料必須是能被取得(accessible)、正確(accurate)、即時更新(timely)、完整(complete)、與其他來源一致(consistent with other sources)、與主題相關(relevant)、全面(comprehensive)的,並提供使用者適當程度的細節、且容易閱讀理解。
身為資料保管者,可以去思考該做什麼來面向更廣的使用者、及拓展資料庫的用途(如:增加其潛在的使用與相關性)。這類工作譬如:將資料欄位原子化、或新增地理參考資訊……等等──也是故,這樣的思考也勢必得在 使用性提升 vs. 投入的工作成本 中做出權衡。
品質保證/品質控管
一直以來,品質控管(QC)、品質保證(QA)之間的差異並不清楚。Taulbee (1996)認為強調若要達成品質目標,兩者缺一不可,並對此做出區別。她將品質控管(QC)定義為:根據內部的標準、流程、或程序進行的品質判斷,藉此來控制及監測品質;而品質保證(QA)則依據外部標準進行,藉由回顧過程中的種種行為、品質控管(QC)流程,來確保最終產品符合預定的品質標準。
在更以商業導向的方法中,Redman (2001)將品質保證(QA)定義成「以盡可能低的成本來滿足最重要客戶的需求,並為此設計來生產無瑕疵的資訊產品的所有行為活動」。
上述提到的術語如何實際應用尚不清楚,且在大多數的情境中,它們常被同義地使用,並用以描述資料品質管理的整體操作。
不確定性
「不確定性」(Uncertainty )可以視為是對「對一未知量的知識及資訊的不完整性」的衡量,若當完美的測量裝置存在時,則可確定它的實際程度 (Cullen and Frey 1999)。不確定性是觀察者對資料理解的性質,此性質與觀察者較有關,而非每份資料本身。在資料中永遠存在不確定性,若想透過記錄、理解、和視覺化這樣的不確定性來讓他人能理解並不容易。但總之,不確定性是用來理解風險及其評估的關鍵術語。
誤差
「誤差」(Error )一詞同時包含了資料的不精準(imprecision)與不正確(inaccuracy)兩個層面。有許多因素會造成誤差,但一般來說,誤差會被視為是隨機、或系統性的──隨機誤差指的是隨機抽樣造成測量值與真實值之間產生的偏差;而系統性誤差則來自值上的整體偏移,若從製圖學的視角看仍保有「相對的正確性」(Chrisman 1991),是而在決定「適用性」時,在某些應用上系統誤差在可能是可被接受的。
舉個情境而言,是在使用不同的大地測量基準的時候。若在整個分析中只使用同個大地測量基準,可能不會發生大問題;但若在分析中使用了來自不同大地測量基準、且有不同偏差的資料,(如:使用不同大地測量基準的資料集、或鑑定時參照了早期版本的命名法規),則可能就會發生問題。
(Chrisman 1991)提到:由於無法避免誤差,因此應將它視為資料的基礎維度。只有當誤差與資料的同時呈現時,才可能去了解資料的限制、甚至理解現有知識的極限在哪。承上所述,需要計算整理空間、屬性、時間等三個維度的已知誤差,藉此更進一步了解資料性質。
資料驗證與清理
資料驗證(Validation)是檢查資料是否正確、完整、合理的過程。其中包含:格式檢查、完整度檢查、合理性檢查、限制檢查,資料回顧(藉此判別離群值及其他誤差。如:地理上、統計上、時間上、環境性的……等等),以及相關領域專家(如:分類學家)對資料的評估。此外,這階段也會去檢查資料是否遵守適用的標準、規則和慣例。這些檢查常會將可疑紀錄標記、整理出來,並進行後續的確認。找出造成誤差的主因,並盡可能避免這些錯誤再度發生,是驗證與清理中的關鍵階段(Redman 2001)。
資料清理(Data cleaning)是修補上階段找出的錯誤的過程,其可同義於「資料清潔」(注意:有些人使用「資料清潔」一詞來同時概括資料驗證、清理兩個階段,但此處並非此用法)。這階段中,要避免無意間的資料損失、同時在更改資料時要特別小心。較好的做法是新舊並存(保留原始資料、及更正後的版本),且並排保存在資料庫中,藉此若在清理時出錯時還能恢復成原始資料。