情境

來自文獻「Danish Lighthouses 落下的鳥類,1883-1939(Birds fallen at Danish Lighthouses, 1883–1939)」的資料流通專案

use case 3 scanner
https://upload.wikimedia.org/wikipedia/commons/b/bc/Wikimedia_Rechenbuchdigitalisierung_2006-05-24_01.JPG [高解析度掃描器] 由 Heiko Hornig 執行的書籍數位化專案(採用https://creativecommons.org/licenses/by-sa/2.5/deed.en 創用 CC 授權條款 CC BY-SA 2.5 授權)

這個敘述是作為生物多樣性資料流通課程實作練習的基礎而開發的,練習概念和內容由Alberto González-Talaván、Andrea Hahn、Laura Russell 和 Sharon Grant 開發。這是基於Alberto González-Talaván、Danny Vélez、Larissa Smirnova、Laura Russell、Mélianie Raymond 和 Nicolas Noé 先前改編的版本。

這是基於真實專案和資料集的虛構情境,僅供教學用途。原始專案(https://danbif.dk/se-eksempler/fyrfaldne-fugle/)和原始資料集(https://www.gbif.org/dataset/ad331dcc-d0fa-4816-b1e6-d36f9f899c49)歸屬於丹麥 GBIF(https://danbif.dk/)。

描述

丹麥自然歷史博物館(NHM-DK)是哥本哈根大學的研究中心。他們的圖書館是國家圖書館協會的成員,最近獲得了國家資金,以利將其成員持有的資源放上網路。NHM-DK 想要開始將他們圖書館中的野外筆記本、期刊出版物和書籍數位化,其中一些具有重要的歷史價值。

在與合作夥伴進行簡短諮詢後,NHM-DK 收到了來自 Nordjylland 國家公園管理辦公室主任的建議。他們希望將一份特定的經典文獻彙編數位化,用於他們正在進行的專案:「Danish Lighthouses 的鳥類,1883-1939」(丹麥文為「Fuglene ved de danske Fyr, 1883-1939」)。他們想要在實體展覽專案中使用這些書籍中任何有關兩座燈塔(Lodbjerg Fyr 和 Hanstholm Fyr)的出現紀錄資料。

NHM-DK 已經開始與他們國家的 GBIF(全球生物多樣性資訊機構)——DanBIF 討論這些卷冊中資訊的流通問題,主要是為了保存其內容以供未來使用,並為所有人提供線上存取。在 DanBIF 的參與下,計劃將提取的資料發布並註冊到 GBIF。由於 GBIF 要求所有發布的資料都必須附加授權條款,博物館已決定以允許註明出處使用資料的創用 CC 授權條款(CC-BY)發布資料。

專案需要的 IT 服務由哥本哈根大學的技術部門提供,如同所有博物館的數位專案一樣。

NHM-DK 副館長正在協調這項工作,並建立了工作的整體框架:

  1. 博物館將由兩名受過圖書館掃描器使用培訓的圖書館工作人員進行文獻數位化,他們會小心處理這些脆弱的卷冊。他們還會透過 OCR(光學字元識別)軟體從掃描檔中提取文字。

  2. 來自哥本哈根鳥類學會(COS)的三名志工經常與博物館合作,並熟悉該地區的鳥類,他們將協助並完成將掃描的 PDF 資料轉換為試算表格式的工作。他們需要到博物館使用圖書館的電腦才能存取儲存在博物館內部網路(私人網路)中的檔案。

  3. NHM-DK 鳥類部門的鳥類學研究員將帶領團隊共同負責分類檢查、資料典藏、清理、格式和轉換,並監督已發布資料集的詮釋資料輸入。團隊包括一名來自瑞典的合作研究員和兩名博士後研究生。他們被選定負責這項任務是因為他們習慣處理數位生物多樣性資料。他們都將使用自己的工作電腦。

  4. DanBIF 節點管理員將確保該機構在 GBIF 正確註冊為資料發布者,並確保副館長和鳥類學研究員擁有合適的憑證和存取權限,以使用 DanBIF 的資料整合發布工具(IPT)上傳和發布資料。

原始資料收集

在 1883 年至 1939 年期間,丹麥共有 45 座運作中的燈塔和燈船。這些燈塔在 1886 年至 1939 年鳥類遷徙期間被多種鳥類使用。這些鳥類的出現和活動主要由燈塔管理員記錄,他們還收集標本並將其送往哥本哈根的博物館。這些鳥類由博物館的典藏經理仔細保存和編目,至今仍保存在那裡。管理員還記錄了觀測鳥類期間的夜間天氣狀況。

類比資料(紙本資料)描述

這是從一本書中記錄的一系列物種觀測資料的描述範例(書籍使用德文,只有物種的俗名使用丹麥語)。

use case 3 analogue

掃描與翻譯資料描述

這是上述類比資料(紙本資料)的掃描和翻譯範例。

use case 3 scanned

數位資料描述

研究這本書的摘錄,哥本哈根鳥類學會的志工建議從掃描和翻譯的文本中提取以下資料:

  • 書中出現的科學名稱

  • 書中出現的丹麥語俗名

  • 地點

  • 年/月/日

  • 觀測個體數量

  • 性別

  • 生命階段

  • 備註

  • 出現紀錄的數位化書籍頁面的 URL