Dicas do exercício
Verificações da validação
Erros técnicos Relativamente simples, muitas vezes capaz de ser automatizado, verifica a integridade dos dados. Isso pode indicar exportações incorretas, mapeamento de dados, deslizamento de campo (e.g. moveu 1 coluna para a direita) ou dados em falta na fonte.
-
Integridade: Se todos os dados e metadados estão disponíveis - todos os campos estão presentes, todos os campos estão preenchidos?
-
Limites: Por exemplo, os dias foram dados no intervalo de 1-31 (dependendo do mês)
-
Tipo de dados: Por exemplo, o campo Data contém uma data ou um número?
-
Formato de dados: Por exemplo, as datas são fornecidas como 01/01/2010 ou 01/Jan/10?
Erros de consistência
Aplicação de regras do mundo real aos dados. Isso pode indicar informações incorretas de registos antigos, erros de transcrição ou de pós-processamento. Alguns são complexos para implementar e requerem conjuntos de dados de referência para nova verificação. E.g. uma lista de coletores e hábitos de coleta conhecidos. Estas regras podem ser recolhidas através de utilizadores e analistas de dados.
-
Taxonomia: Por exemplo, se identificado ao nível de espécies, foram fornecidos o nome científico binómio e entradas nos campos de gênero e espécie?
-
Moeda: As datas de coleção, identificação, actualização e digitalização são consistentes?
-
Outliers: Detectar outliers, mas lembre-se de que nem todos os outliers são necessariamente erros. Por exemplo, compare contra uma extensão de espécies conhecidas ou um intervalo ambiental conhecido (mas lembre-se que outliers podem ser identificações erradas, ao invés de coordenadas incorretas).
-
Geografia: As coordenadas estão dentro da localidade ou região identificadas? Por exemplo, há alguma ocorrência terrestre no mar ou ocorrências marinhas em terra?
-
Padrões de amostragem: O detalhe da ocorrência corresponde aos padrões de colheita conhecidos da organização ou coletor? Algum registo parece ter sido criado após a morte de um coletor (poderia ser um coletor diferente com um nome similar)? Por exemplo, algum registo de mamíferos está atribuído a um grupo de observação de pássaros?
-
Exatidão e precisão: Por exemplo, quaisquer registos geo-referenciados indicando uma precisão ou exatidão muito alta de um período de colheita pré-GPS (ou pré-acurácia do GPS)?
-
Métodos de colheita: Diferentes métodos de pesquisa (por exemplo, transects e buscas de área) têm características específicas. Os registos são consistentes com o método fornecido?
Ferramentas úteis
-
GBIF Name Parser: https://www.gbif.org/tools/name-parser
-
Global Names Resolver: http://resolver.globalnames.org
-
Correspondência de nome para o catálogo da vida: https://data.catalogueoflife.org/tools/name-match
-
Georeferencing Calculator: http://georeferencing.org/georefcalculator/gc.html
-
Conversão de coordenadas Canadensys: http://data.canadensys.net/tools/coordinates
-
Análise de datas do Canadensys: http://data.canadensys.net/tools/dates
-
Google Maps: https://maps.google.com/