Dicas do exercício

Verificações da validação

Erros técnicos Relativamente simples, muitas vezes capaz de ser automatizado, verifica a integridade dos dados. Isso pode indicar exportações incorretas, mapeamento de dados, deslizamento de campo (e.g. moveu 1 coluna para a direita) ou dados em falta na fonte.

  • Integridade: Se todos os dados e metadados estão disponíveis - todos os campos estão presentes, todos os campos estão preenchidos?

  • Limites: Por exemplo, os dias foram dados no intervalo de 1-31 (dependendo do mês)

  • Tipo de dados: Por exemplo, o campo Data contém uma data ou um número?

  • Formato de dados: Por exemplo, as datas são fornecidas como 01/01/2010 ou 01/Jan/10?

Erros de consistência

Aplicação de regras do mundo real aos dados. Isso pode indicar informações incorretas de registos antigos, erros de transcrição ou de pós-processamento. Alguns são complexos para implementar e requerem conjuntos de dados de referência para nova verificação. E.g. uma lista de coletores e hábitos de coleta conhecidos. Estas regras podem ser recolhidas através de utilizadores e analistas de dados.

  • Taxonomia: Por exemplo, se identificado ao nível de espécies, foram fornecidos o nome científico binómio e entradas nos campos de gênero e espécie?

  • Moeda: As datas de coleção, identificação, actualização e digitalização são consistentes?

  • Outliers: Detectar outliers, mas lembre-se de que nem todos os outliers são necessariamente erros. Por exemplo, compare contra uma extensão de espécies conhecidas ou um intervalo ambiental conhecido (mas lembre-se que outliers podem ser identificações erradas, ao invés de coordenadas incorretas).

  • Geografia: As coordenadas estão dentro da localidade ou região identificadas? Por exemplo, há alguma ocorrência terrestre no mar ou ocorrências marinhas em terra?

  • Padrões de amostragem: O detalhe da ocorrência corresponde aos padrões de colheita conhecidos da organização ou coletor? Algum registo parece ter sido criado após a morte de um coletor (poderia ser um coletor diferente com um nome similar)? Por exemplo, algum registo de mamíferos está atribuído a um grupo de observação de pássaros?

  • Exatidão e precisão: Por exemplo, quaisquer registos geo-referenciados indicando uma precisão ou exatidão muito alta de um período de colheita pré-GPS (ou pré-acurácia do GPS)?

  • Métodos de colheita: Diferentes métodos de pesquisa (por exemplo, transects e buscas de área) têm características específicas. Os registos são consistentes com o método fornecido?