Qualidade dos dados

Neste vídeo (12:26), poderá rever a terminologia usada neste curso. Se não puder assistir o vídeo incorporado, utilize o download localmente. (MP4 - 44.5 MB)
Abaixo encontrará uma leitura selecionada do guia do Arthur Chapman: “Princípios da qualidade de dados”. Documento completo, referências e traduções podem ser encontradas em GBIF.org.

Antes que uma discussão detalhada sobre a qualidade dos dados e a sua aplicação a dados de ocorrência de espécies possa ser iniciada, há vários conceitos que precisam ser definidos e descritos. Estes, incluem o próprio termo "qualidade de dados", os termos "exatidão" e "precisão", que são comumente mal aplicados, e o que queremos dizer com dados de espécies primárias e dados de ocorrência de espécies.

Dados de ocorrência-espécie

Os dados de ocorrência de espécies são utilizados aqui para incluir dados de etiquetas de espécimes anexados a espécimes ou coleções alojados em museus e herbaria, dados de observações e dados de pesquisas ambientais. Em geral, os dados são o que chamamos de “point-based”, embora transecto (dados de transectos de pesquisas ambientais, colheitas ao longo de um rio), polígono (observações de uma área definida como um parque nacional) e dados de grid (observações ou registos de pesquisa de uma grid regular) também são incluídos. Em geral, estamos a falar de dados georeferenciados – i.e. registros com referências geográficas que os amarram a um local em particular no espaço - seja com uma coordenada georeferenciada (e.g. latitude e longitude, UTM) ou não (descrição textual de uma localidade, altitude, profundidade) – e hora (data, hora do dia).

Em geral, os dados também são vinculados a um nome taxonômico, mas as coleções não identificadas também podem ser incluídas. O termo tem sido ocasionalmente utilizado indistintamente com o termo "dados primários de espécies".

Dados primários de espécies

"Dados de espécies primárias" é usado para descrever dados e dados da coleção bruta sem quaisquer atributos espaciais. Inclui dados taxonómicos e nomenclaturais sem atributos espaciais, como nomes, taxa e conceitos taxonómicos sem referências geográficas associadas.

Exatidão e precisão

A exatidão e a precisão são regularmente confundidas e as diferenças não são geralmente compreendidas.

A exatidão refere-se à proximidade de valores medidos, observações ou estimativas para o valor real ou verdadeiro (ou para um valor que é aceito como sendo verdadeiro – por exemplo, as coordenadas de um ponto de controle da pesquisa).

A precisão (ou Resolução) pode ser dividida em dois tipos principais. A precisão estatística é a proximidade com que repetidas observações se relacionam a si mesmas. Eles não têm nada a ver com a sua relação com o verdadeiro valor e podem ter uma grande precisão, mas uma baixa exatidão. Precisão numérica é o número de algarismos significativos em que uma observação é registada e tornou-se muito mais evidente com o advento dos computadores. Por exemplo, uma base de dados pode produzir um registro decimal de latitude/longitude em 10 casas decimais – i.e. ca. 1 mm quando na realidade, o registo tem uma resolução não superior a 10-100 m (3-4 casas decimais). Isto conduz frequentemente a uma falsa impressão tanto da precisão como da exatidão.

Estes termos – exatidão e precisão – também podem ser aplicados aos dados não espaciais, bem como aos dados espaciais. Por exemplo, uma coleção pode ter uma identificação para o nível de subespécie (i.e. tem alta precisão), mas seja o táxon errado (ou seja, tenha baixa exatidão), ou ser identificado apenas para o nível de Família (alta exatidão, mas baixa precisão).

Qualidade dos dados

A qualidade dos dados é multidimensional, e envolve gestão de dados, modelação e análise, controlo de qualidade e garantia, armazenamento e apresentação. Como dito de forma independente por Chrisman (1991) e Strong et al. (1997), a qualidade dos dados está relacionada à utilização e não pode ser avaliada independentemente do utilizador. Numa base de dados, os dados não têm real qualidade ou valor (Dalcin 2004); só têm valor potencial que é reconhecido apenas quando alguém usa os dados para fazer algo útil. A qualidade da informação está relacionada com a sua capacidade de satisfazer os seus clientes e de atender as necessidades dos clientes (English 1999).

Redman (2001) sugeriu que para que os dados estejam em condições de serem utilizados, devem ser acessíveis, exactos, oportunos, completos, consistente com outras fontes, relevantes, abrangentes, fornecerem um adequado nível de detalhe, serem fáceis de ler e fáceis de interpretar.

Uma questão que um detentor de dados pode precisar considerar é o que pode precisar ser feito com a base de dados, para aumentar a sua utilização para um público mais amplo (i.e. aumentar seu potencial uso ou relevância) e torná-la assim adequada para um leque mais amplo de propósitos. Haverá uma troca entre o aumento da usabilidade e o volume de esforço necessário para adicionar funcionalidade e usabilidade extra. Isso pode exigir coisas como atomizar campos de dados, adicionar informações de georeferenciamento, etc.

Garantia de Qualidade/ Controle de Qualidade

A diferença entre controlo de qualidade e garantia de qualidade nem sempre é clara. Taulbee (1996) faz a distinção entre controlo de Qualidade e Garantia de Qualidade e sublinha que uma não pode existir sem a outra, se quisermos que os objectivos de qualidade sejam cumpridos. Ela define o controlo de qualidade como um juízo de qualidade com base em normas internas, processos e procedimentos estabelecidos para controlar e monitorizar a qualidade; e a garantia da qualidade como uma avaliação da qualidade com base em normas externas ao processo e é a revisão das actividades e dos processos de controlo de qualidade para garantir que os produtos finais cumprem padrões de qualidade pré-determinados.

Numa abordagem mais orientada para as empresas, Redman (2001) define a Garantia de Qualidade como “as atividades que são concebidas para produção de produtos de informação isentos de defeito para atender às necessidades mais importantes dos clientes, pelo menor custo possível”.

Como estes termos devem ser aplicados na prática não é claro, e na maioria dos casos, os termos parecem ser em grande medida utilizados como sinónimo para descrever a prática global da gestão da qualidade dos dados.

Incerteza

A incerteza pode ser considerada como uma "medida da ineficácia do conhecimento ou informação sobre uma quantidade desconhecida cujo verdadeiro valor poderia ser estabelecido se um dispositivo de medição perfeito estivesse disponível" (Cullen e Frey 1999). A incerteza é uma propriedade da compreensão dos dados por parte do observador e tem mais a ver com o observador do que com os dados em si. Há sempre incerteza nos dados; a dificuldade é registar, compreender e visualizar essa incerteza para que os outros também a possam entender. A incerteza é um termo fundamental na compreensão dos riscos e na avaliação de riscos.

Erro

Erro engloba tanto a imprecisão dos dados quanto sua inexatidão. Há muitos fatores que contribuem para o erro. O erro é geralmente visto como aleatório ou sistemático. Um erro aleatório tende a se referir ao desvio do verdadeiro estado de forma aleatória. O erro sistemático ou enviezamento advém de uma mudança uniforme nos valores e, por vezes, é descrito como tendo uma "exatidão relativa" no mundo cartográfico (Chrisman 1991). Ao determinar "aptidão para o uso", o erro sistemático pode ser aceitável para algumas aplicações, e inaptas para outras.

Um exemplo pode ser a utilização de um datum1 geodésico diferente – onde, se utilizado ao longo da análise, não pode causar quaisquer maiores problemas. Os problemas surgirão no entanto onde uma análise utiliza dados de diferentes fontes e com diferentes tendências – por exemplo, fontes de dados que usam diferentes datum geodésico, ou onde as identificações podem ter sido realizadas usando uma versão anterior de um código nomenclatural.

"Porque o erro é inevitável, ele deve ser reconhecido como uma dimensão fundamental dos dados" (Chrisman 1991). Somente quando um erro é incluído em uma representação dos dados é possível responder a perguntas sobre limitações dos dados, e até mesmo limitações do conhecimento atual. Os erros conhecidos nas três dimensões do espaço, atributo e tempo têm de ser medidos, calculados, registados e documentados.

Validação e Limpeza

Validação é um processo usado para determinar se os dados são incompletos, não razoáveis ou não acurados. O processo pode incluir verificações de formato, verificações de integridade, verificações de razoabilidade, verificações de limite, revisão dos dados para identificar "outliers" (geográficos, estatísticos, temporais ou ambientais) ou outros erros e avaliação de dados por especialistas em áreas temáticas (e.g. especialistas taxonómicos). Estes processos resultam geralmente em sinalizadores, documentação e subsequente verificação de registos suspeitos. As validações podem também envolver o controlo da conformidade com padrões, regras e convenções aplicáveis. Uma etapa chave na validação e limpeza de dados é identificar as causas dos erros detectados e concentrar-se em impedir que esses erros ocorram novamente (Redman 2001).

Limpeza de dados refere-se ao processo de “reparação” de erros nos dados que foram identificados durante o processo de validação. O termo é sinónimo de "limpeza de dados", embora alguns usem a limpeza de dados para englobar a validação de dados e a limpeza de dados. No processo de limpeza de dados, é importante que os dados não se percam inadvertidamente e que as alterações à informação existente sejam efectuadas com muito cuidado. Muitas vezes é melhor manter ambos os antigos (dados originais) e os novos (dados corrigidos) lado a lado na base de dados, para que, caso sejam cometidos erros no processo de limpeza, as informações originais possam ser recuperadas.