Exercício 3a-c

Para esses exercícios, irá executar verificações de validação técnicas e consistentes, melhorará os dados com diferentes ferramentas e aprenderá como usar OpenRefine.

Leia USE CASE I (se ainda não tiver lido).

A sua instituição faz parte da “Associação Global de Poales (GPA)”. Esta associação garantiu financiamento para a publicação de uma flora atualizada para o grupo e solicitou ao seu herbário que participasse e fornecesse todos os registos de alta qualidade que possa ter para esta ordem de plantas. A ordem está bem representada na sua coleção, pelo que poderá contribuir substancialmente para este esforço.

Exercício 3a

Verificações de validação

Neste exercício, vamo-nos concentrar em erros técnicos e realizar uma verificação de validação básica para identificar erros técnicos. Consulte Verificações da validação para obter informações sobre os tipos de erros.

  1. Link de download UC1-3ab-data-cleaning.csv. (207.5 KB)

  2. Importe o arquivo CSV para o Excel usando o assistente do Excel. Consulte o Excel-tips-EN.pdf (PDF, 7 MB) para obter instruções de importação para o seu sistema operativo (Windows, Mac, Linux).

  3. Localizar e corrigir os erros manualmente.

  4. Use a folha de exercício descarregada anteriormente para fornecer as suas respostas.

Exercício 3b

Outras ferramentas de gestão de dados

A associação GPA forneceu-lhe uma lista de elementos de qualidade de dados para verificar:

  • Todos os nomes das plantas (nome completo) estão escritos corretamente

  • Todos os nomes das plantas pertencem à ordem

  • Todos os registos têm coordenadas

  • Todas as coordenadas estão dentro do país declarado e convertidas em formato decimal

  • Todas as datas estão na coluna correta e no formato YYYY-MM-DD

As três categorias de erros são:

  • Erros nomenclaturais

  • Erros de formatação

  • Erros geográficos / outliers

    1. Consulte Ferramentas úteis para completar o exercício. Não está limitado a essas ferramentas, pode usar qualquer ferramenta que quiser.

    2. Use o mesmo arquivo do exercício anterior.

    3. Faça a correção APENAS para a família Eriocaulaceae (possivelmente, quererá filtrar os dados)

    4. Corrija os erros encontrados no conjunto de dados usado no exercício 3a (exercício anterior), usando as ferramentas à sua escolha e documente as alterações que realizar na folha de exercícios.

    5. Corrija todo o arquivo se tiver tempo.

    6. Use a folha de exercício descarregada anteriormente para fornecer as suas respostas.

Exercício 3c

Neste vídeo (03:27), você aprenderá sobre OpenRefine. Você pode usar o OpenRefine para padronizar e melhorar a qualidade de seus dados. Se você não conseguir assistir ao vídeo incorporado, você pode descarregar localmente. (MP4 - 3.8 MB)

OpenRefine

Neste exercício, utilizamos o OpenRefine para melhorar a qualidade de um conjunto de dados usando os recursos padrão, serviços web existentes e expressões regulares.

  1. Link de download UC1-3c-open-refine.csv. (207.5 KB)

  2. Descarregue e complete os exercícios pelo OpenRefine-Exercise3c-EN.pdf. (PDF, 1.1 MB) Também disponível no Francês e Espanhol.

  3. Use a folha de exercício descarregada anteriormente para fornecer as suas respostas.