Exercício 3a-c
Para esses exercícios, irá executar verificações de validação técnicas e consistentes, melhorará os dados com diferentes ferramentas e aprenderá como usar OpenRefine. |
Leia USE CASE I (se ainda não tiver lido).
A sua instituição faz parte da “Associação Global de Poales (GPA)”. Esta associação garantiu financiamento para a publicação de uma flora atualizada para o grupo e solicitou ao seu herbário que participasse e fornecesse todos os registos de alta qualidade que possa ter para esta ordem de plantas. A ordem está bem representada na sua coleção, pelo que poderá contribuir substancialmente para este esforço.
Exercício 3a
Verificações de validação
Neste exercício, vamo-nos concentrar em erros técnicos e realizar uma verificação de validação básica para identificar erros técnicos. Consulte Verificações da validação para obter informações sobre os tipos de erros.
-
Link de download UC1-3ab-data-cleaning.csv. (207.5 KB)
-
Importe o arquivo CSV para o Excel usando o assistente do Excel. Consulte o Excel-tips-EN.pdf (PDF, 7 MB) para obter instruções de importação para o seu sistema operativo (Windows, Mac, Linux).
-
Localizar e corrigir os erros manualmente.
-
Use a folha de exercício descarregada anteriormente para fornecer as suas respostas.
Exercício 3b
Outras ferramentas de gestão de dados
A associação GPA forneceu-lhe uma lista de elementos de qualidade de dados para verificar:
-
Todos os nomes das plantas (nome completo) estão escritos corretamente
-
Todos os nomes das plantas pertencem à ordem
-
Todos os registos têm coordenadas
-
Todas as coordenadas estão dentro do país declarado e convertidas em formato decimal
-
Todas as datas estão na coluna correta e no formato YYYY-MM-DD
As três categorias de erros são:
-
Erros nomenclaturais
-
Erros de formatação
-
Erros geográficos / outliers
-
Consulte Ferramentas úteis para completar o exercício. Não está limitado a essas ferramentas, pode usar qualquer ferramenta que quiser.
-
Use o mesmo arquivo do exercício anterior.
-
Faça a correção APENAS para a família Eriocaulaceae (possivelmente, quererá filtrar os dados)
-
Corrija os erros encontrados no conjunto de dados usado no exercício 3a (exercício anterior), usando as ferramentas à sua escolha e documente as alterações que realizar na folha de exercícios.
-
Corrija todo o arquivo se tiver tempo.
-
Use a folha de exercício descarregada anteriormente para fornecer as suas respostas.
-
Exercício 3c
Neste vídeo (03:27), você aprenderá sobre OpenRefine. Você pode usar o OpenRefine para padronizar e melhorar a qualidade de seus dados. Se você não conseguir assistir ao vídeo incorporado, você pode descarregar localmente. (MP4 - 3.8 MB) |
OpenRefine
Neste exercício, utilizamos o OpenRefine para melhorar a qualidade de um conjunto de dados usando os recursos padrão, serviços web existentes e expressões regulares.
-
Link de download UC1-3c-open-refine.csv. (207.5 KB)
-
Descarregue e complete os exercícios pelo OpenRefine-Exercise3c-EN.pdf. (PDF, 1.1 MB) Também disponível no Francês e Espanhol.
-
Use a folha de exercício descarregada anteriormente para fornecer as suas respostas.