8. Управление данными

В этом модуле вы рассмотрите основные концепции, связанные с этим инструменты и лучшие примеры существующих методов управления данными, в частности, очистки данных и их стандартизации.

8.1. Принципы управления данными

В этом видео (09:49) вы узнаете о различных инструментах, которые вы можете использовать для улучшения качества ваших данных. Если вы не можете смотреть встроенное видео, вы можете воспользоваться ссылкой для его просмотра удаленно download. (MP4 - 16.6 MB)

8.2. Инструменты управления данными

В этом видео (06:42) вы узнаете о различных инструментах, которые вы можете использовать для улучшения качества ваших данных. Если вы не можете смотреть встроенное видео, вы можете воспользоваться ссылкой для его просмотра удаленно download. (MP4 - 10.3 MB)

8.3. OpenRefine

В этом видео (03:27) вы узнаете о OpenRefine. Вы можете использовать OpenRefine для стандартизации и улучшения качества ваших данных. Если вы не можете смотреть встроенное видео, вы можете воспользоваться ссылкой для его просмотра удаленно download. (MP4 - 3.8 MB)

8.4. Путь данных, этап 7

Завершите этап 7, задания 13-15.

8.5. Список упражнений

8.5.1. Проверка валидации

Technical errors (Технические ошибки) Относительно простой, часто поддающийся автоматизации, проверяет целостность данных. Они могут указывать на некорректный экспорт, отображение данных, смещение поля (например, перемещение 1 колонки справа) или отсутствие данных в источнике.

  • Completeness (Укомплектованность): Доступны ли все данные и метаданные – присутствуют ли все поля, заполнены ли все поля?

  • Bounds (Пределы): Например, дни указаны в диапазоне 1-31 (в зависимости от месяца)

  • Data type (Тип данных): Например, поле "Дата" содержит дату или цифру?

  • Data format (Формат данных): Например, даты представлены 01/01/2010 или 01/Ян/10?

Consistency errors (Ошибки соответствия)

Применение правил реального мира к данным. Они могут указывать на некорректный ввод данных из старых записей, ошибок транскрипции или последующей обработки. Некоторые из них сложны для реализации и требуют справочных наборов данных для повторной проверки. Например, список известных коллекторов и способов сбора коллекций. Эти правила могут быть собраны у пользователей и аналитиков.

  • Taxonomic (Таксономия): Например, в случае идентификации видового уровня, имеются ли бинарное научное название и записи в полях родов и видов?

  • Currency (Обмен): Согласованы ли даты сбора, идентификации, обновления и оцифровки?

  • Outliers (Отклонения): Находите отклонения, но помните, что не все отклонения обязательно являются ошибками. Например, сравните с известным спектром видов или известным экологическим диапазоном (но помните, что отклонения могут быть неправильной идентификацией, а не неправильными координатами).

  • Geographic (География): Координаты в пределах идентифицированного населенного пункта или региона? Например, имеются ли какие-либо наземные наблюдения на море или морские наблюдения на суше?

  • Collecting patterns (Модели коллектирования): Соответствует ли подробная информация о наблюдении известным моделям коллектирования организации или сборщика? Возможно ли создание каких-либо записей после смерти сборщика (возможно, это другой сборщик с похожим именем)? Например, приписываются ли какие-либо записи о млекопитающих группе, наблюдающей за птицами?

  • Accuracy and precision (Аккуратность и точность): Например, являются ли какие-либо географически привязанные записи, указывающие на очень высокую точность или аккуратность сбора данных в период до появления GPS (или до точности GPS)?

  • Collecting methods (Методы сбора): Различные методы обследования (например, трансекты и обследования целых районов) имеют особые характеристики. Согласуются ли записи с предоставленным методом?