8. Управление данными
В этом модуле вы рассмотрите основные концепции, связанные с этим инструменты и лучшие примеры существующих методов управления данными, в частности, очистки данных и их стандартизации. |
8.1. Принципы управления данными
В этом видео (09:49) вы узнаете о различных инструментах, которые вы можете использовать для улучшения качества ваших данных. Если вы не можете смотреть встроенное видео, вы можете воспользоваться ссылкой для его просмотра удаленно download. (MP4 - 16.6 MB) |
8.2. Инструменты управления данными
В этом видео (06:42) вы узнаете о различных инструментах, которые вы можете использовать для улучшения качества ваших данных. Если вы не можете смотреть встроенное видео, вы можете воспользоваться ссылкой для его просмотра удаленно download. (MP4 - 10.3 MB) |
8.3. OpenRefine
В этом видео (03:27) вы узнаете о OpenRefine. Вы можете использовать OpenRefine для стандартизации и улучшения качества ваших данных. Если вы не можете смотреть встроенное видео, вы можете воспользоваться ссылкой для его просмотра удаленно download. (MP4 - 3.8 MB) |
8.5. Список упражнений
8.5.1. Проверка валидации
Technical errors (Технические ошибки) Относительно простой, часто поддающийся автоматизации, проверяет целостность данных. Они могут указывать на некорректный экспорт, отображение данных, смещение поля (например, перемещение 1 колонки справа) или отсутствие данных в источнике.
-
Completeness (Укомплектованность): Доступны ли все данные и метаданные – присутствуют ли все поля, заполнены ли все поля?
-
Bounds (Пределы): Например, дни указаны в диапазоне 1-31 (в зависимости от месяца)
-
Data type (Тип данных): Например, поле "Дата" содержит дату или цифру?
-
Data format (Формат данных): Например, даты представлены 01/01/2010 или 01/Ян/10?
Consistency errors (Ошибки соответствия)
Применение правил реального мира к данным. Они могут указывать на некорректный ввод данных из старых записей, ошибок транскрипции или последующей обработки. Некоторые из них сложны для реализации и требуют справочных наборов данных для повторной проверки. Например, список известных коллекторов и способов сбора коллекций. Эти правила могут быть собраны у пользователей и аналитиков.
-
Taxonomic (Таксономия): Например, в случае идентификации видового уровня, имеются ли бинарное научное название и записи в полях родов и видов?
-
Currency (Обмен): Согласованы ли даты сбора, идентификации, обновления и оцифровки?
-
Outliers (Отклонения): Находите отклонения, но помните, что не все отклонения обязательно являются ошибками. Например, сравните с известным спектром видов или известным экологическим диапазоном (но помните, что отклонения могут быть неправильной идентификацией, а не неправильными координатами).
-
Geographic (География): Координаты в пределах идентифицированного населенного пункта или региона? Например, имеются ли какие-либо наземные наблюдения на море или морские наблюдения на суше?
-
Collecting patterns (Модели коллектирования): Соответствует ли подробная информация о наблюдении известным моделям коллектирования организации или сборщика? Возможно ли создание каких-либо записей после смерти сборщика (возможно, это другой сборщик с похожим именем)? Например, приписываются ли какие-либо записи о млекопитающих группе, наблюдающей за птицами?
-
Accuracy and precision (Аккуратность и точность): Например, являются ли какие-либо географически привязанные записи, указывающие на очень высокую точность или аккуратность сбора данных в период до появления GPS (или до точности GPS)?
-
Collecting methods (Методы сбора): Различные методы обследования (например, трансекты и обследования целых районов) имеют особые характеристики. Согласуются ли записи с предоставленным методом?
8.5.2. Полезные инструменты
-
GBIF Name Parser: https://www.gbif.org/tools/name-parser
-
Global Names Resolver: http://resolver.globalnames.org
-
Catalogue of Life name match: https://data.catalogueoflife.org/tools/name-match
-
Georeferencing Calculator: http://georeferencing.org/georefcalculator/gc.html
-
Canadensys coordinate conversion: http://data.canadensys.net/tools/координаты
-
Canadensys date parsing: http://data.canadensys.net/tools/dates
-
Карты Google: https://maps.google.com/