Курс Data Communication: Пишем о данных

Course Content

Total learning: 16 lessons Time: 10 weeks

Чистка данных

Короткое описание урока: Из этого урока вы узнаете о том, как подготовить данные к анализу.

При чистке данных необходимо получить в результате таблицу, в которой есть только один ряд заголовков, а данные в столбцах под ними соответствуют заголовкам по формату и содержанию. Это позволит вам анализировать и визуализировать данные.

Почистим нашу таблицу о заболеваемости в Кыргызстане.

Напоминаем: работайте в копии ваших данных!

Правило 1. Только один ряд заголовков.

В нашем случае, ряд заголовков – это первая строка с обозначением лет. Обратите внимание, что заголовок в первом столбце отсутствует. Допишите его в ячейке А1.

Правило 2. В одном столбце только один тип данных.

Если ваш столбец назван «Заболевания», то в нем могут быть только названия заболеваний.

Если у вас в столбце два типа данных, например, заболевание и область, вам надо создать еще один столбец, озаглавить его «Область» и перенести все данные об областях туда.

Обратите внимание на строки 6 и 7 в таблице: «гастроэнтериты, колиты, вызванные установленными возбудителями». Строка 7 не имеет данных, потому что название заболевания разделилось на две строки. Чтобы исправить это, в строке 7 запишите полное название заболевания, а строку 6 удалите. Для этого наведите курсор на номер строки, нажмите правой кнопкой мыши и выберите «удалить».

Должно получиться вот так:

Также обратите внимание на строку 18, «ВИЧ – инфекция 1». Действительно ли это название заболевания? В случаях сомнения всегда возвращайтесь к оригиналу, то есть к данным в отчете. Вы увидите, что 1 – это сноска, которая говорит о том, что данные по ВИЧ представлены по числу граждан Кыргызстана.

В таком случае, мы должны добавить эту информацию в лист с метаданными, а цифру «1» удалить.

Правило 3. В одном столбце только данные одного формата

Что это означает? Данные могут быть представлены в текстовом или числовом формате. Числовой формат имеет несколько подвидов: простое число, процент, календарная дата.

В каком формате должны быть данные в столбце «заболевания»? А в столбцах по годам?

Это не просто формальность. Если данные не записаны как числа, то Эксель не сможет проводить с ними различные математические операции. А вы, таким образом, не сможете узнать, растет или падает число заболеваний и в каком году было больше всего случаев.

Как определить, в каком формате записаны данные? Как правило, Эксель форматирует текст по левому краю, а числа по правому. Проверьте, так ли это у вас в таблице.

Правило 4. Обратите внимание на поля, в которых проставлен дефис.

В нашем случае, дефисом обозначены отсутствующие данные. Всегда будьте очень внимательны с такими полями: означают ли они, что значение в них равно нулю, или же по этому показателю не удалось собрать данные?

Если первое, то мы вправе заменить «-» на 0, а если второе, то мы не сможем работать с данными этому заболеванию, либо же нам придется найти отсутствующую информацию из другого источника и добавить в таблицу.

В нашем случае «-» действительно означает 0, поэтому мы выполним простую операцию, которая автоматически заменит все дефисы на 0. Для этого, выделите все ячейки с данными, и найдите команду «Найти и заменить».



В вашей версии операционной системы это может быть в другой строке меню.

Теперь, в поле «Найти» напишите «-», а в поле «Заменить» не пишите ничего.
Нажмите «Заменить все».

Готово! Мы сделали 7 замен.

У нас получилась таблица, в которой 6 столбцов, 22 строки. Она готова к анализу. Поздравляем!

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *