Курс Data Communication: Пишем о данных

Course Content

Total learning: 16 lessons Time: 10 weeks

Организация датасета

Короткое описание урока: Из этого урока вы узнаете о том, как организовать таблицу для дальнейшей работы.

Есть несколько ключевых правил при работе с данными:

  • не работать в оригинале, а только в копии
  • записывать метаданные, содержащие информацию о вашем датасете, на отдельном листе

В Excel можно создать копию ваших данных следующим образом.

  1. Наведя курсор на «Лист 1» и щелкнув правым щелчком мыши, выберите из меню «Переместить или скопировать», а затем «переместить в конец», «создать копию» и далее «Ок». Так вы создадите копию исходной таблицы на другом листе.
  2. Двойной щелчок мыши по названию листа позволяет переименовывать его. Назовите исходник «Оригинал», а копию – «Копия».
  3. Щелкнув на знак «+» в строке листов, создайте новый лист и назовите его «Мета». Переместите его в начало таблицы.
Что содержит лист с метаданными?

Основную информацию о том, какие данные содержатся у вас в таблице. Помните, что мы взяли эту таблицу из большого отчета, а работаем с ней как с отдельным файлом, при этом мы можем комбинировать этот файл с другими, посылать коллегам и выкладывать для пользования аудитории.

Более того, эта информация будет особенно полезна вам самим, когда вы вернетесь к этой таблице через некоторое время. Для этого ваш лист с метаданными должен полностью отвечать на вопросы о происхождении данных и степени доверия к ним.

Ваша программа-минимум – это следующие четыре пункта:

  • О чем ваш набор данных. Это может быть заголовок таблицы. Но лучше, если он будет включать в себя временной и территориальный показатели. В нашем случае это «Заболеваемость населения инфекционными и паразитарными болезнями, 2012-2016, КР».
  • Публикация или база данных, которая содержит этот набор данных и ссылка на эту публикацию. Запишем «Уровень жизни населения Кыргызской Республики 2012-2016, Бишкек, 2017» и дадим ссылку.
  • Контакты людей, ответственных за публикацию этих данных. Эти контакты можно найти на том же сайте Национального Статистического Комитета, в разделе «Контакты». Скопируйте контактную информацию оттуда и добавьте на лист с метаданными.
  • Дата скачивания вами этой таблицы. Это важно, чтобы задокументировать дату сохранения информации. Данные могут обновляться, изменяться или вовсе исчезать с сайтов. Данные, которые вы получили по запросу об информации, могут устареть или быть опровергнуты впоследствии. Ставя дату, вы обезопасите себя от недоразумений в будущем.

Должно получиться примерно так:

В этот же лист вы можете помещать любые примечания, аббревиатуры, определения, а также ваши личные заметки, которые вы будете делать в ходе дальнейшей очистки и анализа данных.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *