Курс Data Communication: Пишем о данных

Course Content

Total learning: 16 lessons Time: 10 weeks

Форматы данных

Короткое описание урока: На этом уроке вы узнаете о форматах данных для работы на компьютере.

Как появляются данные? Данные собираются в процессе учета и регистрации (например, данные о рождаемости), путем анкетирования (например, данные переписи населения), в процессе голосования (например, данные результатов выборов), в процессе купли-продажи (например, данные о продажах в интернет-магазине). Данные также образуются в результате работы мобильных устройств, датчиков, интернета, спутников (например, данные GPS) и многих других технологий.


Данные для людей
Смысл простого предложения «У нас есть 5 банок меда весом в 750 граммов по 200 сомов за каждую банку» легко понятен человеку, но не компьютеру. Предложение выше – это то, что мы называем неструктурированными (unstructured) данными. Такие данные не имеет фиксированной базовой структуры – предложение легко может быть изменено, и неясно, какое слово относится к какому значению. Аналогично, PDF-файлы и отсканированные изображения могут содержать информацию, которая понятна человеку, поскольку она хорошо написана, но не компьютеру, так как она не в машиночитаемом формате.


Данные для компьютеров
Компьютеры по своей сути отличаются от людей. Сложно заставить компьютеры извлекать информацию из определенных источников. Некоторые задачи, с которыми люди легко справляются, трудно автоматизировать с помощью компьютеров. Например, интерпретация текста, представленного как изображение, по-прежнему является проблемой для компьютера. Если вы хотите, чтобы ваш компьютер обрабатывал и анализировал ваши данные, он должен иметь возможность их читать и обрабатывать. Такая информация должна быть в структурированном и машиночитаемом формате.

Форматы данных: машиночитаемые, машинно-генерируемые, структурированные

В этих форматах программное обеспечение может распознать структуру данных – чаще всего это таблица из столбцов и строк, которые организуют и описывают отдельные элементы данных. Самые популярные табличные форматы – Excel и CSV. CSV – это буквально “значения, разделенные запятыми” (comma-separated values).

Форматы CSV (значения, разделенные запятыми) и TSV (значения, разделенные знаком табуляции) – это форматы, которые используются для «кодировки» табличных данных. Проще говоря, файлы CSV и TSV – это текстовые файлы, в которых каждая линия – это строка данных, а колонки в ней разделены запятой (в CSV) или знаком табуляции (в TSV).

Так выглядят данные в формате CSV, открытые в текстовом редакторе
Так выглядят те же данные, открытые в табличном редакторе

Стоит отметить, что есть еще много форматов, которые структурированы и машиночитаемы.

Подобные форматы, как правило, лучше всего подходят для анализа данных, и вы можете работать с ними в любой табличной программе, например, в Microsoft Office Excel. При поиске данных, если вам удалось найти данные в формате Excel или CSV, это означает, что вам не придется тратить много времени на их форматирование.

Инструменты для работы с табличными данными: Libre Office, Google Таблицы или Microsoft Excel.

Данные в PDF

PDF файлы бывают нескольких различных видов.

Первый вопрос, который стоит задать при работе с PDF – созданы ли эти файлы на компьютере или нет? То есть, был ли файл сохранен в формате PDF, или его распечатали и отсканировали как изображение.

Второй вопрос – структурированы ли данные внутри файла? То есть, представлены ли они в виде таблицы со столбцами и строками.

Наконец, есть ли функция поиска по документу? Как правило, поиск возможен, если документ был создан на компьютере. Функция поиска позволит выделять текст внутри документа, и компьютер будет распознавать буквы и цифры.

Данные PDF в структурированном видe

Файлы PDF часто содержат структурированные таблицы, сгенерированные на компьютере, но формат PDF не подходит для работы с данными. Таблица должны быть преобразована в формат, который можно открыть с помощью табличных процессоров. То есть, требуется извлечь данные из PDF и перевести в подходящий формат с помощью специального программного обеспечения. Вы научитесь извлекать данные из PDF на практических занятиях курса.

Инструменты: Tabula, CometDoc, PDFtoExcel, Zamzar

Данные в отсканированных изображениях

Это, как правило, изображения, которые читаются компьютером как один гигантский блок информации, а не то, что можно разбить на отдельные части. Как правило, такие файлы изначально были сгенерированы на компьютере, а потом распечатаны и отсканированы. Таким образом, файл превратился в гигантское изображение. Для обработки таких файлов требуются программы оптического распознавания.

Примеры: Некоторые PDF и все растровые изображения (GIF, JPEG, PNG, BMP)

Инструменты: Google Docs OCR, Document Cloud

Данные в неструктурированных форматах

Некоторые данные были сгенерированы на компьютере, но не имеют структуры, распознаваемой компьютером. Это могут быть данные, записанные в виде текста, некоторые данные на веб-сайтах. В таком случае программист должен написать небольшой код, чтобы распознать структуру данных и извлечь их в необходимый формат.

Инструменты: языки программирования Python или Ruby для скрейпинга данных с помощью morph.io.

Менее распространенные форматы данных

Некоторые данные, особенно большие базы данных, сохраняются пакетами, которые можно отправить на веб-сайты или обработать с помощью статистического программного обеспечения, например, Stata или языка программирования для работы со статистикой R. Чтобы их можно было открыть в табличной программе, их нужно преобразовать в CSV или Excel формат.

Примеры: JSON (JavaScript Object Notation) или XML (расширяемый язык разметки) для программирования и .SAV или .R. Попробуйте использовать Konklone, чтобы переконвертировать JSON файл в CSV.

Больше информации по форматам данных тут.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *