Курс Data Communication: Пишем о данных

Course Content

Total learning: 16 lessons Time: 10 weeks

Базовый анализ данных, часть 2

Короткое описание урока: это продолжение основных приемов анализа данных. В этом уроке мы научимся считать процентный рост.

В предыдущем уроке мы посчитали сумму и среднее значение заболеваний за 5 лет. Что нам еще интересно узнать из этой таблицы?

  • В каком году были вспышки заболеваний?
  • По каким заболеваниям число случаев росло, а по каким – падало за эти пять лет?
  • Какое заболевание больше всего выросло в количестве?

Вспышки заболеваний – это отклонения от нормы. Чтобы увидеть их, нам нужно сначала рассчитать «норму», то есть показатель, который не удивляет. Мы уже частично сделали это в предыдущем уроке: среднее значение за 5 лет – это и есть своеобразная норма, и если ваш показатель больше ее, то этим заболеванием болеют больше, чем обычно.

Как увидеть, что показатель за 2016 год больше среднего? Можно просто посчитать разницу:

Для острых инфекций верхних дыхательных путей это 261 366 – 185 335, то есть на 76 тысяч больше. Но подсчет разницы не даст нам возможности сравнивать заболевания между собой. Например, показатели гриппа выросли всего на 613 случаев в абсолютном значении, но это 1711 случай в 2016 по сравнению с 1098 в среднем за каждый год. Чувствуете разницу?

Как можно эту разницу выразить численно?

Для этого можно посчитать, во сколько раз показатели за 2016 год больше или меньше среднего. Тогда мы сможем сравнивать результаты по разным заболеваниям между собой.

Для этого нам нужно поделить показатель за 2016 год на среднее значение. Запишите следующую формулу в ячейке I2:=F2/H2

Озаглавьте столбец как «2016/СРЗНАЧ». Скопируйте формулу вниз по столбцу, наложите фильтр, отсортируйте значения от максимального к минимальному и посмотрите, какие заболевания в 2016 больше всего отличались от нормы.

Разделив значения за 2016 год на норму, мы теперь можем сказать, что в этом году инфекциями легких и горла болели в 1.4 раза чаще обычного. Видите, получается совсем другая история.

Задание: посчитайте по аналогичной формуле показатели за 2015 год, сравнив их со средним значением, и найдите историю. О чем она?

Теперь давайте посчитаем, по каким заболеваниям число случаев росло, а по каким – падало за эти пять лет?

Для этого разберем формулы темпа роста и темпа прироста. Темп роста – это отношение текущей величины к базовой. Он выражается в процентах и не может быть меньше нуля. Например, темп роста в 100% означает, что показатель не изменился.

Запишем в ячейке J2 формулу темпа роста для малярии. За базовый год возьмем 2012. Формула будет выглядеть как:

=F2/B2

Озаглавьте столбец как «темп роста» и скопируйте формулу вниз по столбцу. Переведите показатели в процентный формат, кликнув на значок «%» на главной вкладке меню.

Отсортируйте данные от максимального к минимальному. Что получилось? Корь выпала из анализа, потому что в 2012 году было зарегистрировано 0 случаев кори. Педикулез и коклюш – заболевания, показатели по которым выросли более чем в 3 раза, то есть на 316 и 310 процентов соответственно.

Посмотрите на конец списка. Темп роста для сальмонеллезных инфекций – 30%. Увеличилось или уменьшилось значение по этому заболеванию за 5 лет?

Получается, значения меньше 100% сигнализируют о том, что показатель не вырос, а уменьшился. Для того, чтобы сразу подсчитать, на сколько уменьшился показатель, используется формула темпа прироста. Фактически это разница между тем, что стало и тем, что было. Высчитывается формула как “Темп Роста – 1”. Темп прироста тоже выражается в %, но далеко не всегда больше 0. Темп прироста в 100% означает, что показатель вырос в 2 раза.

Запишем формулу в ячейке K3 для педикулеза:

=F3/B3-1

Скопируем формулу вниз по столбцу, переведем в формат %, озаглавим столбец и отсортируем данные на этот раз от минимального к максимальному. Обратите внимание на болезни, темп прироста по которым меньше 0. Это означает, что там становилось меньше случаев заболевания. Вот еще одна история для вашего материала.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *