Statistical Data Visualization on the Power BI Platform
Цифрова платформа: інформаційні технології в соціокультурній сфері
2021, Том 4 № 1
УДК 004.77:311.2
DOI: 10.31866/2617-796X.4.1.2021.236947
Булига Костянтин,
кандидат технічних наук, доцент кафедри комп’ютерних наук,
Київський національний університет культури і мистецтв,
Київ, Україна
https://orcid.org/0000-0002-9537-3226
Толмач Марина,
викладач, заступник декана факультету дистанційного навчання,
Київський національний університет культури і мистецтв,
Київ, Україна
https://orcid.org/0000-0002-7020-1348
ВІЗУАЛІЗАЦІЯ СТАТИСТИЧНИХ ДАНИХ
НА ПЛАТФОРМІ POWER BI
Метою статті є використання новітніх інформаційних технологій для наочного відображення впливу різноманітних чинників на поширення пандемії COVID-19. Докладно
розглянуто створення дашборду (PoltP, 2017) для візуалізації статистичних даних епідемії
COVID-19 навесні 2021 року.
Метод дослідження – системний аналіз статистичних даних.
Новизною проведеного дослідження є об’єднання різнобічної статистичної інформації для попереднього якісного аналізу складної епідеміологічної ситуації.
Висновки. Викладений у статті матеріал дає наочний приклад використання різноманітних даних для візуалізації епідеміологічного стану. Показано можливість завантаження статистичних даних будь-якого формату в спільне джерело для аналізу впливу на
загальний рівень поширення захворювання.
Ключові слова: пандемія COVID-19; MS Power BI; Power Query; Power Pivot; MS Excel;
візуалізація; дашборд; якісний аналіз.
Вступ. Захворювання на COVID-19, яке на початку 2020 року сприймали як рідкісну екзотичну хворобу, перетворилося на пандемію. Характерною особливістю
її розвитку є непередбачуваність подальшого перебігу (https://www.dw.com/uk/
use-pro-koronavirus/a-529937882-7). Для оцінки перспективи росту кількості випадків захворювання використовують різноманітні методи статистичного аналізу.
Наприклад, у роботі «Прогноз розвитку епідемії COVID-19 в Україні на 23 листопада – 7 грудня 2020 року (“Прогноз РГ-29”)» було використано найсучаснішу модель Facebook Prophet, яка демонструє високу ефективність для моделювання
часових рядів, що містять аномальні дати, різні види сезонності та лінійну чи нелінійну динаміку впливу різних складових моделі, але аналіз наведених резуль© Булига К. Б.
© Толмач М. С.
56
Цифрова платформа: інформаційні технології в соціокультурній сфері
2021, Том 4 № 1
татів прогнозування показав, що жоден статистичний прогноз не дає хоча б приблизного кількісного результату (К. Булига та О. Булига, 2020).
У такій ситуації доцільно на початковому етапі аналізу використовувати візуалізацію будь-якої інформації, дотичної до загальної статистики. Це дає змогу якимось чином знайти складні причинно-наслідкові зв’язки.
Результати дослідження. У роботі створено дашборд для дослідження впливу різноманітних статистичних чинників, які безпосередньо або опосередковано
стосуються пандемії COVID-19, на основі інформації з порталів відкритих даних.
Об’єднання даних з різних інформаційних джерел і створення візуалізації виконано на платформі Microsoft Power BI (https://powerbi.microsoft.com/ru-ru/).
Для створення використано:
CSV-файл з порталу відкритих даних (https://epistat.wiv-isp.be/covid/), який
містить статистичні дані про кількість випадків захворювання на COVID-19 за регіонами, віковими групами та статтю у Бельгії за період з 16.03.2020 по 16.04.2021,
статистичні дані сайту (https://aqicn.org/map/belgium/ru/) з якості повітря в Бельгії.
Примітка: Бельгію обрали тому, що саме по цій країні на порталі відкритих
даних було знайдено найбільше статистичної інформації, яку можна використати
для ілюстрації етапів підготовки даних для візуалізації.
Загальна технологія візуалізації складається з таких етапів:
1. У середовищі MS Excel за допомогою надбудов MS Power Query та MS
Power Pivot створюється допоміжний запит, який стане джерелом для створення
візуалізації в MS Power BI DeskTop. Для цього із сайту (https://epistat.wiv-isp.be/
covid/) скопійовано посилання на CSV-файл і за допомогою команд Дані => Створити запит => З інших джерел => З інтернету створено запит Випадки (рис. 1).
Рис. 1. Допоміжний запит «Випадки»
2. За допомогою імпорту таблиці MS Excel із сайту (https://aqicn.org/map/
belgium/ru) і подальшого перетворення її на «розумну» створюється допоміжний
запит Чистота повітря (рис. 2).
57
Цифрова платформа: інформаційні технології в соціокультурній сфері
2021, Том 4 № 1
Рис. 2. Допоміжний запит «Чистота повітря»
3. Тепер маємо два запити: Випадки і Чистота повітря. На основі запиту
Випадки створюємо такі запити, як Випадки_Групування_Дати, Випадки_Групування_Вік, Випадки_Групування_Стать, Випадки_Групування_Регіон, з метою
групування даних таблиці Випадки за означеними параметрами. Для цього виконуємо команду Перетворення => Групувати дані (рис. 3, 4).
4. Далі об’єднуємо дані з двох запитів: Випадки_Групування_Дати і Чистота
повітря. В результаті зявляється запит Злиття_Дати_Чистота. Виконується команда Дані => Створити запит => Об’єднати => Об’єднання (рис. 5).
Рис. 3. Групування в запитах
58
Цифрова платформа: інформаційні технології в соціокультурній сфері
2021, Том 4 № 1
Рис. 4. Запити, що створені групуванням
Рис. 5. Злиття запитів
59
Цифрова платформа: інформаційні технології в соціокультурній сфері
2021, Том 4 № 1
Обов’язково потрібно простежити, щоб усі запити були додані до моделі
даних (рис. 6).
Рис. 6. Усі запити були додані до моделі даних
5. Якщо це так, то наступним кроком буде створення схеми даних у середовищі MS Power Pivot. Виконується така команда: Вкладка Power Pivot => Управління => Подання діаграми.
6. На основі цих запитів створюється схема даних (рис. 7).
Рис. 7. Схема даних
7. На останньому етапі створюється візуалізація в середовищі MS Power BI
DeskTop. У результаті маємо інтерактивний дашборд, що наведено на рис. 8.
60
Цифрова платформа: інформаційні технології в соціокультурній сфері
2021, Том 4 № 1
Рис. 8. Кінцевий вигляд дашборду
Інтерактивність дашборду можна побачити в онлайн-режимі, якщо перейти
за посиланням (https://app.powerbi.com/view?r) на сайт Power BI. Наприклад,
фрагмент дашборду на рис. 9 показує кореляцію кількості летальних випадків
і чистоти повітря в листопаді 2020 року.
Рис. 9. Фрагмент інтерактивного дашборду
Висновки. Створення дашборду на платформі Power BI дає змогу в інтерактивному режимі візуалізувати вплив різноманітних чинників для якісного аналізу
статистичної ситуації з подальшим виокремленням важливих умов впливу.
61
Цифрова платформа: інформаційні технології в соціокультурній сфері
2021, Том 4 № 1
СПИСОК ПОСИЛАНЬ
Аналіз поточної ситуації та моделювання сценаріїв поширення захворювання COVID-19,
2020. Міністерство охорони здоров’я України. [online] 18 червня 2020. Доступно: <https://
moz.gov.ua/article/news/analiz-potochnoi-situacii-ta-modeljuvannja-scenariiv-poshirennjazahvorjuvannja-covid-19> [Дата звернення 21 квітня 2021].
Булига, К.Б. та Булига, О.А., 2020. Використання інформаційних технологій для аналізу епідеміологічного стану. Цифро (...truncated)