Визуализаторы в анализе данных Loginom Community

Визуализатор представляет собой инструмент, позволяющий пользователю выбрать удобный вариант отображения данных. Рассмотрим два визуализатора:

  • статистика — статистические показатели полей набора данных;
  • куб — многомерное представление данных.

Остальные визуализаторы будут представлены в рамках Data Mining.

1. Статистика

Визуализатор Статистика предназначен для просмотра различных статистических показателей по каждому полю набора данных и представляет собой таблицу, в которой наименования полей набора данных расположены в строках, а наименования статистических показателей в столбцах. На пересечении, в ячейках таблицы, расположены значения статистических показателей соответствующих полей.

В данном визуализаторе возможны следующие операции:

  • транспонирование таблицы — переворот таблицы, при котором наименования полей отображаются в столбцах, а статистические показатели — в строках;
  • настройка полей — выбор полей набора данных, для которых будут подсчитаны статистические показатели;
  • настройка показателей — выбор статистических показателей;
  • порядковые статистики — подсчитываются порядковые статистики;
  • уникальные значения — подсчитывается количество уникальных значений;
  • гистограмма — операция, открывающая детализированное окно с расширенными настройками гистограммы.

Доступны следующие статистические показатели:

  • гистограмма;
  • диаграмма размаха;
  • минимум;
  • максимум;
  • среднее;
  • стандартное отклонение;
  • несмещенная дисперсия;
  • нижний квартиль;
  • медиана;
  • верхний квартиль;
  • межквартильный размах;
  • медианное абсолютное отклонение;
  • сумма;
  • размах;
  • пропуски;
  • значения;
  • уникальные;
  • минимальная длина строки;
  • максимальная длина строки;
  • средняя длина строки.

Сферы применения

Описательная статистика применяется для систематизации и описания данных наблюдения. Задачи, которые решает описательная статистика, — это прежде всего задачи соединения и обобщения данных. Цель здесь состоит не только в том, чтобы извлечь и представить в самом сжатом виде существенную информацию об изделии или процессе, придав ей форму некоторой системы данных.

Пример применения в Loginom Community

Имеются данные о среднедушевых денежных доходах населения и о тех факторах, которые могут влиять на них (рис. 1).

Требуется рассчитать статистические показатели по данным факторам.

После завершения работы Мастера обработки выводятся данные визуализаторов Таблица и Статистика.

В визуализаторе Таблица выводится таблица с исходными данными (рис. 2).

среднедушевые денежные доходы

Рис. 1

визуализатор Таблица

Рис. 2.

Визуализатор Статистика предназначен для просмотра различных статистических показателей по каждому полю набора данных и представляет собой таблицу, в которой наименования полей набора данных расположены в строках, а наименования статистических показателей в столбцах. На пересечении, в ячейках таблицы, расположены значения статистических показателей соответствующих полей (рис. 3).

Визуализатор Статистика

Рис. 3

По умолчанию в таблице отображаются 8 показателей:

  • гистограмма;
  • диаграмма размаха;
  • минимум;
  • максимум;
  • среднее;
  • стандартное отклонение;
  • пропуски;
  • уникальные.

В случае, если их недостаточно, весь перечень доступен с помощью операции Настройка показателей (рис. 4).

Транспонируем таблицу и выведем все показатели (рис. 5).

С помощью полученных статистических показателей можно провести подробный анализ всех имеющихся факторов.

Настройка показателей

Рис. 4

статистические показатели

Рис. 5

2. OLAP-куб

Куб является одним из распространенных методов комплексного многомерного анализа данных, получивших название OLAP (OnLine Analytical Processing). В его основе лежит представление данных в виде многомерных кубов, называемых также OLAPкубами, или гиперкубами.

Куб — это удобное средство визуализации многомерных данных и получения необходимых форм отчетов. Он содержит измерения и факты, определенные при построении. К основной особенности куба относится то, что его структура не является жестко определенной. Манипулируя с помощью мыши заголовками измерений, пользователь может добиться наиболее информативного представления куба.

Представление данных в виде куба обеспечивает возможность реализации концептуально простых операций для поддержки процесса анализа — срез и фрагментацию, детализацию, свертывание и вращение:

  • срез (slice) — извлечение из куба подмножества ячеек, связанных с каким-либо значением одного из его измерений. Фактически срез можно рассматривать как одномерный куб, который можно представить в виде обычной плоской таблицы. Использование срезов позволяет выполнить декомпозицию задачи анализа сложных многомерных структур на несколько более простых одномерных задач;
  • фрагментация (dice) — извлечение из куба некоторого подкуба, содержащего только те значения измерений, которые нужны для анализа;
  • детализация (Drill Down/Up) — позволяет аналитику изменять уровень представления данных в кубе от более общего к более детальному (down) или наоборот (up);
  • свертывание (RollUp) — агрегирование данных по одному или нескольким измерениям. Производится в том случае, если нужны сводные, а не полные данные;
  • вращение (pivot) — позволяет менять пространственную ориентацию осей измерений куба, выбирая наиболее удобное для аналитика представление.

В OLAP-технологиях куб — это прежде всего средство визуализации многомерных данных. Поэтому при его использовании приходится решать задачу отображения информации в удобном и интерпретируемом для человека виде.

Для представления данных в кубе разработан специальный визуализатор, называемый кросс-таблицей. Она представляет данные в виде таблицы, но снабжена специальным интерфейсом, который позволяет оперативно группировать измерения, управлять срезами куба и отображать их на плоскости.

Сферы применения

  • Оперативный анализ данных. Хранение и обработка многомерных данных, позволяющая получать сложные аналитические отчеты в реальном времени;
  • Нерегламентированная отчетность. Построение отчетов, которые не являются стандартными для организации и для которых хранилище или витрина данных не оптимизирована в части повышения быстродействия. Эти отчеты генерируются с помощью нерегламентированных запросов к базе, хранилищу или витрине данных. Обычно данный вид отчетности требуется для систем поддержки принятия решений в исключительных ситуациях, когда регулярные отчеты не могут обеспечить достаточно информации для принятия решения;
  • Углубление в данные. Углубление в данные — широкое понятие, относящееся к различным операциям и преобразованиям табличных, реляционных и многомерных данных. Этот термин широко используется в различных контекстах. В анализе данных углубление в данные подразумевает сосредоточение, концентрацию внимания на чем-либо, копание в данных, погружение в их слои, чтобы получить информацию, полезную для поддержки принятия решений.

Пример применения в Loginom Community

Имеются данные о выпуске бакалавров, специалистов, магистров и специалистов среднего звена (тыс. чел.) государственными, муниципальными и частными организациями в 2016–2018 гг. в Уральском федеральном округе (рис. 6).

Пример применения в Loginom Community

Рис. 6

Требуется построить OLAP-кубы по приведенным данным.

После завершения работы Мастера обработки выводятся данные визуализатора Куб (рис. 7).

Так как визуализатор Куб представляет собой плоскую двухмерную таблицу, то при отображении нескольких измерений заголовки образуют иерархическую систему (дерево заголовков). По умолчанию все заголовки свернуты до самого внешнего измерения. Для раскрытия или сворачивания заголовков внутренних измерений нужно кликнуть по кнопке Развернуть или Свернуть на заголовке внешнего измерения.

Существуют групповые операции раскрытия или сворачивания заголовков (рис. 8):

  • вернуть все элементы до минимальной детализации измерения;
  • развернуть все элементы до максимальной детализации измерения;
  • по возрастанию — отсортировать значения в порядке возрастания;
  • по убыванию — отсортировать значения в порядке убывания;
  • в исходном порядке — выстроить значения в порядке их появления в данных;
  • удалить — исключить измерение из OLAP-куба. Удалить измерение также можно перетаскиванием (Drag-and-Drop) назад в область свободных полей.

данные визуализатора Куб

Рис. 7

групповые операции раскрытия или сворачивания заголовков

Рис. 8

Развернем измерение Область. OLAP-куб примет вид (рис. 9).

OLAP-куб

Рис. 9

Есть возможность перестраивать таблицу с помощью мыши «на лету». Сделать это можно, если перетаскивать поля с заголовками измерений. Приведем различные варианты изменения таблицы таким способом.

Сделаем измерение Область, участвующее в построении таблицы, скрытым. Для этого перетащим поле с заголовком измерения в область фильтрации по измерениям (рис. 10).

область фильтрации по измерениям

Сделаем скрытое измерение Область участвующим в построении таблицы, а измерение Организации — скрытым. Для этого поменяем их местами (рис. 11).

измерение Область

Рис. 11

Добавим к измерению Область измерение Выпуск (рис. 12).

измерение Выпуск

При этом измерение Выпуск можно было расположить как слева, так и справа от измерения Область. Для этого их надо поменять местами (рис. 13).

измерение Выпуск

Рис. 13

Изменять расположение измерений также можно, используя операцию транспонирования куба. В результате данные, ранее отображавшиеся в строках, отображаются в столбцах, а данные в столбцах преобразуются в строки. Транспонирование во многих случаях позволяет оперативно сделать таблицу более удобной для восприятия.

В приведенных выше примерах куб строится по всем значениям измерений. Однако иногда возникает необходимость построить куб в разрезе лишь некоторых значений, например, по выпуску бакалавров, специалистов и магистров. Включать или исключать значения измерений в таблице можно, нажав на поле заголовка интересующего измерения. Например, если нажать в поле заголовка измерения Выпуск, откроется список его значений (рис. 14).

Рис. 14

После исключения значения Специалисты среднего звена таблица примет вид (рис. 15).

Рис. 15

При этом можно устанавливать суммы в колонках или строках (см. рис. 16).

Иногда для более корректного отображения данных в OLAP-кубе требуется вычисление новых фактов на основе уже имеющихся. Функция Калькулятор, встроенная в визуализатор Куб, позволяет проводить вычисления «на лету» непосредственно в отчете. Добавить вычисляемый факт можно на панели инструментов, выбрав кнопку Добавить вычисляемый факт (см. рис. 17).

Рис. 16

Добавить вычисляемый факт

Рис. 17

Можно также построить кросс-диаграмму (рис. 18).

кросс-диаграмма

Рис. 18