Базовые навыки работы в Loginom Community
Вся работа по анализу данных в Loginom Community базируется на выполнении следующих действий:
- проектирование сценариев;
- обработка данных;
- визуализация данных.
Сценарий — последовательность действий, которые необходимо провести для анализа данных. Сценарий обработки представляет собой комбинацию узлов обработки данных, настраиваемую пользователем для решения конкретной задачи.
Последовательность обработки задается соединением выхода предыдущего узла сценария со входом последующего. Входом и выходом узла являются входные и выходные порты (рис. 1).
Рис. 1
Узел сценария выполняет отдельную операцию над данными. Перечень возможных операций представлен палитрой готовых компонентов. Таким образом, компонент является прообразом или шаблоном будущего узла сценария. Для того чтобы создать узел сценария, выполняющий нужную операцию над данными, необходимо мышью перенести соответствующий компонент из панели компонентов в область построения сценария.
Узлы сценария создаются из компонентов двух типов:
- стандартные компоненты — предоставляются в рамках платформы;
- производные компоненты — создаются и настраиваются пользователем. Производный компонент можно создать из комбинации узлов сценария, реализующей произвольную логику обработки.
Таким образом, набор средств для реализации различной логики обработки данных не ограничивается стандартными компонентами платформы и может быть расширен самим пользователем.
Чаще всего для создания производного компонента используется Подмодель. является специальным узлом, способным включать в себя другие узлы сценария. Реализованная в подмодели логика может быть произвольной, при этом разработчик сценария может рассматривать ее как «черный ящик».
В состав подмодели могут также включаться и другие подмодели. Вложенность подмоделей друг в друга не ограничена.
Подмодель принимает информацию через входные порты, производит обработку и выдает результат на выходные порты. Входные и выходные порты задаются пользователем.
Поскольку таблицы, переменные и подключения имеют разную структуру, то соответствующие им порты не могут быть соединены друг с другом и имеют разное обозначение. Количество входов и выходов узла варьируется в зависимости от функционала. Входы узла могут настраиваться автоматически (при подключении связи) либо вручную.
От обработчика к обработчику могут передаваться как наборы данных — таблицы, так и переменные — объекты, содержащие лишь одно значение. Статистические данные таблиц (например, сумма по столбцу, среднее значение и т. д.) могут быть преобразованы в переменные при помощи специального обработчика.
Переменные, в свою очередь, могут применяться в обработчиках для преобразования таблиц. Поскольку таблицы и переменные имеют разную структуру, то соответствующие им порты не могут быть соединены друг с другом и имеют разное обозначение.
Loginom Community включает в себя набор стандартных компонент:
- трансформация — компоненты для первоначальной подготовки и простой обработки исходных наборов данных:
- группировка;
- дата и время;
- дополнение данных;
- замена;
- калькулятор;
- калькулятор JS;
- кросс-таблица;
- объединение;
- параметры полей;
- разгруппировка;
- свертка столбцов;
- скользящее окно;
- слияние;
- соединение;
- сортировка;
- фильтр строк;
- управление — компоненты для оптимизации сценариев путем создания подмоделей и повторного использования узлов, а также формирования логики выполнения сценариев при помощи условий и циклов:
- выполнение узла;
- подмодель;
- узел-ссылка;
- условие;
- цикл;
- исследование — компоненты для оценки и визуализации структуры и статистических характеристик данных. Также с их помощью проводят разведочный и описательный анализы:
- автокорреляция;
- корреляционный анализ;
- факторный анализ;
- предобработка — компоненты для предварительной обработка данных и дальнейшего использования в алгоритмах Data Mining:
- заполнение пропусков;
- квантование;
- конечные классы;
- разбиение на множества;
- редактирование выбросов;
- сглаживание;
- семплинг;
- Data Mining — компоненты для реализации различных методов Data Mining:
- EM кластеризация;
- ассоциативные правила;
- кластеризация;
- кластеризация транзакций;
- логистическая регрессия;
- нейросеть (классификация);
- нейросеть (регрессия);
- самоорганизующиеся сети;
- переменные — компоненты для проведения различных операций над ними:
- замена (переменные);
- калькулятор (переменные);
- переменные в таблицу;
- соединение (переменные);
- таблица в переменные.
Для визуализации данных используются Визуализаторы, представляющие собой инструменты для удобного варианта отображения данных:
- диаграмма — графическое представление данных;
- куб — многомерное представление данных;
- таблица — табличное представление данных;
- статистика — статистические показатели полей набора данных;
- отчет по регрессии — статистические параметры и результаты статистических тестов для анализа регрессионных моделей;
- качество бинарной классификации — формирует наборы серий данных для построения диаграмм, определяются оптимальные пороги отсечения и вычисляются оценки классификации. Для получения точек серий строятся гистограммы распределения событий и не событий в выборках.
Также есть специальный визуализатор Быстрый просмотр, доступный на активном выходном порту.
Все действия с проектом в Loginom Community осуществляются в рамках Пакета, который является минимальной единицей поставки и представляет собой контейнер для компонентов, сценариев, подключений и т. д.
Пакеты сохраняются по отдельности в виде файлов с расширением .lgp, и включают в себя Ссылки и Модули.
Ссылки применяются для подключения других пакетов с целью использования созданных в них производных компонентов и подключений в текущем проекте. Соответствующие объекты доступны только в том случае, когда они опубликованы для общего доступа.
Каждый пакет содержит хотя бы один модуль. Модуль включает в себя:
- сценарий — содержит последовательность узлов обработки данных;
- подключения — в них представлен список внешних источников и приемников данных, к которым можно подключиться;
- компоненты — включают в себя доступные для работы подмодели, как созданные в рамках текущего пакета, так и заимствованные из других пакетов через ссылки.