Роль новых технологий в статистическом анализе данных
Статистические методы анализа данных применяются практически во всех областях деятельности человека. Одни методы являются универсальными, другие — специфичными для конкретной отрасли или сферы деятельности. Организации могут применять аналитику для бизнес-данных, чтобы описать, предсказать и повысить эффективность бизнеса.
С помощью аналитических методов можно получить ответ на серьезные вопросы. Например, простой суммарный отчет позволяет ответить на вопрос, в каком месяце был наибольший объем продаж, а используя углубленные аналитические методы анализа данных, можно ответить на вопрос, почему наибольший объем продаж был в прошлом месяце.
Особенно велико значение анализа данных в условиях жесткой конкуренции, когда даже небольшое увеличение прибыли может оказаться принципиальным в конкурентной борьбе. Нет статистики — нет результативного анализа, а без анализа нет интеллектуального бизнеса. Статистический анализ помогает превратить данные в знания. Например, обработка данных, считанных с ленты кассовых аппаратов супермаркета, позволяет выявить группы товаров, которые приобретаются вместе. Размещение таких товаров недалеко друг от друга на полках большого магазина способно ежемесячно увеличить прибыль на несколько процентов.
Использование статистики в области добычи знаний может существенно улучшить все аспекты работы организации. Например, используя логистическую регрессию, можно легко построить профиль проблемных клиентов банка, для которых риск невозвращения кредита оказывается слишком большим. Таким клиентам банк может либо просто отказать в выдаче кредита, либо выдать кредит на более жестких условиях.
Занимаясь поиском путей повышения вероятности возврата кредитов, аналитик может выявить и другие закономерности, которые, вероятно, он и не ожидал: например, установить, что степень риска невозврата кредитов банка зависит от уровня образования, возраста клиента или времени постоянного проживания на данной территории. После обнаружения таких неожиданных зависимостей необходимо оценить, как эти знания можно использовать в практической деятельности банка.
Интеллектуальный анализ данных — это не веяние моды, которое уйдет так же скоро, как и пришло. Подобные им количественные методики уже длительное время используются во многих отраслях экономики. Показательным примером может служить валютный и фондовый рынки, где тот, кто обладает лучшими математическими методами извлечения закономерностей из зашумленных, хаотических, на первый взгляд, данных курсов валют или ценных бумаг, может надеяться на большую норму прибыли за счет своих менее просвещенных собратьев.
Можно привести в пример и другие отрасли экономики, где интеллектуальный анализ данных уже давно стал рабочим инструментом бизнес-аналитика: предсказание рынков, автоматический дилинг, оценка риска невозврата кредитов, предсказание банкротств, оценка стоимости недвижимости, выявление пере- и недооцененных компаний, автоматическое рейтингование, оптимизация портфелей ценных бумаг, оптимизация товарных и денежных потоков, автоматическое считывание чеков и форм, безопасность транзакций по пластиковым карточкам и т. д.
Таким образом, интеллектуальный анализ данных — это магистральный путь развития бизнес-аналитики в ХХI в., и современный аналитик в полном объеме должен владеть этими методами. Отсутствие навыка анализа данных у специалиста в области управления увеличивает риск принятия им ложных решений, делает его неспособным воспринимать современные технологии бизнес-аналитики.
Потребителями статистических моделей в современном бизнесе являются:
- аналитики рынков — маркетологи, использующие статистическую информацию, собранную по результатам продаж и опросов потребителей, для анализа и прогнозирования спроса, выявления тенденций и особенностей, присущих рынкам;
- финансовые аналитики, выясняющие причины подъема и спада цен на акции и их динамику;
- специалисты по оценке бизнеса, которые используют статистические данные об аналогах для определения стоимости тех или иных объектов;
- специалисты планово-экономических служб, использующие статистический материал для построения «внутризаводских» моделей себестоимости, затрат, и многие другие.
Они могут совершенно не разбираться в методах анализа, но у них есть потребность в их результатах. Таким образом, требуется, с одной стороны, выделить и формализовать знание аналитика или эксперта о предметной области, с другой — обеспечить возможность использовать эти знания человеком, не разбирающимся в особенностях использования механизмов анализа, то есть решить проблему тиражирования знаний (рис. 1).
Рис. 1
Одними из средств для эффективного решения проблемы тиражирования знаний, создания законченных прикладных решений в области статистического анализа данных являются аналитические платформы, которые позволяют быстро и эффективно решать задачи сбора, анализа и визуализации больших объемов данных.
В настоящее время существует огромное количество аналитических платформ и инструментов анализа данных. Одной из таких платформ является Low-code платформа Loginom, которая делает продвинутую аналитику доступной бизнес-пользователям. Визуальный конструктор позволяет настроить все процессы анализа: интеграция, подготовка данных, моделирование, визуализация.
Loginom сокращает время от тестирования гипотезы до создания работающего бизнес-процесса.
Loginom предназначена для решения большого спектра бизнес-задач, требующих обработки больших объемов данных, реализации сложной логики и применения методов машинного обучения:
- управление рисками;
- кредитный конвейер;
- скоринг;
- антифрод;
- клиентская аналитика;
- сегментация клиентов;
- противодействие оттоку;
- кросс-продажи;
- очистка данных;
- очистка и удаление дублей;
- создание золотой записи;
- стандартизация НСИ;
- маркетинг;
- директ-маркетинг;
- оптимизация цен;
- оценка эффективности рекламы;
- логистика;
- прогнозирование спроса;
- оптимизация запасов;
- расчет страховых запасов;
- диагностика;
- статистический контроль качества;
- оценка вероятности поломок;
- цифровые двойники.
Процесс анализа данных проходит следующие этапы (рис. 2).
Рис. 2
Loginom позволяет подключиться ко множеству источников/ приемников данных и настроить ETL-процессы. Интеграция со сторонними веб-сервисами и публикация собственных упрощает интеграцию в IT-инфраструктуру любой компании (рис. 3).
Рис. 3
В настоящее время в Loginom разработаны ряд прикладных решений:
- Loginom Decision Maker применяется для построения онлайн систем поддержки принятия решений, в которых необходимо быстро обрабатывать входящий поток запросов по формализованному нетривиальному алгоритму, как правило с привлечением дополнительной информации, получаемой в режиме онлайн из внешних источников;
- Loginom Scorecard Modeler позволяет автоматизировать весь процесс создания скоринговой карты: от подготовки данных до моделирования и формирования отчетности. Строит балльные скоринговые карты для анкетного, поведенческого, коллекторского скоринга;
- Loginom Data Quality — решение по очистке, проверке и обогащению данных: в автоматическом режиме исправляет ошибки, стандартизирует любые клиентские данные, выявляет дубликаты и взаимосвязи между данными, формирует рекомендации по созданию эталонных записей;
- Loginom Customer Segmentation — решение для системной работы по удержанию клиентов и увеличению прибыли. Построение универсальной модели сегментации позволяет проводить адресные маркетинговые кампании, настроенные по десяткам различных параметров. Точечное и своевременное воздействие накаждого клиента многократно увеличивает вероятность и количество покупок.
Аналитическая платформа Loginom выпускается в пяти редакциях:
- Community Edition — предназначена для обучения аналитиков и студентов работе с платформой Loginom. Применение платформы в данной редакции для коммерческих целей не допускается. Предполагает индивидуальный анализ данных, без механизмов коллективной работы. Поддерживается работа с множеством источников данных, включая интеграцию с 1С и Tableau. Кроме того, доступна работа с REST-сервисами;
- Personal — предназначена для автономной аналитической обработки. Производительность зависит только от мощности используемой рабочей станции. Отсутствуют ограничения на количество процессоров или объемы памяти. Так как редакция ориентирована на персональную работу аналитика, то отсутствуют встроенные механизмы коллективной работы, интеграции с бизнес-процессами и SOAP-сервисами;
- Team — ориентирована на работу небольших групп от 5 до 10 человек. Объемы обрабатываемых данных должны соответствовать серверу, с количеством процессорных ядер не более 6 и объемом оперативной памяти до 32 Гб. Доступна возможность пакетного выполнения сценариев. Возможности вызова сторонних SOAP-сервисов и публикации собственных веб-сервисов отсутствуют;
- Standard — предназначена для средних компаний, с количеством пользователей от 5 до 20 человек. Может быть задействовано не более 16 процессорных ядер и до 64 Гб оперативной памяти. Доступна возможность обработки данных в пакетном режиме, вызова сторонних веб-сервисов для интеграции в бизнес-процессы компании, публикация веб-сервисов, а также построение кластера серверов;
- Enterprise — максимальная по возможностям редакция платформы. Ориентирована на корпоративную обработку больших объемов данных, реализацию бизнес-критичных процессов в отказоустойчивой и масштабируемой среде. Отсутствуют ограничения на количество ядер процессоров и объем используемой оперативной памяти. Возможно приобретение дополнительных лицензий на любое количество пользователей. Доступна возможность обработки данных в пакетном режиме, вызова сторонних веб-сервисов для интеграции в бизнес-процессы компании, публикация веб-сервисов, а также построение кластера серверов.
Для персональной работы достаточно редакции Community или Personal (рис. 4).
Рис. 4