Предиктивная аналитика — это когда мы пытаемся предсказать будущее, используя научные методы и дисциплины: теорию игр, статистику, машинное обучение.

Вернут ли банку кредит? Сколько товаров магазину держать на складе? За какое время фургон транспортной компании доедет до места назначения? На эти вопросы можно ответить, если использовать современные технологии.

Разберемся, что такое предиктивная аналитика и как ее используют для оптимизации бизнес-процессов, снижения убытков и роста продаж.

Где и для чего используют предиктивную аналитику

Предиктивной аналитикой пользуются финансовые компании, страховщики, логистические, туристические бизнесы, розничная торговля, промышленные предприятия:

  1. При продаже страховки нужно примерно понимать, какова вероятность наступления того или иного страхового случая. Сегодня эти предсказания делают с помощью больших данных и статистики. Чем точнее предсказания — тем адекватней цена на страховку.
  2. Сколько времени сможет проработать станок на вашем заводе, прежде чем у него выйдет из строя важный узел? Анализ показателей работы оборудования и реакция на отклонения от нормы — хороший способ заметить аномалии в работе устройства и произвести профилактический ремонт до того, как что-то сломалось.
  3. Вернут ли банку кредит — это тоже предсказание будущего. Чтобы ответить на этот вопрос, банки смотрят ретроспективные данные, например, историю выдачи кредитов и операций по счету, и оценивают косвенные показатели, влияющие на платежеспособность клиента: возраст, образование, наличие жилья, машины, детей, места работы. Это позволяет снизить количество кредитных невозвратов, что, в свою очередь, повышает рентабельность бизнеса.
  4. Розничным продавцам нужно тщательно планировать свои складские запасы. При планировании учитывают как очевидные моменты, вроде «перед Новым Годом будет спрос на ингредиенты для оливье», так и менее очевидные — «мы поменяли полки в магазинах местами и предполагаем рост продаж колбасы марки XYZ».
  5. Логистические компании должны отвечать за сроки доставки грузов. Предиктивная аналитика позволяет просчитать, сколько времени понадобится на доставку, скажем, двух больших контейнеров из одного конца страны в другой. А факторов на это влияет множество — время года, погодные условия, вероятность найти необходимый транспорт, следующий по определенному маршруту, и свободные места в нем. И многое другое. Все это нужно учитывать, чтобы прогнозировать доставку.

Сотням компаний приходится решать вопрос предсказания будущего каждый день. Без предиктивной аналитики это было бы невозможно.

Как собирают и хранят данные для предиктивной аналитики

Сбор данных. Если вы решили внедрить предиктивную аналитику (или, как минимум, посмотреть, что интересного сможете спрогнозировать на основе данных) — прежде всего понадобятся данные:

  1. Проще всего получить доступ к информации, которая и так хранится и собирается. Например, статистические данные из CRM компании, метрики сайта, статистика звонков из колл-центра. Если это у вас есть, нужно предоставить доступ к данным вашим аналитикам. Для этого надо наладить выгрузку информации в специализированную отдельную СУБД, которой они будут пользоваться. Для аналитической работы подходят такие решения как ClickHouse и Greenplum, выбор конкретной базы данных зависит от ситуации.
  2. Не все данные доступны в цифровом виде, некоторые придется начать собирать. Например, сенсорные показатели двигателей на конвейере вашего завода или температуру и влажность в цехе. Или, например, Walmart в США установили погодные станции на крышах своих супермаркетов чтобы собирать погодные данные и искать корреляцию между погодой и продажами. У вас, наверняка, тоже найдется список параметров, которые могут рассказать о состоянии дел в бизнесе и пока не оцифрованы. Для сбора таких данных используют решения интернета вещей: устанавливают нужные датчики, которые мониторят состояние оборудования или помещений.
  3. Часть данных, которые вам пригодятся для работы, лежат во внешних источниках. Например, выгрузки Росстата, реестр юрлиц в налоговой, данные из бюро кредитных историй. Все это нужно получить и обработать.

Хранение информации. Собранные данные могут храниться у аналитиков в специализированной СУБД, также большие данные могут быть размещены в озерах данных — это специальные хранилища, куда информацию можно поместить в почти необработанном виде, а потом забирать оттуда и использовать.

Как анализируют данные и делают предсказания

Итак, данные собраны, пора попробовать что-то предсказать.

  1. Проверка качества данных

    Сперва нужно оценить целостность записей — все ли показатели за интересующие периоды правильно собраны, есть ли среди них пропущенные значения или странные значения, сильно выбивающиеся из нормы. Например, внезапный скачок температуры на улице до +300 градусов и потом обратно до +20. На этом этапе нужно принять решение о том, можно ли использовать собранные данные, чем заменить пропущенные значения и как скорректировать заведомо ошибочные показатели.

  2. Обработка больших данных

    Если данных много (триллионы записей и терабайты файлов) — берите в руки инструменты обработки Big Data. Например, можно попытаться разбить данные на пакеты, обработать разные части выборки на разных серверах и свести весь массив записей к какому-то обозримому количеству.

    Ваша цель — не использовать все записи, а свести массив информации к относительно небольшому количеству, которое при этом сможет ответить на вопросы. Можно заменять большое количество слабо разбросанных значений на средние, можно использовать квадратичные отклонения — это индивидуально. Главное — получить материал, с которым в дальнейшем смогут работать аналитики и их алгоритмы.

    Такие инструменты работы с Big Data как Hadoop и Spark, доступные в облаке, помогут быстро обработать любые массивы информации.

  3. Построение прогнозов

    Теперь пора расчехлять научный инструментарий для поиска закономерностей и создания предсказаний:

    • Классическая статистика. Применение статистических методов дает неплохие результаты на многих выборках данных.
    • Датамайнинг — алгоритмический поиск трендов, закономерностей, зависимостей и паттернов в данных. Алгоритмы Data Mining могут работать сами, без участия человека. И при этом находить нетривиальные связи между разными показателями и переменными.
    • Машинное обучение — самое эффективное на сегодня орудие предсказания будущего. Путем подбора и оптимизации различных моделей можно создать точные инструменты прогнозирования на основе имеющихся у вас данных. Абсолютное большинство предиктивных систем сегодня построены именно на машинном обучении.
  4. Визуализация

    Результаты анализа и прогнозов нужно визуализировать с помощью графиков и схем, после чего аналитики могут оценить результаты. Иногда некоторые тренды и закономерности видно практически сразу — достаточно придать информации удобную графическую форму. Это поможет заметить повторяющиеся паттерны и устойчивые тренды, а также метрики и параметры, которым надо уделить внимание.

Для построения систем работы с данными используют облачные платформы аналитики данных. Они позволяют не разворачивать сложную инфраструктуру анализа и обработки данных самостоятельно, а также быстро проверить, какую пользу вы можете получить от информации. В облаках можно построить всю экосистему аналитики — либо периодически использовать облачные мощности для обработки информации, хранящейся в традиционной инфраструктуре компании.

На платформе от MCS можно организовать любые сценарии работы с данными: от пакетной обработки до построения прогнозов с помощью машинного обучения.

После того, как предсказания сделаны, их нужно постоянно сравнивать с тем, что происходит в реальности. Коррекция моделей предсказаний по этим расхождениям поможет со временем значительно улучшить качество прогнозов в ваших системах.