VK Cloud

Назад к кейсам

DNS: как облако помогло нам сделать аналитику данных прозрачной и доступной для всех бизнес-подразделений

Frame 5-2.png
DNS.svg
Компания

DNS

Отрасль

Ритейл

Магазинов по всей России

2900

Сотрудников в штате

38 000

  • cloud backup.svg
  • cloud databases.svg
  • cloud servers.svg

DNS — один из лидеров рынка по продаже цифровой и бытовой техники в России. У компании более 2900 магазинов в России и Казахстане. Одни из ключевых драйверов роста DNS — цифровизация бизнес-процессов, аналитика данных, работа с ассортиментом, розничными процессами и логистическими цепочками.

Корпоративная цифровая система компании охватывает все бизнес-процессы: каждый из них оцифрован. Выстроенный процесс сбора данных помогает аккумулировать не только сведения о продажах через магазины и сайт, но и информацию о закупках, складской и транспортной логистике, клиентской доставке. Данные поступают из десятков разрозненных источников: корпоративных систем, веб-сайтов, хранилищ и баз данных.

Аналитика данных позволяет компании получать ценные инсайты и своевременно реагировать на любые изменения рынка. Но с увеличением объема данных и количества их источников, чтобы поддерживать эффективность анализа и удобства доступа к данным, компании было нужно создать единое хранилище для консолидации всей поступающей информации. С учетом объема данных для построения такого решения нужны были специализированные инструменты и масштабируемое хранилище.

О том, как DNS решила эту задачу, рассказали руководитель ИТ-направления Иван Альмиев и федеральный директор компании Валерий Ракитин.

DNS — один из крупнейших онлайн-ритейлеров России

DNS — один из лидеров рынка по продаже цифровой и бытовой техники в России. DNS имеет более 2900 магазинов в 1200 городах. Каждый из них объединен в единую цифровую экосистему: компания собирает данные от каждого магазина в единой цифровой платформе и на основе их анализа планирует ассортимент, ценообразование, логистику и другие аспекты.

Наряду с розничными магазинами компания развивает интернет-магазин, который ежемесячно посещают более 100 миллионов пользователей.

Один из драйверов нашего развития — цифровизация бизнес-процессов и аналитика данных. Глубокий анализ всех событий позволяет нам понимать, какие процессы можно улучшить и как это сделать. Аналитика имеет для нас важное значение, ведь в условиях высокой конкуренции действия всех бизнес-подразделений и общая стратегия развития нашей компании — от процессов закупки и ценообразования до маркетинговых компаний — должны быть основаны на точных данных.

Для удобства работы с данными, поступающими в многопоточном режиме от множества источников, нужно было консолидированное хранилище, где аналитики и бизнес-команды могли бы в любой момент времени получить полный датасет для своих задач.

Под растущий объем данных потребовался новый технологический стек

Под многими процессами в нашей компании скрывается целый айсберг данных. Это позволяет нам оперировать достаточными массивами информации и проводить аналитику нескольких типов.

  1. Прогнозирование — продолжаем ряд данных на N периодов в будущее. Для построения прогнозов требуется не только сам ряд, который мы хотим спрогнозировать, но и другие данные, которые могут косвенно или прямо повлиять на прогноз. Мы прогнозируем продажи и закупки, остатки товаров на складах, объемы перевозок и другие метрики.
  2. Описательная аналитика — на основе данных строим отражение состояния процессов или функции, отслеживаем их метрики. Метрики могут быть ключевыми — те, которые бизнес ставит в качестве целевых показателей, и вспомогательные — которые помогают оценивать процессы и следить, что они находятся в норме.
  3. Исследовательский анализ — с помощью исследования данных выявляем возможности или, наоборот, проблемы в процессах.
  4. Оптимизационное моделирование — решаем оптимизационную задачу на основе входящих данных. Эта может быть как модель, построенная на линейном алгоритме, так и более продвинутые модели на основе алгоритмов машинного обучения и нейросетей. Например, у нас работают сервисы поиска оптимального маршрута для складских работников, составление графиков сотрудников, распределения товара по сети и другие.

Сбор данных на каждом этапе бизнес-процесса подразумевает использование вместительного хранилища и инструментов для их предобработки, а также для предоставления доступа к информации всем сотрудникам, которые работают с аналитикой.

Раньше для этих задач мы использовали отдельные базы данных (БД), MySQL Server и OLAP-кубы как инструмент обработки данных из хранилища. Но OLAP-куб — однопоточная технология, которая сильно зависит от скорости ядра. Для ее масштабирования надо увеличивать вычислительные мощности решений. По мере увеличения объема обрабатываемых данных использовать такой стек для нас стало нерентабельно: надо было регулярно кратно увеличивать затраты на покупку оборудования.

В результате мы решили исследовать рынок в поиске альтернативных решений для работы с аналитикой и формирования отчетов. Таким инструментом стал Greenplum: он легко масштабируется, совместим с любыми данными и позволяет проводить анализ в режиме реального времени с последующим прогнозированием. Но вариант с использованием GreenPlum на своем железе нам все равно не подходил — проблема с постоянной необходимостью покупки оборудования оставалась актуальной. Поэтому хранилище данных мы решили построить в облаке.

Исходя из этого, нам было важно найти облачного провайдера, у которого есть достаточная экспертиза по разработке инструментов для аналитики данных, а также устойчивая инфраструктура.

Экспертиза, ресурсы и поддержка — основные критерии при выборе провайдера

Требований к провайдеру было несколько:

  • Экспертиза. Было важно, чтобы провайдер не только предоставлял инструмент, но и имел экспертизу в области работы с данными в облаке — знал, как развернуть, настроить, интегрировать дата-решения в существующую цифровую систему.
  • Ресурсы. Мы хотели найти поставщика, который может выделить нужную нам инфраструктуру и по запросу масштабировать ее с увеличением наших потребностей.
  • Доступность. У нас нет систем, в которых нужна аналитика в реальном времени — мы проводим постаналитику, и временные задержки до суток приемлемы. Вместе с тем нам важна постоянная доступность хранилища. Поэтому нам нужен был провайдер, у которого есть четкие гарантии доступности по SLA.
  • Техническая поддержка. Нам было важно разделить зоны ответственности, чтобы не решать задачи обслуживания инфраструктуры, обеспечения сетевых и серверных элементов.

Мы рассмотрели предложения нескольких провайдеров и в итоге остановились на VK Cloud, который подошел под все требования.

Построили консолидированное хранилище данных для более 10 команд

Раньше у нас была сложная схема работы с данными: вначале данные от источников поступали в витрины, после из витрин они передавались в корпоративное хранилище данных (Data Warehouse, DWH), и только потом данные получали OLAP-кубы. Это сложная схема, и она корректно работала лишь на относительно небольшом объеме данных.

При переходе на Greenplum мы решили не только создать консолидированное хранилище в облаке, но и изменить алгоритм получения данных. Мы организовали выгрузку первичных данных в необработанном виде напрямую в Greenplum. Уже в нем формируются витрины данных, которые могут использовать разные бизнес-подразделения для конкретных задач.

При этом хранилище в Greenplum развернуто в облаке, а аналитические системы работают отдельно. При таком подходе каждая команда может использовать свой инструмент: у Greenplum широкая совместимость с BI-решениями.

После построения новой архитектуры — создания на базе Greenplum консолидированного озера данных (Data Lake) — нам надо было выгрузить в новое хранилище все данные, которых к тому моменту было около 50 ТБ. Для этого мы разработали очередь миграции:

  1. Перенесли в Greenplum приоритетные системы, которые используют все бизнес-команды. Помимо выгрузки данных за прошлые периоды, мы также настроили сбор новых данных. В итоге фактически мы получили обновляемый слепок баз данных из продакшена.
  2. После миграции приоритетных данных начали перенос нишевых систем, которые нужны меньшему количеству команд и только для отдельных задач аналитики.

Поскольку у нас много СУБД, в том числе разных типов, для миграции требовалось много времени. Она продолжается и сейчас, но для нас это не критично: по мере необходимости данные поступают в Greenplum.

Какие сервисы для работы с данными мы используем

Для реализации своего проекта мы используем инструменты Big Data:

  • Greenplum для построения консолидированного хранилища;
  • Apache NiFi для обеспечения ETL (Extract, Transform, Load — извлечение, преобразование, загрузка) от источников к Greenplum;
  • ClickHouse aaS в облаке для размещения продуктовых витрин данных;
  • самостоятельно развернутый S3 Minio для хранения сопутствующих данных и файлов, резервных копий, а также в качестве хранилища для ETL;
  • Apache Kafka в качестве основного брокера сообщений;
  • Cloud Backup для создания резервных копий данных.

Корпоративное хранилище данных в облаке позволило объединить данные из всех источников и повысить их доступность для аналитиков

Сотрудничая с VK Cloud, мы решили сразу несколько задач.

  1. Получили возможность горизонтального масштабирования. Используя облачные сервисы, мы можем легко добавить новые ноды к Greenplum и получить нужные ресурсы под изменяемую нагрузку без больших инвестиций, как было раньше.
  2. Упростили доступ к данным. В развернутом облачном хранилище собраны данные из всех источников. Теперь аналитикам не надо искать нужные сведения по десяткам разрозненных баз. Это быстрее и проще.
  3. Разделили зоны ответственности. Мы делегировали задачи. Например, в части администрирования сервисов для работы с данными и обслуживания инфраструктуры — поскольку мы используем готовые сервисы, эти задачи остались на стороне VK Cloud. Это помогло нам сконцентрироваться на бизнес-задачах без ущерба выстроенным процессам.
  4. Обеспечили доступность данных. Поддерживать десятки разрозненных баз данных было сложно, как и обеспечивать их постоянную доступность. Но сейчас доступность инфраструктуры и сервисов, которые мы используем для хранилища, гарантирована по SLA.

Планы на будущее

Наша основная задача в краткосрочной перспективе — закончить миграцию данных и сделать Greenplum основным консистентным хранилищем. Также мы планируем продолжать работать с аналитикой данных в облаке VK Cloud за счет добавления новых инстансов Greenplum и ClickHouse — с учетом увеличения объема данных и задач по их аналитике таких итераций масштабирования может быть много. Сотрудничество с VK Cloud будет продолжено на долгосрочной основе, ведь оно позволяет нам успешно развивать Data-driven-подход в компании.

Попробуйте наши сервисы

После активации аккаунта мы свяжемся с вами и начислим 3 000 рублей на ваш счет VK Cloud, чтобы вы смогли протестировать сервис в течение 60 дней.

Или оставьте с индивидуальным расчетом

40+ готовых сервисов