Cloud Spark

Сервис для распределенной обработки данных любого объема

Решайте задачи обработки больших массивов данных в несколько кликов с помощью удобного сервиса на основе инструментов с открытым исходным кодом

Cloud Spark – это гибко масштабируемый сервис на основе Kubernetes и Apache Spark. В несколько кликов вы можете подключить кластеры Spark в Kubernetes для распределенной пакетной и потоковой обработки данных, работы с ML и аналитикой.

Сервис обеспечивает быстрое выполнение аналитических запросов к данным любого объема благодаря кэшированию в памяти и оптимизированному исполнению запросов.

Администрирование Cloud Spark на стороне VK Cloud. Вы получаете доступ к готовым кластерам на базе Kubernetes.
Автоматическое масштабирование Kubernetes позволяет экономить до 60% стоимости вычислительных ресурсов.
Оплата сервиса Cloud Spark по модели Pay as you go – только за потребляемые ресурсы.
Инфраструктура VK Cloud аттестована по 152-ФЗ (УЗ-1). ЦОД расположены в РФ.

Участвовать в бете

Сценарии использования Cloud Spark

Распределенная потоковая и пакетная обработка данных из разных источников
За счет встроенных коннекторов Cloud Spark работает на чтение и запись с большими объемами данных из разных источников. Например, Clickhouse, Kafka и MongoDB.
SQL‑аналитика
Сервис позволяет выполнять аналитические запросы ANSI SQL в режиме, близком к реальному времени.
Машинное обучение
Поддержка масштабируемой библиотеки машинного обучения MLlib, которая включает популярные алгоритмы, средства подготовки данных к моделированию, а также алгебраические и статистические функции.
Задачи Data Science
Выполнение разведочного анализа данных (EDA) на данных петабайтного масштаба без сокращения объема анализируемых данных.

Сервис реализован на базе Managed Kubernetes от VK Cloud и Apache Spark

Apache Spark – фреймворк с открытым исходным кодом для распределенной обработки неструктурированных и слабоструктурированных данных. Проект активно разрабатывается сообществом и Apache.

Cloud Containers – сервис VK Cloud для запуска готовых кластеров Kubernetes в облаке. Сервис соответствует стандартам Cloud Native Computing Foundation (CNCF) по Certified Kubernetes Conformance Program.

Участвовать в бете

Cloud Spark упрощает и ускоряет обработку данных по сравнению с традиционной инсталляцией Spark, развернутой в Hadoop

Spark в Hadoop

Spark в Hadoop Сложный и длительный процесс с участием дата-инженеров

Стоимость Высокая стоимость инсталляции, развертывание — большой и трудоемкий процесс

Изолируемость Вручную

Сloud Spark

Масштабирование По клику, встроенные инструменты автоматического масштабирования

Стоимость Снижение затрат за счет возможности уйти в "сон" и автоматического масштабирования в обе стороны.

Изолируемость Доступна по клику за счет контейнеризации и Kubernetes

Участвовать в бете

Cloud Spark оптимально подходит для работы с ML за счет встроенной масштабируемой библиотеки машинного обучения MLlib

Простое использование

Библиотека адаптирована для Java, Scala, Python и R. MLlib вписывается в API-интерфейсы Spark и взаимодействует с NumPy в Python и библиотеками R.

Участвовать в бете

Преимущества Cloud Spark

Преднастроенный и готовый к использованию сервис. Пользователи получают возможность быстро развернуть кластер Spark внутри Kubernetes.

Docker Registry из коробки. При этом Docker Registry содержит предсобранный образ для решения типовых задач при работе со Spark.

Автомасштабирование кластера. Можно задать время, которое кластер будет "жить" при отсутствии рабочих нагрузок. Если нагрузка не появится, для экономии ресурсов кластер перейдет в спящий режим или удалится.

Администрирование, обновление версий – на стороне провайдера.

Доступен Spark History Server, интегрированный с S3 и системой авторизации облака.

Клиентская Python библиотека для работы со Spark из любого окружения, в том числе JupyterHub, одного из компонентов Cloud ML Platform.

Интеграция Spark History Server с S3 для хранения и работы с логами сервиса.

Интеграция с S3 для загрузки внешних зависимостей и дополнительных файлов, необходимых для работы Spark-приложений.

Встроенный сервис идентификации и разграничения прав доступа к Cloud Spark на основе токенов.

Участвовать в бете

FAQ

Нужно ли мне разбираться в Kubernetes для работы с Cloud Spark?

Мы проделали большую работу, чтобы абстрагировать от вас сложность Kubernetes, поэтому навыки работы с Kubernetes не требуются. Кроме того, мы написали удобную Python Client-библиотеку для сервиса, которая позволяет управлять Cloud Spark из любого Python окружения.

Должен ли я использовать kubectl для запуска приложений в Cloud Spark и управления кластером?

Вам не потребуется kubectl или другие инструменты для управления кластером Kubernetes. Запуск приложений и типовые сценарии покрываются Python Client-библиотекой, которую мы предоставляем вместе с сервисом Cloud Spark.

Как научиться работе с Cloud Spark?

В сервисе Cloud ML Platform в директории tutorials доступен обучающий Jupyter Notebook, который позволяет запустить свое первое приложение в Cloud Spark и научиться основам работы с сервисом Также доступна публичная документация, где разбираются концепции, сценарии работы с Cloud Spark.

Чем отличается Cloud Spark от обычного Spark, например, в составе Hadoop кластера?

Cloud Spark работает в K8s, то есть вы получаете быстрое автомасштабирование кластера Spark. Можно создать кластер, скажем, из одной master node и одной worker node, а потом под нагрузкой, если вы запросите больше executors для Spark приложения, кластер автоматически масштабируется за несколько минут. При этом после завершения рабочей нагрузки, кластер вернется в изначальное состояние.

Должен ли я собрать свой Docker образ для начала работы с Cloud Spark k8s?

Cloud Spark поставляется с Docker Registry от VK Cloud, который содержит предсобранный нами образ, позволяющий решить большинство задач. Также, если необходимо, вы можете собрать свой образ, загрузить его в Docker Registry, который идет в комплекте с кластером Spark, и далее использовать свой образ для запуска приложений.