VK Cloud logo
Обновлена 31 октября 2023 г. в 06:09

О сервисеBeta

Apache Spark — ядро для обработки больших данных. Оно состоит из API-интерфейсов на Java, Scala, Python и R, а также инструментов обработки Spark SQL для SQL, pandas API, MLlib для машинного обучения, GraphX для обработки графиков и Structured Streaming для потоковой обработки. Чаще всего Spark используется в составе Hadoop-кластера.

Cloud Spark — решение на базе Apache Spark Operator и PaaS Kubernetes от VK Cloud. Оно позволяет развернуть Spark внутри Kubernetes с помощью образа из Docker Registry, без использования Hadoop-кластера.

Для каких задач подходит сервис

  • Распределенная обработка больших данных.
  • Чтение данных из объектного хранилища с их дальнейшим экспортом в БД для обработки (ClickHouse / Greenplum / PostgreSQL). Также возможна передача данных из БД в объектное хранилище.
  • Распределенное обучение ML-моделей с использованием больших данных.
  • Графовые вычисления с применением компонента GraphX.

Возможности сервиса

  • Развертывание кластера Spark внутри Kubernetes.
  • Автоматическая настройка master-узлов разворачиваемых кластеров.
  • Подключение заранее собранного образа Spark через Docker Registry.
  • Горизонтальное и вертикальное масштабирование кластера с поддержкой автомасштабирования.
  • Разграничение доступов с помощью токенов и ролевой модели.
  • Автоудаление или перевод кластера в спящий режим по расписанию.
  • Управление сервисом с помощью API.

Взаимодействие компонентов сервиса