Обновлена 31 октября 2023 г. в 06:09

О сервисе^Beta

Apache Spark — ядро для обработки больших данных. Оно состоит из API-интерфейсов на Java, Scala, Python и R, а также инструментов обработки Spark SQL для SQL, pandas API, MLlib для машинного обучения, GraphX для обработки графиков и Structured Streaming для потоковой обработки. Чаще всего Spark используется в составе Hadoop-кластера.

Cloud Spark — решение на базе Apache Spark Operator и PaaS Kubernetes от VK Cloud. Оно позволяет развернуть Spark внутри Kubernetes с помощью образа из Docker Registry, без использования Hadoop-кластера.

Для каких задач подходит сервис

Распределенная обработка больших данных.
Чтение данных из объектного хранилища с их дальнейшим экспортом в БД для обработки (ClickHouse / Greenplum / PostgreSQL). Также возможна передача данных из БД в объектное хранилище.
Распределенное обучение ML-моделей с использованием больших данных.
Графовые вычисления с применением компонента GraphX.

Возможности сервиса

Развертывание кластера Spark внутри Kubernetes.
Автоматическая настройка master-узлов разворачиваемых кластеров.
Подключение заранее собранного образа Spark через Docker Registry.
Горизонтальное и вертикальное масштабирование кластера с поддержкой автомасштабирования.
Разграничение доступов с помощью токенов и ролевой модели.
Автоудаление или перевод кластера в спящий режим по расписанию.
Управление сервисом с помощью API.

Взаимодействие компонентов сервиса

Не нашли ответа?Напишите нам

Политика конфиденциальности

О сервисеBeta

Для каких задач подходит сервис

Возможности сервиса

Взаимодействие компонентов сервиса

О сервисе^Beta