VK Cloud

Cloud Spark

Сервис для распределенной обработки данных любого объема

Решайте задачи обработки больших массивов данных в несколько кликов с помощью удобного сервиса на основе инструментов с открытым исходным кодом

operation_outline_28.svg
Cloud Spark – это гибко масштабируемый сервис на основе Kubernetes и Apache Spark. В несколько кликов вы можете подключить кластеры Spark в Kubernetes для распределенной пакетной и потоковой обработки данных, работы с ML и аналитикой.
square_4_outline_28.svg
Сервис обеспечивает быстрое выполнение аналитических запросов к данным любого объема благодаря кэшированию в памяти и оптимизированному исполнению запросов.
  • Администрирование Cloud Spark на стороне VK Cloud. Вы получаете доступ к готовым кластерам на базе Kubernetes. 
  • Автоматическое масштабирование Kubernetes позволяет экономить до 60% стоимости вычислительных ресурсов. 
  • Оплата сервиса Cloud Spark по модели Pay as you go – только за потребляемые ресурсы.
  • Инфраструктура VK Cloud аттестована по 152-ФЗ (УЗ-1).  ЦОД расположены в РФ.

Сценарии использования Cloud Spark

  • include_outline_28.svg

    Распределенная потоковая и пакетная обработка данных из разных источников

    За счет встроенных коннекторов Cloud Spark работает на чтение и запись с большими объемами данных из разных источников. Например, Clickhouse, Kafka и MongoDB.
  • search_outline_28.svg

    SQL‑аналитика

    Сервис позволяет выполнять аналитические запросы ANSI SQL в режиме, близком к реальному времени.
  • share_external_outline_28 Android.svg

    Машинное обучение

    Поддержка масштабируемой библиотеки машинного обучения MLlib, которая включает популярные алгоритмы, средства подготовки данных к моделированию, а также алгебраические и статистические функции.
  • magnifier_plus_28.svg

    Задачи Data Science

    Выполнение разведочного анализа данных (EDA) на данных петабайтного масштаба без сокращения объема анализируемых данных.

Сервис реализован на базе Managed Kubernetes от VK Cloud и Apache Spark

spark_logo.svg
Apache Spark – фреймворк с открытым исходным кодом для распределенной обработки неструктурированных и слабоструктурированных данных. Проект активно разрабатывается сообществом и Apache.
kubernetes_logo.svg
Cloud Containers – сервис VK Cloud для запуска готовых кластеров Kubernetes в облаке. Сервис соответствует стандартам Cloud Native Computing Foundation (CNCF) по Certified Kubernetes Conformance Program.

Cloud Spark упрощает и ускоряет обработку данных по сравнению с традиционной инсталляцией Spark, развернутой в Hadoop

Spark в Hadoop

Spark в Hadoop Сложный и длительный процесс с участием дата-инженеров

Стоимость Высокая стоимость инсталляции, развертывание — большой и трудоемкий процесс

Изолируемость Вручную

Сloud Spark

Масштабирование По клику, встроенные инструменты автоматического масштабирования

Стоимость Снижение затрат за счет возможности уйти в "сон" и автоматического масштабирования в обе стороны.

Изолируемость Доступна по клику за счет контейнеризации и Kubernetes

Cloud Spark оптимально подходит для работы с ML за счет встроенной масштабируемой библиотеки машинного обучения MLlib

spark_ml_img_1.png

Простое использование

Библиотека адаптирована для Java, Scala, Python и R. MLlib вписывается в API-интерфейсы Spark и взаимодействует с NumPy в Python и библиотеками R.

Преимущества Cloud Spark

spark_adv_img_1.png

Преднастроенный и готовый к использованию сервис. Пользователи получают возможность быстро развернуть кластер Spark внутри Kubernetes.

Docker Registry из коробки. При этом Docker Registry содержит предсобранный образ для решения типовых задач при работе со Spark.

Автомасштабирование кластера. Можно задать время, которое кластер будет "жить" при отсутствии рабочих нагрузок. Если нагрузка не появится, для экономии ресурсов кластер перейдет в спящий режим или удалится.

spark_adv_img_2.png

Администрирование, обновление версий – на стороне провайдера.

Доступен Spark History Server, интегрированный с S3 и системой авторизации облака.

Клиентская Python библиотека для работы со Spark из любого окружения, в том числе JupyterHub, одного из компонентов Cloud ML Platform.

Интеграция Spark History Server с S3 для хранения и работы с логами сервиса.

Интеграция с S3 для загрузки внешних зависимостей и дополнительных файлов, необходимых для работы Spark-приложений.

spark_adv_img_3.png

Встроенный сервис идентификации и разграничения прав доступа к Cloud Spark на основе токенов.

FAQ

Нужно ли мне разбираться в Kubernetes для работы с Cloud Spark?

Мы проделали большую работу, чтобы абстрагировать от вас сложность Kubernetes, поэтому навыки работы с Kubernetes не требуются. Кроме того, мы написали удобную Python Client-библиотеку для сервиса, которая позволяет управлять Cloud Spark из любого Python окружения.


Должен ли я использовать kubectl для запуска приложений в Cloud Spark и управления кластером?

Вам не потребуется kubectl или другие инструменты для управления кластером Kubernetes. Запуск приложений и типовые сценарии покрываются Python Client-библиотекой, которую мы предоставляем вместе с сервисом Cloud Spark.


Как научиться работе с Cloud Spark?

В сервисе Cloud ML Platform в директории tutorials доступен обучающий Jupyter Notebook, который позволяет запустить свое первое приложение в Cloud Spark и научиться основам работы с сервисом Также доступна публичная документация, где разбираются концепции, сценарии работы с Cloud Spark.


Чем отличается Cloud Spark от обычного Spark, например, в составе Hadoop кластера?

Cloud Spark работает в K8s, то есть вы получаете быстрое автомасштабирование кластера Spark. Можно создать кластер, скажем, из одной master node и одной worker node, а потом под нагрузкой, если вы запросите больше executors для Spark приложения, кластер автоматически масштабируется за несколько минут. При этом после завершения рабочей нагрузки, кластер вернется в изначальное состояние.


Должен ли я собрать свой Docker образ для начала работы с Cloud Spark k8s?

Cloud Spark поставляется с Docker Registry от VK Cloud, который содержит предсобранный нами образ, позволяющий решить большинство задач. Также, если необходимо, вы можете собрать свой образ, загрузить его в Docker Registry, который идет в комплекте с кластером Spark, и далее использовать свой образ для запуска приложений.


Как запустить своё первое приложение в Cloud Spark?

Для этой задачи мы предоставляем Python Client библиотеку, которая позволяет запустить приложение несколькими способами.

Документация

Здесь есть ответы на большинство вопросов по настройке сервисов
Вся документация

Не нашли ответ на свой вопрос?

Задайте его нам на портале поддержки, и мы оперативно ответим
Задать вопрос

Нам доверяют свой бизнес

У нас есть Сloud-технологии и сервисы, которые помогают компаниям решать самые важные задачи.
iherb.svg
40+ готовых сервисов