VK Cloud logo
Обновлена 20 декабря 2023 г. в 05:58

Создание кластера SparkBeta

  1. Перейдите в личный кабинет VK Cloud.

  2. Выберите проект, где нужно создать кластер.

  3. Перейдите в раздел ML Platform → Spark в k8s.

  4. Перейдите на вкладку Кластеры.

  5. Нажмите кнопку Добавить кластер или Добавить.

  6. На шаге «Создание кластера»:

    1. Задайте общие настройки:

      • Имя кластера: может содержать только латинские буквы, цифры и символы ., -, _.

      • Зона доступности: зона доступности для кластера.

      • Сеть: сеть и подсеть, в которых будут размещаться узлы кластера. Если нужных сети и подсети нет в списке, создайте их.

    2. Задайте настройки worker-узлов в блоке Настройки worker-нод:

      • Категория виртуальной машины: выберите категорию предустановленных конфигураций ВМ. Подробнее в обзоре сервиса Cloud Servers.

      • Тип виртуальной машины: шаблон конфигурации для worker-узлов.

        Шаблоны с высокопроизводительными CPU доступны по запросу в службу поддержки. Чтобы воспользоваться этими шаблонами, выберите опцию Показывать только высокопроизводительные CPU.

      • Включить автомасштабирование: выберите эту опцию, чтобы кластер автоматически масштабировал количество worker-узлов в зависимости от нагрузки.

        Затем задайте минимальное и максимальное количество узлов, в пределах которого допустимо масштабирование. Допустимый диапазон значений: от 1 до 100.

        По умолчанию опция выключена. Кластер с выключенным автомасштабированием будет содержать один worker-узел.

    3. Задайте дополнительные настройки:

      • Выбор registry: реестр Docker, образы из которого будут использоваться при запуске заданий Spark.

        Если нужного реестра нет в списке:

        1. Выберите пункт Создать новый registry.

          Реестр будет размещен на выделенной виртуальной машине, которая не входит в состав кластера и тарифицируется отдельно.

        2. Укажите реквизиты для доступа к реестру:

          • Имя пользователя registry: может содержать только латинские буквы, цифры и символы ., -, _.

          • Пароль пользователя registry: можно придумать пароль или сгенерировать его.

            Требования к паролю:

            • допустимо использовать только заглавные и строчные латинские буквы, цифры, символы из диапазона !#$%&()*+,.:;<=>?@[]^_{|}~-;
            • пароль должен содержать хотя бы одну букву латинского алфавита и хотя бы одну цифру.
      • Ключ виртуальной машины: ключ, который используется для подключения к узлам кластера по SSH. Выберите существующий ключ или создайте новый.

      • Режим работы кластера: определяет конфигурацию master-узла.

        • DEV: для master-узла будет использоваться виртуальная машина с 2 vCPU и 4 GB RAM.
        • PROD: для master-узла будет использоваться виртуальная машина с 6 vCPU и 6 GB RAM.
    4. Выберите опции, влияющие на жизненный цикл неактивного кластера.

      Если в кластере нет запущенных заданий Spark, он становится неактивным. Перечисленные ниже опции определяют жизненный цикл именно такого кластера. Кластер возвращается в активное состояние при запуске нового задания Spark.

      Доступные опции:

      • Уничтожение после неактивности: когда заданное время истечет, неактивный кластер будет автоматически удален.

        По умолчанию опция выключена, и кластер существует, пока не будет удален вручную. Опция полезна в кластерах, используемых для разовых задач.

      • Переход кластера в спящий режим: когда заданное время истечет, неактивный кластер перейдет в спящий режим. В этом режиме тарифицируются только диски узлов кластера, вычислительные ресурсы не тарифицируются.

        Кластер будет выведен из спящего режима, когда будет запущено новое задание Spark.

        По умолчанию опция выключена, и кластер работает, пока не будет удален, даже если в нем нет запущенных заданий Spark. Опция полезна, чтобы сэкономить вычислительные ресурсы при длительных перерывах между запусками заданий Spark.

    5. Нажмите кнопку Следующий шаг.

  7. На шаге «Настройки Spark»:

    1. (Опционально) Задайте продвинутые настройки Spark. Эти настройки будут использоваться всеми заданиями Spark, которые будут запускаться в кластере.

      Можно настроить:

      • Spark configuration: перечень свойств (properties), отвечающих за конфигурацию Spark.
      • Переменные окружения: перечень переменных среды окружения (environment variables) для Spark.

      Каждое свойство или переменная должны размещаться на отдельной строке в следующем формате:

      <имя свойства или переменной>: <значение>

      Описания свойств должны быть корректны с точки зрения синтаксиса YAML.

    2. Нажмите кнопку Создать кластер.

      Дождитесь завершения операции. Создание кластера может занять длительное время.