VK Cloud logo
Обновлена 31 октября 2023 г. в 06:09

Синтез речи

Функция синтеза речи позволяет озвучивать строки текста. Чтобы синтезировать речь, воспользуйтесь POST- или GET-запросом в https://voice.mcs.mail.ru/tts.

Запрос

Для синтеза речи с помощью GET-запроса отправьте текст в параметре text.

Пример запроса:

curl -L --request GET \    --url 'https://voice.mcs.mail.ru/tts?text=<текст для озвучивания>' \    --output <имя файла>    --header 'Authorization: Bearer <токен доступа>'

Параметры запроса:

Параметр
Описание
Способ передачи
Допустимые значения
model_name
Название модели голоса
URL
katherine (или katherine-hifigan) — по умолчанию; maria (или maria-serious); pavel (или pavel-hifigan)
encoder
Тип энкодера
URL
pcm — по умолчанию; mp3; opus
tempo
Скорость речи
URL
от 0.75 до 1.75
text
Текст для озвучивания (GET-запрос)
URL
До 2000 символов в формате UTF-8
<текст для озвучивания>
Текст для озвучивания (POST-запрос)
Опция data
До 2000 символов в формате UTF-8
<имя файла>
Имя аудиофайла с расширением
Опция output
<токен доступа>
Токен доступа для авторизации. Подробнее об авторизации в разделе Получение токена доступа
Опция header

Ограничения

Передаваемый в запросе текст должен быть в кодировке UTF-8 и содержать не больше 20000 символов.

Ответ

В ответе содержится аудиофайл выбранного формата. По умолчанию создается PCM-файл.

Коды ошибок

Код
Статус
Описание
4048
400
Некорректный токен
4049
400
Неактивный проект VK Cloud
4051
14001
Некорректный формат текста

Смотрите также

Описание сервиса Cloud Voice

Получение токена доступа

Распознавание речи