VK Cloud

Cloud Voice

Платформа распознавания и синтеза речи на базе машинного обучения

Рассчитать стоимость

Речевые технологии для бизнеса

Сервисы распознавания речи и генератора голоса по тексту помогут вам проанализировать звонки клиентов или добавить голосовое управление к приложению
1

Распознавание речи

Voice ASR (Automatic Speech Recognition) — автоматическое распознавание речи
  • Перевод речи в текст
    Загрузите файл с записью голоса и быстро получите результат в виде текстового файла
  • Понятные расшифровки
    Voice ASR экономит время на редактирование: сервис автоматически разобьет текст на предложения и расставит знаки
2

Синтез речи

Voice TTS (Text-to-speech) — генератор естественной речи
  • Естественное звучание речи
    Благодаря технологиям машинного обучения голос похож на естественную речь человека
  • Любой язык разработки
    Единый API, который не зависит от платформы и языка разработки

Преимущества голосовой платформы VK Cloud

voice-adv-img-1.png

Стабильная и протестированная технология

Сервис построен с применением технологий знакомого пользователям голосового помощника Маруся. Теперь вы можете использовать его возможности для вашего бизнеса: наложите Cloud Voice на необходимую бизнес-логику и интегрируйте в ваше приложение или сервис

voice-adv-img-2.png

Постоянное улучшение качества

Качество сервиса постоянно улучшается. Модели машинного обучения в основе Voice постоянно дообучаются на новых данных, а значит, качество распознавания и синтеза речи улучшается. Вам не нужно что-то обновлять, вы получаете все улучшения автоматически

voice-adv-img-3.png

Распознавание аудиофайлов и потокового аудио

Сервис умеет работать как с отдельными аудиофайлами, так и с потоковым аудио. Благодаря этому он подходит для широкого круга задач: вы можете добавить в приложение голосовые команды, интегрировать голосового помощника, контролировать качество обработки звонков службой поддержки или автоматизировать работу колл-центра

voice-adv-img-4.png

Чистое звучание

На платформе доступны мужские и женские голоса. Для разработки голосов мы используем студийные записи профессиональных дикторов: это гарантирует чистое звучание и выразительную речь

voice-consult-img.png

Если вы хотите узнать больше о возможностях сервиса, оставьте заявку на консультацию

Сценарии использования

Технологии распознавания голоса и синтеза речи полезны компаниям в разных отраслях
sync_outline_28.svg
Автоматизировать работу колл-центра
Сервис работает с потоковым аудио, позволяя распознавать речь в реальном времени. Он мгновенно расшифрует запрос пользователя и передаст текст в приложение с вашей бизнес-логикой. Вместе с синтезом речи это позволит создать цифрового сотрудника колл- центра
stop_marusia_28.svg
Привлечь в приложение пользователей голосовым управлением
Добавьте к своему мобильному приложению голосовые команды, например, «Убавь громкость», «Покажи историю моих покупок» или «Повтори прошлый заказ»
voice_outline_28.svg
Озвучить контент на сайте или в приложении
Иногда у пользователей нет времени читать новости или статьи, но они готовы их слушать за рулем или на тренировке. Добавьте в ваше приложение или сайт автоматическое озвучивание текста и другого контента, чтобы увеличить охват
voice_outline_28.svg
Адаптировать сервис для людей с ограниченными возможностями
Сделайте ваш сервис доступным для слабовидящих людей. Добавьте голосовое управление, подсказки и воспроизведение текста в речь
headphones_outline_28.svg
Повысить качество работы службы поддержки
Менеджерам больше не нужно слушать записи звонков, чтобы оценить работу службы поддержки. Сервис автоматически расшифровывает записи разговоров, и вы можете извлекать из них нужную информацию: оценивать качество работы операторов, отслеживать использование нецензурной лексики и общую тональность общения
asr_outline_28.svg
Отслеживать отношение к бренду
Автоматически отслеживайте отношение к бренду, собирайте обратную связь и обрабатывайте частые запросы пользователей с помощью анализа упоминаний компании, аудио и видеоотзывов
voice-consult-img-2.png

Любые сценарии использования сервиса

Если вам нужна помощь в реализации сценариев использования сервиса, оставьте заявку. Наши эксперты помогут разработать необходимую бизнес-логику и интегрировать ее в ваше приложение или сервис.

Сервис оплачивается по факту использования

Вы платите только за количество символов озвученного текста или количество распознанных минут аудио
voice-consult-img-3.png

Попробуйте наши сервисы

После активации аккаунта мы свяжемся с вами и начислим 3 000 рублей на ваш счет VK Cloud, чтобы вы смогли протестировать сервис в течение 60 дней

FAQ

Как можно протестировать технологию?

Зарегистрируйтесь на платформе VK Cloud и получите бонусные рубли после полной верификации аккаунта. Их вполне хватит для тестирования сервиса.


Как начать работать с Cloud Voice?

Нужно войти в аккаунт платформы VK Cloud, в левом меню выбрать сервис Cloud ML Platform и вкладку Voice API. Затем можно распознавать и синтезировать голос с помощью API. Документацию и примеры использования можно найти в разделе «Методы API».


Какие аудиоформаты поддерживаются для голосового распознавания?

PCM (L16, WAV, AIFF, AU, PCM), OPUS (OGG, OPUS), MP3.


Какие преимущества использования речевых технологий именно в облаке?
  1. Технологии распознавания голоса и синтеза речи требуют значительных вычислительных ресурсов. Если использовать распознавание речи прямо на устройствах пользователей (мобильные телефоны и планшеты), то для этого придется сохранять модель внутри приложения, и на слабых устройствах это будет работать медленно.
  2. Rest API Voice ASR и Voice TTS, который не зависит от платформы и языка разработки.
  3. Облачная платформа постоянно улучшается, и пользователям не нужно обновлять свои приложения, чтобы получить доступ к новым функциям и повышению качества распознавания (cloud speech to text).

Я не умею программировать. Могу ли я воспользоваться сервисом?

На текущий момент технологию можно использовать только через API-интерфейсы. В будущем мы разработаем графический интерфейс, чтобы сервисом могли пользоваться люди без навыков программирования.


Где будет сохранен результат?

Сервис возвращает распознанный или озвученный текст в том же запросе, в котором вы к нему обращаетесь.


Есть ли у сервиса какие-то ограничения?

Сейчас поддерживается только русский язык (speech recognition Russian), максимальная продолжительность аудиофайла для распознавания речи — 5 минут. Если вам нужно распознавание длинных аудиозаписей на русском языке —

Не нашли ответ на свой вопрос?

Задайте его нам на портале поддержки, и мы оперативно ответим
Задать вопрос

Нам доверяют свой бизнес

У нас есть Сloud-технологии и сервисы, которые помогают компаниям решать самые важные задачи.
iherb.svg
40+ готовых сервисов