Cloud Voice

Платформа распознавания и синтеза речи на базе машинного обучения

Речевые технологии для бизнеса

Сервисы распознавания речи и генератора голоса по тексту помогут вам проанализировать звонки клиентов или добавить голосовое управление к приложению

Распознавание речи

Voice ASR (Automatic Speech Recognition) — автоматическое распознавание речи

Перевод речи в текст
Загрузите файл с записью голоса и быстро получите результат в виде текстового файла
Понятные расшифровки
Voice ASR экономит время на редактирование: сервис автоматически разобьет текст на предложения и расставит знаки

Синтез речи

Voice TTS (Text-to-speech) — генератор естественной речи

Естественное звучание речи
Благодаря технологиям машинного обучения голос похож на естественную речь человека
Любой язык разработки
Единый API, который не зависит от платформы и языка разработки

Попробовать

Преимущества голосовой платформы VK Cloud

Стабильная и протестированная технология

Сервис построен с применением технологий знакомого пользователям голосового помощника Маруся. Теперь вы можете использовать его возможности для вашего бизнеса: наложите Cloud Voice на необходимую бизнес-логику и интегрируйте в ваше приложение или сервис

Постоянное улучшение качества

Качество сервиса постоянно улучшается. Модели машинного обучения в основе Voice постоянно дообучаются на новых данных, а значит, качество распознавания и синтеза речи улучшается. Вам не нужно что-то обновлять, вы получаете все улучшения автоматически

Распознавание аудиофайлов и потокового аудио

Сервис умеет работать как с отдельными аудиофайлами, так и с потоковым аудио. Благодаря этому он подходит для широкого круга задач: вы можете добавить в приложение голосовые команды, интегрировать голосового помощника, контролировать качество обработки звонков службой поддержки или автоматизировать работу колл-центра

Чистое звучание

На платформе доступны мужские и женские голоса. Для разработки голосов мы используем студийные записи профессиональных дикторов: это гарантирует чистое звучание и выразительную речь

Если вы хотите узнать больше о возможностях сервиса, оставьте заявку на консультацию

Сценарии использования

Технологии распознавания голоса и синтеза речи полезны компаниям в разных отраслях

Автоматизировать работу колл-центра

Сервис работает с потоковым аудио, позволяя распознавать речь в реальном времени. Он мгновенно расшифрует запрос пользователя и передаст текст в приложение с вашей бизнес-логикой. Вместе с синтезом речи это позволит создать цифрового сотрудника колл- центра

Привлечь в приложение пользователей голосовым управлением

Добавьте к своему мобильному приложению голосовые команды, например, «Убавь громкость», «Покажи историю моих покупок» или «Повтори прошлый заказ»

Озвучить контент на сайте или в приложении

Иногда у пользователей нет времени читать новости или статьи, но они готовы их слушать за рулем или на тренировке. Добавьте в ваше приложение или сайт автоматическое озвучивание текста и другого контента, чтобы увеличить охват

Адаптировать сервис для людей с ограниченными возможностями

Сделайте ваш сервис доступным для слабовидящих людей. Добавьте голосовое управление, подсказки и воспроизведение текста в речь

Повысить качество работы службы поддержки

Менеджерам больше не нужно слушать записи звонков, чтобы оценить работу службы поддержки. Сервис автоматически расшифровывает записи разговоров, и вы можете извлекать из них нужную информацию: оценивать качество работы операторов, отслеживать использование нецензурной лексики и общую тональность общения

Отслеживать отношение к бренду

Автоматически отслеживайте отношение к бренду, собирайте обратную связь и обрабатывайте частые запросы пользователей с помощью анализа упоминаний компании, аудио и видеоотзывов

Любые сценарии использования сервиса

Если вам нужна помощь в реализации сценариев использования сервиса, оставьте заявку. Наши эксперты помогут разработать необходимую бизнес-логику и интегрировать ее в ваше приложение или сервис.

Тестировать

Сервис оплачивается по факту использования

Вы платите только за количество символов озвученного текста или количество распознанных минут аудио

Попробуйте наши сервисы

После активации аккаунта мы свяжемся с вами и начислим 3 000 рублей на ваш счет VK Cloud, чтобы вы смогли протестировать сервис в течение 60 дней

Тестировать

FAQ

Как можно протестировать технологию?

Зарегистрируйтесь на платформе VK Cloud и получите бонусные рубли после полной верификации аккаунта. Их вполне хватит для тестирования сервиса.

Как начать работать с Cloud Voice?

Нужно войти в аккаунт платформы VK Cloud, в левом меню выбрать сервис Cloud ML Platform и вкладку Voice API. Затем можно распознавать и синтезировать голос с помощью API. Документацию и примеры использования можно найти в разделе «Методы API».

Какие аудиоформаты поддерживаются для голосового распознавания?

PCM (L16, WAV, AIFF, AU, PCM), OPUS (OGG, OPUS), MP3.

Какие преимущества использования речевых технологий именно в облаке?

Технологии распознавания голоса и синтеза речи требуют значительных вычислительных ресурсов. Если использовать распознавание речи прямо на устройствах пользователей (мобильные телефоны и планшеты), то для этого придется сохранять модель внутри приложения, и на слабых устройствах это будет работать медленно.
Rest API Voice ASR и Voice TTS, который не зависит от платформы и языка разработки.
Облачная платформа постоянно улучшается, и пользователям не нужно обновлять свои приложения, чтобы получить доступ к новым функциям и повышению качества распознавания (cloud speech to text).

Я не умею программировать. Могу ли я воспользоваться сервисом?

На текущий момент технологию можно использовать только через API-интерфейсы. В будущем мы разработаем графический интерфейс, чтобы сервисом могли пользоваться люди без навыков программирования.

Где будет сохранен результат?

Сервис возвращает распознанный или озвученный текст в том же запросе, в котором вы к нему обращаетесь.

Есть ли у сервиса какие-то ограничения?

Сейчас поддерживается только русский язык (speech recognition Russian), максимальная продолжительность аудиофайла для распознавания речи — 5 минут. Если вам нужно распознавание длинных аудиозаписей на русском языке —