По оценкам экспертов из Emergen Research, мировой рынок роботизированного озвучивания текста вырастет до 7+ млрд долларов к 2028 году. Разберем, как работает синтез речи и почему его удобнее развернуть в облаке.

Что такое синтез речи и какая от него польза

Автоматический синтез речи — это роботизированное озвучивание текста. Приложение получает на входе текст на известном языке, а затем читает его дикторским голосом.

У этой технологии несколько применений, например:

  • адаптация интерфейсов и сайтов для людей с плохим зрением. Синтез речи позволяет зачитывать элементы интерфейса вслух;
  • озвучка ключевых функций приложения, например команд в навигаторе;
  • преобразование текстовых скриптов для автоматизированного обзвона роботами;
  • озвучка текстовых упражнений и лекций в онлайн-образовании.

Нередко синтез работает вместе с распознаванием речи. Например, голосовые ассистенты Siri, Cortana, Alexa и другие объединяют в себе автоматический анализ и синтез звучащей речи: превращают поток речи в текст, вычленяют в нем запрос, а затем зачитывают вслух ответ. Или иронизируют — как повезет.

Как работает речевой синтезатор

Давайте разберемся с классификацией синтеза речи. Есть два основных подхода: конкатенативный и параметрический методы синтеза речи.

Конкатенативный метод. Он старше и проще. Его суть в склейке готовой фразы из маленьких кусочков, которые заранее озвучены живым диктором. Вот что делает такой синтезатор речи: разбирает полученный на входе текст на минимальные блоки, берет записанные кусочки и последовательно собирает из них целую фразу.

Главный плюс этого метода для конечного пользователя — скорость генерации речи. Робот переводит текст в аудиоформат практически мгновенно, с минимальной задержкой.

Главный минус такой системы синтеза речи — неприятный, безжизненный голос. В естественной речи, как правило, присутствует интонация, которая возникает из-за плавной смены высоты голоса внутри предложения, ускорения и замедления темпа речи и некоторых других параметров.

Чтобы понять, с какой интонацией произнести предложение, нужно корректно разобрать его смысл. Конкатенативный движок в этом не очень хорош, ведь он просто разбивает текст на фрагменты. Алгоритмы пытаются корректировать высоту тона, чтобы получалась, к примеру, интонация вопросительных предложений, но обычно это их предел. Поэтому озвученный текст такого электронного имитатора голосов часто не нравится пользователям.

Еще один минус конкатенативного движка в том, что для рендеринга нужны очень большие исходные наборы звуков. Причем если в этом наборе нет нужной записи, синтезировать недостающий звук просто не получится. Это особенно мешает при работе с тоновыми языками вроде китайского, где немного отличающихся звуков могут быть сотни тысяч. Но и в русском некоторые звуки в сочетании звучат не совсем стандартно, что может помешать озвучке.

Параметрический метод. Здесь текст также сначала разбирают на отдельные элементы. Но дальше в ход идут нейронные сети, которые оценивают, где в предложении поставить акцент, как приподнять высоту тона, где ускориться, а где замедлиться. Затем нейросети генерируют речь в виде волны звука и передают ее пользователю.

Параметрические движки синтеза устной речи лучше передают естественные интонации, их речь звучит плавнее, с естественной скоростью и без резких прерываний или непривычных уху звуков.

Но чтобы добиться такой естественности, нужны серьезные вычислительные мощности. По этой причине скорость озвучки у параметрических движков раньше была заметно ниже. Это основной недостаток автоматического синтеза речи в таких движках. Фактически еще не так давно разработчикам приходилось выбирать между скоростью работы и качеством звучания. Но развитие ИИ и облачных технологий позволило параметрическим движкам работать значительно быстрее.

Почему движки синтеза голоса переносят в облако

Систему синтеза речи можно купить как коробочный продукт и развернуть на собственных серверах. Но в этом случае потребуются серьезные вычислительные мощности и много компетентных специалистов в штате. А стоимость лицензий с учетом платных обновлений может оказаться очень высокой.

Альтернативой может стать облачное решение — арендованный в облаке готовый инструмент для синтеза речи. В таком случае не нужно строить свою инфраструктуру и заниматься обслуживанием решения — достаточно просто интегрировать облачную систему со своим приложением. 

У облака есть и еще один плюс. Современные движки синтеза речи активно используют технологии самообучения: чем больше текста они перерабатывают, тем лучше справляются с озвучкой. В облаке движок учится на текстах тысяч пользователей и постоянно обновляется, а значит, качество озвучки растет быстрее, чем у решения на собственном железе.

Выше мы уже упомянули, что параметрические движки синтеза речи, как правило, уступают конкатенативным в скорости работы. Однако в последние годы ситуация меняется. Во многом это заслуга генеративно-состязательных нейросетей (generative adversarial network, GAN). В частности, технология HiFi-GAN дает существенный прирост по скорости работы относительно других параметрических технологий. При этом, по оценкам асессоров, качество синтеза сохраняется близким к естественной речи.

Наша собственная технология синтеза речи Cloud Voice использует модели на базе HiFi-GAN и доступна в облаке. Таким образом, пользователи этого синтезатора речи получают не только высокое качество озвучки текста, но и быструю реакцию самого движка — человеческий голос + естественную скорость речи. Для разработчиков, которые хотят встроить синтез речи в свои приложения, мы подготовили подробную документацию.