Мнения 7 июля 2022

Человек или бот: как создают того, кто с вами говорит по телефону

Далее

Бот в контакт-центре умеет выполнять много задач: подтверждать запись, напоминать о доставке, рассказывать о времени работы компании и так далее. Чтобы озвучить робота, у бизнеса, как правило, есть два варианта: записать диктора, но тогда сложно персонализировать сообщения, либо использовать синтез речи, но в этом случае бот будет звучать менее естественно. А как показывают опросы, синтетическая речь — одна из причин, по которым пользователям не нравится разговаривать с роботами. В Just AI получилось решить эту проблему с помощью гибридного синтеза. Александр Чернин, Product Owner Just AI, рассказывает про технологию подробнее.

Какие есть способы озвучить бота 

Есть два основных способа озвучить бота: использовать синтез речи или записать реплики голосом диктора. В первом случае получится приятная, правильная, но чаще всего безэмоциональная озвучка, во втором — живая, естественная речь. Оба способа имеют право на жизнь. Например, если голосовой помощник изначально позиционируется как робот, то немного механическая речь не будет восприниматься пользователями негативно. Если стоит задача — сделать из бота полноценного сотрудника колл-центра, то компании рациональнее использовать заранее записанную речь для обработки вопросов. 

Один из самых известных методов синтеза речи даже среди не-программистов — TTS. Компьютер просто читает и озвучивает текст. Яркий пример — синтез Speech Services by Google, который можно услышать в переводчике Google Translate. Русскую речь сервиса очень легко отличить от естественной, в чем и заключается основная проблема такого синтеза. Чтобы расставить нужные акценты, используют SSML — разметку синтеза речи. Но даже с ней сложно добиться звучания, как у профессионального диктора. Поэтому мы стали разрабатывать качественную альтернативу. 

Зачем нужен синтез речи с переменными 

Бизнес активно использует возможности голосовых ботов и стремится сделать их речь более приятной и персонализированной по отношению к клиентам. Личное обращение повышает вовлеченность и лояльность: 70% компаний, использующих расширенную персонализацию, получили 200% ROI и более от своих усилий. 

Чтобы сделать голос бота реалистичным,  компании записывают голос диктора, актера или оператора контакт-центра. Минус в том, что все реплики получаются статические. Это подойдет, например, для инструкции по отмене заказа или информирования о текущих акциях. Но в сообщениях бизнеса много меняющихся данных — переменных. 

Чтобы сделать голос бота реалистичным,  компании записывают голос диктора, актера или оператора контакт-центра. Минус в том, что все реплики получаются статические.

Например, для подтверждения приема в клинике: ФИО пациента, ФИО врача, дата и время приема. В кейсе доставки: ФИО клиента, номер заказа и его состав, сумма и время доставки. В каждую запись нужно подставлять индивидуальные параметры клиента или его запроса. И тогда в ход идут склейки файлов, миксы аудио или просто роботизированная озвучка. 

Суть склейки заключается в том, что создаются «аппликации» из многочисленных записей диктора. В случае доставки нужно записать около 1,5 тыс. часто встречающихся улиц, названия городов, номера домов и квартир. Это очень трудоемкая задача, которая требует от диктора значительных усилий и временных затрат. После записи аудиофайлы нужно склеить в правильной последовательности. Профессиональный звукорежиссер может сделать плавные переходы между склейками и расставить паузы, но места стыков все равно будут слышны, и большие объемы исходных данных делают такую работу неподъемной. Мы пробовали такой вариант, но поняли, что он не подходит для решения сложных задач. 

Нам известно, что некоторые компании пытаются найти диктора с голосом, похожим на стандартную озвучку SpeechKit от «Яндекса» или Google Speech. Но в этом случае вставки так же слышны. 

Мы пробовали интегрировать в дикторские записи TTS. То есть мы не записывали заранее все названия улиц и городов, а генерировали нужную фразу с помощью TTS на базе голоса диктора и вставляли ее в предзаписанную дикторскую реплику. В итоге получалась смесь эмоциональной, живой речи человека и робота. 

Чтобы мы ни пробовали из различных инструментов, у нас не получился хороший результат. В итоге мы пришли к разработке собственного алгоритма, который назвали гибридным синтезом. Эта технология позволяет быстро менять фразы в дикторских записях для голосового бота, достаточно передать алгоритму замену. При этом синтезированная речь копирует интонацию и эмоции диктора, звучит естественно и не выделяется из контекста. Таким образом можно озвучивать любые переменные, которых не было в изначальной дикторской записи, а также тестировать новые сценарии. 

TTS

Как работает гибридный синтез 

Первый этап — это работа с дикторами. Чтобы охватить разнообразие русского языка, нужно было записать 10 часов речи в профессиональной студии. Это фразы из книг, новостей и часто встречающиеся данные: числительные, имена, адреса и города. Так появляется достаточно данных для обучения, после чего уже можно приступать к созданию моделей гибридного синтеза для каждого диктора. 

Для каждого проекта роботизированного обзвона диктор записывает шаблоны фраз, например: «Здравствуйте, Сергей Петрович! Завтра мы доставим вам заказ по адресу улица Тверская, 3 с 14 до 18 часов. Вам будет удобно его принять?» Модель гибридного синтеза может обрабатывать такие задания, когда нужно заменить Сергея Петровича на Анну Васильевну, а адрес и время — на улицу Большая Зеленина, 24 с 10 до 14 часов. В итоге получается новая реплика с синтезированными переменными: «Здравствуйте, Анна Васильевна! Завтра мы доставим вам заказ по адресу улица Большая Зеленина, 24 с 10 до 14 часов. Вам будет удобно его принять?» Для каждого звонка по базе клиентов формируется и выполняется отдельное задание. 

Дикторская запись

Высокое качество звучания достигается за счет того, что нейросеть использует интонации и эмоции диктора из примера. 

Как настроить гибридный синтез 

Мы предлагаем несколько готовых моделей гибридного синтеза с женскими и мужскими голосами. Вызовы шаблона работают на платформах JAICP и JAICF, вызовы из ботов, созданных в других сервисах, возможны по API. Настройка сценария с нуля занимает несколько часов. Одна синтезированная реплика стоит 12 копеек, озвучка шаблона для проекта — 3000 рублей за час работы диктора. 

Набор готовых голосов будет расширяться. Также есть вариант с использованием гибридного синтеза Just AI с созданием модели под индивидуально подобранного диктора или того, кто является официальным голосом компании.

Гибридный синтез

Технология гибридного синтеза позволяет персонализировать IVR и роботизированные обзвоны с целями NPS-опросов, анкетирования, напоминаний, upsale и поддержки программ лояльности.


Читать далее:

Черная дыра в Галактике подтвердила правоту Эйнштейна. Главное

Космос разрушает кости и меняет их структуру: ученые не знают, как люди полетят на Марс

Астрономы нашли планеты, которые отличаются от Земли, но пригодны для жизни