Человек или бот: как создают того, кто с вами говорит по телефону

Бот в контакт-центре умеет выполнять много задач: подтверждать запись, напоминать о доставке, рассказывать о времени работы компании и так далее. Чтобы озвучить робота, у бизнеса, как правило, есть два варианта: записать диктора, но тогда сложно персонализировать сообщения, либо использовать синтез речи, но в этом случае бот будет звучать менее естественно. А как показывают опросы, синтетическая речь — одна из причин, по которым пользователям не нравится разговаривать с роботами. В Just AI получилось решить эту проблему с помощью гибридного синтеза. Александр Чернин, Product Owner Just AI, рассказывает про технологию подробнее.

Какие есть способы озвучить бота 

Есть два основных способа озвучить бота: использовать синтез речи или записать реплики голосом диктора. В первом случае получится приятная, правильная, но чаще всего безэмоциональная озвучка, во втором — живая, естественная речь. Оба способа имеют право на жизнь. Например, если голосовой помощник изначально позиционируется как робот, то немного механическая речь не будет восприниматься пользователями негативно. Если стоит задача — сделать из бота полноценного сотрудника колл-центра, то компании рациональнее использовать заранее записанную речь для обработки вопросов. 

Один из самых известных методов синтеза речи даже среди не-программистов — TTS. Компьютер просто читает и озвучивает текст. Яркий пример — синтез Speech Services by Google, который можно услышать в переводчике Google Translate. Русскую речь сервиса очень легко отличить от естественной, в чем и заключается основная проблема такого синтеза. Чтобы расставить нужные акценты, используют SSML — разметку синтеза речи. Но даже с ней сложно добиться звучания, как у профессионального диктора. Поэтому мы стали разрабатывать качественную альтернативу. 

Зачем нужен синтез речи с переменными 

Бизнес активно использует возможности голосовых ботов и стремится сделать их речь более приятной и персонализированной по отношению к клиентам. Личное обращение повышает вовлеченность и лояльность: 70% компаний, использующих расширенную персонализацию, получили 200% ROI и более от своих усилий. 

Чтобы сделать голос бота реалистичным,  компании записывают голос диктора, актера или оператора контакт-центра. Минус в том, что все реплики получаются статические. Это подойдет, например, для инструкции по отмене заказа или информирования о текущих акциях. Но в сообщениях бизнеса много меняющихся данных — переменных. 

Чтобы сделать голос бота реалистичным,  компании записывают голос диктора, актера или оператора контакт-центра. Минус в том, что все реплики получаются статические.

Например, для подтверждения приема в клинике: ФИО пациента, ФИО врача, дата и время приема. В кейсе доставки: ФИО клиента, номер заказа и его состав, сумма и время доставки. В каждую запись нужно подставлять индивидуальные параметры клиента или его запроса. И тогда в ход идут склейки файлов, миксы аудио или просто роботизированная озвучка. 

Суть склейки заключается в том, что создаются «аппликации» из многочисленных записей диктора. В случае доставки нужно записать около 1,5 тыс. часто встречающихся улиц, названия городов, номера домов и квартир. Это очень трудоемкая задача, которая требует от диктора значительных усилий и временных затрат. После записи аудиофайлы нужно склеить в правильной последовательности. Профессиональный звукорежиссер может сделать плавные переходы между склейками и расставить паузы, но места стыков все равно будут слышны, и большие объемы исходных данных делают такую работу неподъемной. Мы пробовали такой вариант, но поняли, что он не подходит для решения сложных задач. 

Нам известно, что некоторые компании пытаются найти диктора с голосом, похожим на стандартную озвучку SpeechKit от «Яндекса» или Google Speech. Но в этом случае вставки так же слышны. 

Мы пробовали интегрировать в дикторские записи TTS. То есть мы не записывали заранее все названия улиц и городов, а генерировали нужную фразу с помощью TTS на базе голоса диктора и вставляли ее в предзаписанную дикторскую реплику. В итоге получалась смесь эмоциональной, живой речи человека и робота. 

Чтобы мы ни пробовали из различных инструментов, у нас не получился хороший результат. В итоге мы пришли к разработке собственного алгоритма, который назвали гибридным синтезом. Эта технология позволяет быстро менять фразы в дикторских записях для голосового бота, достаточно передать алгоритму замену. При этом синтезированная речь копирует интонацию и эмоции диктора, звучит естественно и не выделяется из контекста. Таким образом можно озвучивать любые переменные, которых не было в изначальной дикторской записи, а также тестировать новые сценарии. 

https://hightech.fm/wp-content/uploads/2022/07/sintez-tts.wav
TTS

Как работает гибридный синтез 

Первый этап — это работа с дикторами. Чтобы охватить разнообразие русского языка, нужно было записать 10 часов речи в профессиональной студии. Это фразы из книг, новостей и часто встречающиеся данные: числительные, имена, адреса и города. Так появляется достаточно данных для обучения, после чего уже можно приступать к созданию моделей гибридного синтеза для каждого диктора. 

Для каждого проекта роботизированного обзвона диктор записывает шаблоны фраз, например: «Здравствуйте, Сергей Петрович! Завтра мы доставим вам заказ по адресу улица Тверская, 3 с 14 до 18 часов. Вам будет удобно его принять?» Модель гибридного синтеза может обрабатывать такие задания, когда нужно заменить Сергея Петровича на Анну Васильевну, а адрес и время — на улицу Большая Зеленина, 24 с 10 до 14 часов. В итоге получается новая реплика с синтезированными переменными: «Здравствуйте, Анна Васильевна! Завтра мы доставим вам заказ по адресу улица Большая Зеленина, 24 с 10 до 14 часов. Вам будет удобно его принять?» Для каждого звонка по базе клиентов формируется и выполняется отдельное задание. 

https://hightech.fm/wp-content/uploads/2022/07/diktorskaja-zapis.wav
Дикторская запись

Высокое качество звучания достигается за счет того, что нейросеть использует интонации и эмоции диктора из примера. 

Как настроить гибридный синтез 

Мы предлагаем несколько готовых моделей гибридного синтеза с женскими и мужскими голосами. Вызовы шаблона работают на платформах JAICP и JAICF, вызовы из ботов, созданных в других сервисах, возможны по API. Настройка сценария с нуля занимает несколько часов. Одна синтезированная реплика стоит 12 копеек, озвучка шаблона для проекта — 3000 рублей за час работы диктора. 

Набор готовых голосов будет расширяться. Также есть вариант с использованием гибридного синтеза Just AI с созданием модели под индивидуально подобранного диктора или того, кто является официальным голосом компании.

https://hightech.fm/wp-content/uploads/2022/07/gibridnyj-sintez.wav
Гибридный синтез

Технология гибридного синтеза позволяет персонализировать IVR и роботизированные обзвоны с целями NPS-опросов, анкетирования, напоминаний, upsale и поддержки программ лояльности.


Читать далее:

Черная дыра в Галактике подтвердила правоту Эйнштейна. Главное

Космос разрушает кости и меняет их структуру: ученые не знают, как люди полетят на Марс

Астрономы нашли планеты, которые отличаются от Земли, но пригодны для жизни

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Ученые преодолели одно из ключевых препятствий для термоядерной энергетики
Наука
Телескоп «Джеймс Уэбб» показал детали космической Конской Головы
Космос
Ученые выяснили, как парниковые газы влияют на распространение болезней
COVID-19
Найдены доказательства необычной силы магнитного поля Земли в прошлом
Наука
Посмотрите, как быстро робот-гуманоид управляется с домашними задачами
Новости
Ядро атома впервые возбудили лазером: это открывает сверхточные измерения времени
Наука
Чек-лист: как обеспечить информационную безопасность маркетплейса
Мнения
Экспериментальный лазер передал данные с зонда «Психея» на расстоянии 226 млн километров
Космос
Посмотрите на самое близкое фото обломка ракеты в космосе
Космос
Ученые нашли следы древних ритуалов майя на благословение
Наука
В Китае появились батареи со сверхбыстрой зарядкой для электрокаров: запас хода составляет 1000 км
Новости
Найдены скрытые «дорожки для мертвых»: их обнаружили с помощью лидара
Наука
Беспилотные грузовики Evocargo начинают работу во «Внуково» в рамках эксперимента
Новости
«Человеческие нейронные сети потребляют около 20 Вт, а искусственные — сотни ватт»
Технологии
Ученые считают, что недалеко от Земли есть «живая» планета
Новости
Китай готов к автономным летающим такси: когда будут первые полеты
Новости
Посмотрите на сотни черных «пауков», которые заполонили Марс весной
Космос
Где похоронен Платон: ученые наконец-то нашли ответ
Наука
Почему мужчины умирают в России на 10 лет раньше женщин: в Минздраве назвали причину
Новости
Крошечный и тонкий экран отслеживает активность мозга во время операции
Новости