Мнения 7 июля 2022

Человек или бот: как создают того, кто с вами говорит по телефону

Бот в контакт-центре умеет выполнять много задач: подтверждать запись, напоминать о доставке, рассказывать о времени работы компании и так далее. Чтобы озвучить робота, у бизнеса, как правило, есть два варианта: записать диктора, но тогда сложно персонализировать сообщения, либо использовать синтез речи, но в этом случае бот будет звучать менее естественно. А как показывают опросы, синтетическая речь — одна из причин, по которым пользователям не нравится разговаривать с роботами. В Just AI получилось решить эту проблему с помощью гибридного синтеза. Александр Чернин, Product Owner Just AI, рассказывает про технологию подробнее.

Какие есть способы озвучить бота

Есть два основных способа озвучить бота: использовать синтез речи или записать реплики голосом диктора. В первом случае получится приятная, правильная, но чаще всего безэмоциональная озвучка, во втором — живая, естественная речь. Оба способа имеют право на жизнь. Например, если голосовой помощник изначально позиционируется как робот, то немного механическая речь не будет восприниматься пользователями негативно. Если стоит задача — сделать из бота полноценного сотрудника колл-центра, то компании рациональнее использовать заранее записанную речь для обработки вопросов.

Один из самых известных методов синтеза речи даже среди не-программистов — TTS. Компьютер просто читает и озвучивает текст. Яркий пример — синтез Speech Services by Google, который можно услышать в переводчике Google Translate. Русскую речь сервиса очень легко отличить от естественной, в чем и заключается основная проблема такого синтеза. Чтобы расставить нужные акценты, используют SSML — разметку синтеза речи. Но даже с ней сложно добиться звучания, как у профессионального диктора. Поэтому мы стали разрабатывать качественную альтернативу.

Зачем нужен синтез речи с переменными

Бизнес активно использует возможности голосовых ботов и стремится сделать их речь более приятной и персонализированной по отношению к клиентам. Личное обращение повышает вовлеченность и лояльность: 70% компаний, использующих расширенную персонализацию, получили 200% ROI и более от своих усилий.

Чтобы сделать голос бота реалистичным, компании записывают голос диктора, актера или оператора контакт-центра. Минус в том, что все реплики получаются статические. Это подойдет, например, для инструкции по отмене заказа или информирования о текущих акциях. Но в сообщениях бизнеса много меняющихся данных — переменных.

Например, для подтверждения приема в клинике: ФИО пациента, ФИО врача, дата и время приема. В кейсе доставки: ФИО клиента, номер заказа и его состав, сумма и время доставки. В каждую запись нужно подставлять индивидуальные параметры клиента или его запроса. И тогда в ход идут склейки файлов, миксы аудио или просто роботизированная озвучка.

Суть склейки заключается в том, что создаются «аппликации» из многочисленных записей диктора. В случае доставки нужно записать около 1,5 тыс. часто встречающихся улиц, названия городов, номера домов и квартир. Это очень трудоемкая задача, которая требует от диктора значительных усилий и временных затрат. После записи аудиофайлы нужно склеить в правильной последовательности. Профессиональный звукорежиссер может сделать плавные переходы между склейками и расставить паузы, но места стыков все равно будут слышны, и большие объемы исходных данных делают такую работу неподъемной. Мы пробовали такой вариант, но поняли, что он не подходит для решения сложных задач.

Нам известно, что некоторые компании пытаются найти диктора с голосом, похожим на стандартную озвучку SpeechKit от «Яндекса» или Google Speech. Но в этом случае вставки так же слышны.

Мы пробовали интегрировать в дикторские записи TTS. То есть мы не записывали заранее все названия улиц и городов, а генерировали нужную фразу с помощью TTS на базе голоса диктора и вставляли ее в предзаписанную дикторскую реплику. В итоге получалась смесь эмоциональной, живой речи человека и робота.

Чтобы мы ни пробовали из различных инструментов, у нас не получился хороший результат. В итоге мы пришли к разработке собственного алгоритма, который назвали гибридным синтезом. Эта технология позволяет быстро менять фразы в дикторских записях для голосового бота, достаточно передать алгоритму замену. При этом синтезированная речь копирует интонацию и эмоции диктора, звучит естественно и не выделяется из контекста. Таким образом можно озвучивать любые переменные, которых не было в изначальной дикторской записи, а также тестировать новые сценарии.

TTS

Как работает гибридный синтез

Первый этап — это работа с дикторами. Чтобы охватить разнообразие русского языка, нужно было записать 10 часов речи в профессиональной студии. Это фразы из книг, новостей и часто встречающиеся данные: числительные, имена, адреса и города. Так появляется достаточно данных для обучения, после чего уже можно приступать к созданию моделей гибридного синтеза для каждого диктора.

Для каждого проекта роботизированного обзвона диктор записывает шаблоны фраз, например: «Здравствуйте, Сергей Петрович! Завтра мы доставим вам заказ по адресу улица Тверская, 3 с 14 до 18 часов. Вам будет удобно его принять?» Модель гибридного синтеза может обрабатывать такие задания, когда нужно заменить Сергея Петровича на Анну Васильевну, а адрес и время — на улицу Большая Зеленина, 24 с 10 до 14 часов. В итоге получается новая реплика с синтезированными переменными: «Здравствуйте, Анна Васильевна! Завтра мы доставим вам заказ по адресу улица Большая Зеленина, 24 с 10 до 14 часов. Вам будет удобно его принять?» Для каждого звонка по базе клиентов формируется и выполняется отдельное задание.

Дикторская запись

Высокое качество звучания достигается за счет того, что нейросеть использует интонации и эмоции диктора из примера.

Как настроить гибридный синтез

Мы предлагаем несколько готовых моделей гибридного синтеза с женскими и мужскими голосами. Вызовы шаблона работают на платформах JAICP и JAICF, вызовы из ботов, созданных в других сервисах, возможны по API. Настройка сценария с нуля занимает несколько часов. Одна синтезированная реплика стоит 12 копеек, озвучка шаблона для проекта — 3000 рублей за час работы диктора.

Набор готовых голосов будет расширяться. Также есть вариант с использованием гибридного синтеза Just AI с созданием модели под индивидуально подобранного диктора или того, кто является официальным голосом компании.

Гибридный синтез

Технология гибридного синтеза позволяет персонализировать IVR и роботизированные обзвоны с целями NPS-опросов, анкетирования, напоминаний, upsale и поддержки программ лояльности.

Читать далее:

Черная дыра в Галактике подтвердила правоту Эйнштейна. Главное

Космос разрушает кости и меняет их структуру: ученые не знают, как люди полетят на Марс

Астрономы нашли планеты, которые отличаются от Земли, но пригодны для жизни

Боты

Голосовые боты

синтез речи

Новости СМИ2

Читать ещё

Рубрики

Популярные теги

Последние материалы

Человек или бот: как создают того, кто с вами говорит по телефону

Какие есть способы озвучить бота

Зачем нужен синтез речи с переменными

Как работает гибридный синтез

Как настроить гибридный синтез

Рубрики

Популярные теги

Последние материалы

Подписка на дайджест

Человек или бот: как создают того, кто с вами говорит по телефону

Какие есть способы озвучить бота

Зачем нужен синтез речи с переменными

Как работает гибридный синтез

Как настроить гибридный синтез

Читайте «Хайтек» в