Голосовые интерфейсы все глубже проникают в бизнес-процессы, и сегодня удивить пользователя может уже не голос робота в телефонной трубке, а его удачная шутка или меткая фраза. С помощью голосовых помощников бизнес оптимизирует и ускоряет взаимодействие с клиентами, но многие пользователи испытывают неприятие к «бездушным собеседникам». В чем отличие роботизированного алгоритма от полноценного уникального голоса рассказал менеджер продукта SpeechKit облачной платформы Yandex Cloud Дмитрий Шальнов.
Умные «говорилки»
Голос — естественный инструмент общения. Многие хотят решать вопросы устно, а не письменно, просто потому что это быстрее. В коммуникации бизнеса с клиентами это удобный и нативный способ взаимодействия. Но не каждая компания может расширять штат сотрудников колл-центра пропорционально скорости роста клиентской базы. Эффективным способом масштабирования живого общения с клиентами становится автоматизация. Она позволяет сохранить привычные способы коммуникаций и охватить большее число контактов без ущерба качеству.
Голосовые технологии используют во многих сферах, и они подходят для любых аудиторий: детей привлекает интерактивная «говорилка», молодые люди ценят голосовое управление умными девайсами, а пожилым людям ассистент зачитывает новости. Но наиболее востребованы голосовые помощники в тех отраслях, где много точечных коммуникаций с клиентами — в финансах, ритейле, телекоме.
Крупнейшие компании используют голосовые технологии уже не первый год. В Bank of America с 2017 года «работает» виртуальный помощник Erica. Mercedes-Benz с 2018 года внедряет «понимающий» голосовые команды цифровой комплекс User Experience (MBUX). Ритейлер Walmart запустил приложение с голосовым ассистентом Ask Sam, он помогает покупателям с поиском продуктов. По данным Adobe Analytics, 91% брендов уже вкладывает значительные средства в голосовые решения и планируют наращивать инвестиции. Российский рынок речевого ИИ в ближайшие пять лет вырастет с 38 до 81% и в 2025 году выйдет на уровень $561 млн, прогнозирует компания Just AI.
Верю — не верю
Бизнес оценивают эффективность внедрения голосовых технологий, ориентируясь на уровень удовлетворенности клиентов и их лояльности к бренду. Но многие клиенты относятся к инновациям со сдержанным энтузиазмом. По данным Voicebot.ai, только 45% пользователей хотят видеть голосовые помощники в мобильных приложениях. Главные причины неприязни, по данным компании Neuro.net, — низкое качество ответов и синтетическая речь голосовых ассистентов. Эти проблемы характерны для интерфейсов, построенных на технологиях прошлого поколения. Современные алгоритмы машинного обучения позволяют синтезировать голоса, лишенные бездушности.
Другим сдерживающим фактором является то, что голосовые технологии получили распространение как в «хороших» с точки зрения клиента сценариях, так и в «плохих». На рынке пока не так много компаний, специализирующихся в области разработки голосовых интерфейсов, и количество голосов, которые они могут предложить, ограничено. Получается, что если сегодня человеку надоедают рекламными или мошенническими звонками, а завтра раздастся полезный звонок, — коммуникация не будет успешной, потому что «все роботы на один голос». Если репутация голосового ассистента испорчена, эффективность полезных для клиента звонков падает до нуля. Поэтому создаются Brand Voice — уникального голоса бренда.
«Уникальный голос — важная часть бренда, как логотип или фирменный шрифт. Все больше наших клиентов используют эту функцию и ведут с заказчиками диалог уникальными голосами. Мы записываем набор фраз с определенной интонацией голосом сотрудника компании или диктора. А многочисленные динамические данные — номера телефонов или адреса — самообучающаяся система формирует автоматически, воспроизводя голос сотрудника и сохраняя реалистичные интонации. Так компании автоматизируют коммуникации, но сохраняют лояльность клиентов и повышают конверсию: людям приятно, что с ними разговаривают живым голосом, и они охотно ведут диалог».
Иван Артемьев, директор по продукту МТТ
Заговорить модель
Стоимость готового Brand Voice начинается от 150 тыс. рублей и зависит от сферы применения и сложности модели синтеза голоса. Процесс создания решения состоит из двух частей — технической и логической, за каждую отвечает отдельная продуктовая команда.
Важный этап в этой части — выбор голоса, на основе которого будет синтезироваться речь. Голос должен интонационно отражать те атрибуты бренда, которые компании важно продвигать. Профессиональному диктору или актеру дубляжа потребуется наговорить под запись до 40 часов языковых конструкций. Запись должна быть качественной, без лишних шумов, а произношение — правильным, ведь на этом материале будет обучаться модель голосового робота.
На обучение модели и внедрение полноценного синтеза уходит от месяца до полугода в зависимости от сложности. Но технологии развиваются, а время записи в студии постепенно сокращается. Не исключено, что в будущем можно будет получать хорошего голосового робота, использовав всего 2-3 часа исходного аудио.
Учим искусственный интеллект
Когда запись готова, начинается обучение голосовой модели. Она обрабатывает записанный материал, учится воспроизводить голос и в результате способна сама синтезировать речь из любого произвольного текста.
Для решения такого класса задач применяются трансформеры — архитектура глубоких нейронных сетей, представленная в 2017 году исследователями Google Brain. Самые известные трансформеры — это нейросети GPT (Generative Pre-trained Transformer) некоммерческой организации OpenAI. Эта технология, например, позволяет наиболее точно заполнить пробел или предсказать следующее слово во фразе, ориентируясь на предыдущие слова.
По такому принципу создаются голосовые Brand Voice-решения. Обученная модель прогоняется на огромном количестве данных — запускается несколько моделей с разными параметрами и на выходе выбирается лучшая. Важно, чтобы робот правильно «переводил» текст в голос, не ошибался в произношении и интонациях. Для повышения качества синтеза проводится дообучение модели под конкретные сценарии использования, что позволяет получить наиболее естественно звучащие голоса.
Где логика?
Смысловое наполнение робота, его бизнес-логика и сценарии взаимодействия с людьми создают в тесной связке с заказчиком. Чтобы голосовой ассистент мог принести бизнесу максимальную пользу, нужно хорошо понимать, как этот бизнес организован, с какими вопросами и в каких ситуациях клиент будет обращаться к ассистенту.
Придумывать кейсы с нуля — плохая идея, логика взаимодействия с клиентом должна быть реальной. Если ассистент встречает человека на телефонной линии, то в основу сценария ложится консультационный, продающий или какой-то другой скрипт — последовательность действий сотрудника колл-центра в диалоге с клиентом. В подготовке сценария для голосового ассистента помогает анализ запросов реальных пользователей, интервью с сотрудниками, которые с ними регулярно общаются или UX-эксперименты, нацеленные на то, чтобы выяснить реальные запросы людей.
Многие заказчики стараются, чтобы голосовой ассистент помогал клиентам решать вопросы, с которыми им сложно справится самостоятельно. Например, на откуп роботу лучше передать функции, которые «глубоко» запрятаны или неочевидны при работе в мобильном приложении.
Ирина Степанова, дизайнер-аналитик разговорных интерфейсов Just AI: «Нужно понимать, что в разных каналах — чат, приложение, телефон — клиент ведет себя по-разному. Поэтому прежде всего нужно внимательно изучить customer journey map в тех каналах, где планируется внедрение голосового помощника. В визуальном интерфейсе у клиента меньше способов ошибиться — перед глазами почти все, что может предложить сервис. В голосовом интерфейсе пользователь не так хорошо чувствует ограничения сервиса, и нужно предусмотреть, что человек может озвучить ассистенту запрос длинной фразой, в которой нужно будет выделить значимые фразы, по которым программа определит суть запроса. Отдельной задачей является проектирование сценария офтопика, для которого нет готового скрипта. Клиент может спросить что угодно. Человечным робота делает вариативность ответов, когда на один и тот же вопрос он отвечает по-разному».
Одна из проблем при разработке голосового интерфейса — discoverability: как рассказать, что ассистент умеет и с чем может помочь? Здесь необходимо действовать проактивно — озвучивать навыки и умения и вести пользователя по сценарию, предлагая дальнейшие шаги, помогать ему в тупиковых ветках, когда он попадает в «обработку нераспознанных запросов». Еще можно рассказывать о способностях ассистента и вне самого ассистента: в рекламе, рассылках и с помощью других маркетинговых инструментов.
Голосовой помощник должен не только приносить пользу, но и быть интересными собеседником. Разработчики всегда стараются вложить в «мозг» Brand Voice как можно больше, наделить его характером и индивидуальностью.
Обучение — процесс непрерывный
Развитие голосовой модели не прекращается и после ее ввода в эксплуатацию. Через полгода работы качество модели улучшается, а через год развивается до неузнаваемости. Если клиент разрешил логирование, то есть запись информации о событиях во время работы голосового ассистента, то все данные об ошибках собираются и используются для дообучения модели. Логирование может потребоваться, когда ассистент не может распознать специфические слова и фразы или ошибается в их произношении, например, в названиях медицинских препаратов или в ассортименте службы доставки.
Создание Brand Voice обычно происходит в облачной среде и требует использования персональных данных, что зачастую вызывает у клиентов опасения с точки зрения безопасности. И хотя недоверие к облакам — устаревший стереотип, в случае, если клиенту важно, чтобы данные не выходили за периметр компании, их обработка может производиться строго внутри ИТ-контура организации. Персональные данные применяются и при логировании, для обеспечения их конфиденциальности данные анонимизируются.
Создание новых сценариев работы и дообучение моделей для Brand Voice — процесс постоянный. По сути, заказывая готовое голосовое решение, клиент получает сервис, который непрерывно совершенствуется. По-настоящему качественный голосовой ассистент способен не только заметить штат целого колл-центра, но и стать ярким акцентом, добавляющим образу компании индивидуальность.
Читать далее
«Ноев ковчег» Илона Маска доставит на Марс миллион человек
Астрономы из Японии нашли в галактике неизвестную структуру
Сабля неизвестного происхождения найдена в Греции. Ученых озадачил странный артефакт