Технологии 30 мая 2018

«Ну как бы э-э-э»: почему Google Duplex — не прорыв

Далее

На прошедшей в начале мая конференции Google I/O 2018 фурор произвела Duplex — экспериментальная технология, которая позволяет боту с AI совершать голосовые звонки. Да, все видели, как Duplex позвонил в парикмахерскую от имени клиента. Да, в формате презентации это было удивительно. Да, многим показалось, что Google ушла далеко вперед в плане искусственного интеллекта и обработки естественного языка. IT-евангелист SuperJob Алиса Беркана объясняет, почему Google Duplex — просто еще одна нейросеть в хорошей «упаковке».

Благодаря WaveNet, генераторной программе на основе искусственного интеллекта, Duplex больше, чем другие голосовые помощники, напоминает человека. Синтезированные голоса звучат необычайно естественно, несмотря на то что генерируются из склеенных фрагментов речи (так устроен весь современный синтез речи).

Одно из новшеств — слова-наполнители, такие как «хммм» и «понятно», которые Duplex вставляет во время пауз. Человеческая речь всегда включает паузы, колебания и повторы, а без них звучит жутко, — мы подсознательно ожидаем, что человек на том конце провода не сидит со словарем Розенталя в руках и допустит хотя бы какую-нибудь ошибку.

Например, для записи в салон красоты помощнику нужно предоставить ключевые параметры — название салона и время, которое вы хотите забронировать. Помощник проверит ваше расписание, и если желаемое время уже занято, предложит другое. Если у салона есть услуга онлайн-бронирования, Duplex воспользуется ею, если нет — сделает телефонный звонок. После завершения бронирования запись о нем появится в календаре.

Почему Duplex хайпа поднятого не стоит

В преддверии своего 20-летия Google переходит от стратегии «сначала мобайл» к стратегии «сначала AI». Google Research даже изменила свое название на Google AI. Количество продуктов, управляемых искусственным интеллектом, растет. Но не нужно ставить Google на цифровой пьедестал.

Компания действительно научилась распознавать стандартный вопрос пользователя и выдавать из базы готовый ответ. Но вряд ли Duplex будет массово использоваться для тех задач, на которых его демонстрировали. Google сделал систему распознавания и синтезирования речи, а вот сам искусственный интеллект, который будет с этой системой работать, нам всем придётся изобретать самим.

Потому что за естественно звучащим синтезированным голосом нет интеллекта. В основе алгоритма — рекуррентная нейронная сеть, в которой связи между элементами образуют направленную последовательность. Любой, кто ждет от нейронки здравого смысла, а от Duplex — интеллекта, разочаруется: воспроизведение естественной человеческой речи основано на вычислении.

Google утверждает, что Duplex может совершать неконтролируемые звонки, разговаривать с людьми и выполнять задачи по настраиваемым сценариям, — но он предназначен для задач, в которых шанс, что все пойдет не так, минимален, и разговоры на отвлеченные темы поддержать не может.

Да, алгоритм достаточно умен, чтобы понять, что терпит неудачу в коммуникации, и если разговор зайдет в тупик, продолжить беседу придется человеку. Ответить на звонок надоедливой троюродной сестры из Сыктывкара, симулируя интерес к сплетням про родственников, Duplex не сможет.

Google использует встроенные «нууу» и «как бы», чтобы обмануть слушателя, маскируя неидеальность голосового синтеза «человекоподобным» контентом. Но само по себе это не новость: например, соискателям в SuperJob давно отвечает на письма робот, мастерски умеющий ставить смайлики. Да и стоит ли вообще пытаться обманывать пользователей? Скорее всего, сам факт общения с роботом уже скоро ни у кого не вызовет негативных эмоций — в отличие от попыток выдать его за живого собеседника.