Инженеры из Корейского института передовых технологий научили искусственный интеллект выбирать правдоподобные жесты для иллюстрирования синтетической речи. Нейросеть обучалась на основе 52 часов записей с конференции TED Talks.
Исследователи разместили жесты спикеров на видео с помощью технологии OpenPose, которая позволяет фиксировать движения рук, головы и плеч человека в ролике и загружать эти данные в нейросеть. Затем ученые создали второй, рекуррентный искусственный интеллект, который соотносил жесты с фразами выступающих и помогал первому исправить ошибки при выборе жестов к синтезированной речи.
В ходе тестирования системы ученые попросили 46 человек оценить по шкале от 1 до 5 правдоподобность жестов, которыми нейросеть решила проиллюстрировать речь. Большинство респондентов поставили искусственному интеллекту оценки выше 3.
Разработка уже внедрена в исследовательского гуманоидного робота NAO. Ученые утверждают, что роботу успешно удалось воспроизвести заданные комбинации. Работа опубликована в онлайн-библиотеке arXiv.org.