Ученые из лаборатории компьютерных наук и ИИ (CSAIL) записали видеоролики, на которых они ударяют барабанной палочкой по различным предметам, включая кусты, заборы и металлические решетки. Всего было подготовлено 978 видеороликов, на которых выполнялось 46620 различных действий. Все эти данные были предоставлены алгоритму на основе глубокого машинного обучения.
Разработанная в МТИ нейросеть самостоятельно определяет, как звук соотносится с визуальным рядом и составляет конкретные паттерны. ИИ успешно может отличить постукивание по камням от постукивания по листьям или по диванной подушке. Он также в 67% случаев отличает мягкий предмет от твердого.
Как только алгоритму демонстрируют новое видео уже без звука, он оценивает каждый отдельный кадр видеоролика и сопоставляет аудиодорожку с базой данных (она получила ироничное название Greatest Hits). После этого компьютер генерирует звуки для видео, причем синтезирует их самостоятельно, а не берет из базы данных.
Ученые проверили, сможет ли алгоритм обмануть человека. Они провели онлайн-исследование и попросили респондентов определить, реален ли звук на видео. Аудио, сгенерированное искусственным интеллектом, казалось участникам опроса реальным в два раза чаще, чем оригинальная звуковая дорожка.
Алгоритм пока нельзя назвать совершенным: он еще не отличает настоящий удар по предмету на видео от имитации удара, а также не может воспринимать звуки в отрыве от визуального ряда. Однако ученые из МТИ считают, что это только начало, и скоро ИИ смогут действовать так же эффективно, как и профессиональные шумовики.