Кейсы 14 июня 2016

Нейросеть научилась реалистично имитировать звуки

Далее

Искусственный интеллект готов потеснить даже шумовиков - специалистов, которые записывают шумовые эффекты для кино и видеороликов. Разработанная учеными из МТИ нейросеть самостоятельно записала к беззвучному видео подходящие аудиодорожки и прошла звуковой тест Тьюринга - люди не смогли отличить синтезированные звуки от настоящих. О разработке пишет Engadget.

Ученые из лаборатории компьютерных наук и ИИ (CSAIL) записали видеоролики, на которых они ударяют барабанной палочкой по различным предметам, включая кусты, заборы и металлические решетки. Всего было подготовлено 978 видеороликов, на которых выполнялось 46620 различных действий. Все эти данные были предоставлены алгоритму на основе глубокого машинного обучения.

Разработанная в МТИ нейросеть самостоятельно определяет, как звук соотносится с визуальным рядом и составляет конкретные паттерны. ИИ успешно может отличить постукивание по камням от постукивания по листьям или по диванной подушке. Он также в 67% случаев отличает мягкий предмет от твердого.

Как только алгоритму демонстрируют новое видео уже без звука, он оценивает каждый отдельный кадр видеоролика и сопоставляет аудиодорожку с базой данных (она получила ироничное название Greatest Hits). После этого компьютер генерирует звуки для видео, причем синтезирует их самостоятельно, а не берет из базы данных.

Ученые проверили, сможет ли алгоритм обмануть человека. Они провели онлайн-исследование и попросили респондентов определить, реален ли звук на видео. Аудио, сгенерированное искусственным интеллектом, казалось участникам опроса реальным в два раза чаще, чем оригинальная звуковая дорожка.

Алгоритм пока нельзя назвать совершенным: он еще не отличает настоящий удар по предмету на видео от имитации удара, а также не может воспринимать звуки в отрыве от визуального ряда. Однако ученые из МТИ считают, что это только начало, и скоро ИИ смогут действовать так же эффективно, как и профессиональные шумовики.