Nvidia представила модель искусственного интеллекта Fugatto, которая на основе текстовых подсказок генерирует и преобразует любую комбинацию музыки, голосов и звуков. Модель может редактировать готовые аудиофайлы и, по словам разработчиков, создавать немыслимые сочетания: от мяукающего саксофона до смеси грозы с метелью.

Примеры генерации случайных звуковых эффектов на основе описания

Для создания Fugatto исследователи собрали обширный набор данных, включающий миллионы аудиосэмплов. Они разработали специальные инструкции, которые «значительно расширили спектр задач модели, повысили точность ее работы и позволили выполнять новые функции без необходимости в дополнительных данных».

Главная особенность Fugatto — способность не просто имитировать существующие звуки, но и создавать принципиально новые композиции. Например, модель может заставить трубу лаять, саксофон мяукать, а также генерировать уникальные звуковые ландшафты, которых нет в реальном мире. При этом модель может генерировать звуки и музыку, которые не «слышала» при обучении.

Модель имеет не только развлекательное применение. Музыкальные продюсеры могут использовать Fugatto для прототипирования или редактирования композиций, добавления эффектов или экспериментов с новыми жанрами и стилями. Рекламные агентства смогут адаптировать кампании под разные рынки, добавляя уникальные акценты и эффекты.

Nvidia пока не уточняет, станет ли технология и когда доступна для открытого использования. Также неизвестно, какие ограничения могут быть связаны с ее работой.

Читать далее:

Анализ 11 млрд лет эволюции Вселенной подтвердил, что Эйнштейн был прав

Археологи-любители из Польши нашли военный клад, спрятанный в XVII веке

Найден «межзвездый туннель» от Солнечной системы к соседней звезде

_{На обложке: иллюстрация от Nvidia}

Музыкальный ИИ Nvidia «генерирует звуки, которых никто не слышал»