Nvidia представила модель искусственного интеллекта Fugatto, которая на основе текстовых подсказок генерирует и преобразует любую комбинацию музыки, голосов и звуков. Модель может редактировать готовые аудиофайлы и, по словам разработчиков, создавать немыслимые сочетания: от мяукающего саксофона до смеси грозы с метелью.
Для создания Fugatto исследователи собрали обширный набор данных, включающий миллионы аудиосэмплов. Они разработали специальные инструкции, которые «значительно расширили спектр задач модели, повысили точность ее работы и позволили выполнять новые функции без необходимости в дополнительных данных».
Главная особенность Fugatto — способность не просто имитировать существующие звуки, но и создавать принципиально новые композиции. Например, модель может заставить трубу лаять, саксофон мяукать, а также генерировать уникальные звуковые ландшафты, которых нет в реальном мире. При этом модель может генерировать звуки и музыку, которые не «слышала» при обучении.
Модель имеет не только развлекательное применение. Музыкальные продюсеры могут использовать Fugatto для прототипирования или редактирования композиций, добавления эффектов или экспериментов с новыми жанрами и стилями. Рекламные агентства смогут адаптировать кампании под разные рынки, добавляя уникальные акценты и эффекты.
Nvidia пока не уточняет, станет ли технология и когда доступна для открытого использования. Также неизвестно, какие ограничения могут быть связаны с ее работой.
Читать далее:
Анализ 11 млрд лет эволюции Вселенной подтвердил, что Эйнштейн был прав
Археологи-любители из Польши нашли военный клад, спрятанный в XVII веке
Найден «межзвездый туннель» от Солнечной системы к соседней звезде
На обложке: иллюстрация от Nvidia