OpenAI представила результаты ограниченного тестирования модели Voice Engine, которая генерирует реалистичную запись голоса на основе небольшого фрагмента. Результаты показывают многообещающие примеры использования новой технологии, но в компании обеспокоены потенциальными проблемами с безопасностью.

Voice Engine создает синтетический голос на основе 15-секундного фрагмента записи чьей-либо речи. Голос, сгенерированный ИИ и очень близкий к оригиналу, может зачитывать любой текст, как на языке спикера, так и используя другие языки. OpenAI предоставила доступ к модели нескольким компаниям партнерам для тестирования возможностей ИИ при решении реальных задач.

Например, Age of Learning использовала Voice Engine для создания закадрового контента для учебных материалов и предоставления учителям персонализированных устных ответов для взаимодействия с учениками. А HeyGen переводит рекламные видео и демонстрации продуктов для вывода товаров на новые рынки. При этом в процессе перевода сохраняется стиль речи и акцент спикера.

Также в тестировании участвовала компания Livox, которая разработала приложения для людей с проблемами речи. Voice Engine позволяет пользователям генерировать голос на основе текста и выбирать голос, который лучше всего их представляет. А Lifespan запустила пилотную программу, позволяющую людям с нарушениями речи из-за рака или неврологических заболеваний общаться с помощью ИИ.

OpenAI just launched Voice Engine,
It uses text input and a single 15-second audio sample to generate natural-sounding speech that closely resembles the original speaker.
Reference and Generated audio is very close and hard to differentiate.
More details in 🧵 pic.twitter.com/tJRrCO2WZP
— AshutoshShrivastava (@ai_for_success) March 29, 2024

Представители OpenAI заявили, что их впечатлили варианты использования, предложенные участниками тестирования. Но необходимо принять дополнительные меры безопасности, прежде чем компания примет решение о том, «можно ли и как развертывать эту технологию в больших масштабах».

Партнеры, допущенные к тестированию подписали соглашения, которое обязывает явным образом информировать пользователей об использовании искусственно сгенерированного контента. Кроме того, Voice Engine внедряет в звуковые файлы специальную метку (водяные знаки), которая позволяет отследить происхождение и распространение контента.

Тем не менее в компании полагают, что перед внедрением технологии нужно проработать дополнительные меры, которые ограничат незаконное использование подобных моделей. Например, необходимо создать «стоп-лист» голосов известных людей, которые модель не будет генерировать, чтобы припятствовать распространению дип-фейков.

Одновременно OpenAI объявила об отмене требования о регистрации для использования наиболее известного своего продукта — языковой модели ChatGPT. Теперь для использования чат-бота необязательно заводить персональный аккаунт.

Читать далее:

Ученые создали первый в мире алмазный транзистор: он работает при самых высоких температурах

Крупнейшее извержение вулкана за 11 700 лет покрыло лавой 4 500 км²

Ученые рассмотрели, что происходит в центре нашей галактики

_{На обложке: Изображение от rawpixel.com на Freepik, сведения о лицензии}

ИИ, копирующий голос, оказался слишком хорош: OpenAI оценивает риски запуска