Предварительное тестирование Voice Engine — генератора голоса от разработчиков ChatGPT — показало, что модели достаточно 15-секундной записи для копирования голоса человека.
OpenAI представила результаты ограниченного тестирования модели Voice Engine, которая генерирует реалистичную запись голоса на основе небольшого фрагмента. Результаты показывают многообещающие примеры использования новой технологии, но в компании обеспокоены потенциальными проблемами с безопасностью.
Voice Engine создает синтетический голос на основе 15-секундного фрагмента записи чьей-либо речи. Голос, сгенерированный ИИ и очень близкий к оригиналу, может зачитывать любой текст, как на языке спикера, так и используя другие языки. OpenAI предоставила доступ к модели нескольким компаниям партнерам для тестирования возможностей ИИ при решении реальных задач.
Например, Age of Learning использовала Voice Engine для создания закадрового контента для учебных материалов и предоставления учителям персонализированных устных ответов для взаимодействия с учениками. А HeyGen переводит рекламные видео и демонстрации продуктов для вывода товаров на новые рынки. При этом в процессе перевода сохраняется стиль речи и акцент спикера.
Также в тестировании участвовала компания Livox, которая разработала приложения для людей с проблемами речи. Voice Engine позволяет пользователям генерировать голос на основе текста и выбирать голос, который лучше всего их представляет. А Lifespan запустила пилотную программу, позволяющую людям с нарушениями речи из-за рака или неврологических заболеваний общаться с помощью ИИ.
OpenAI just launched Voice Engine,
— AshutoshShrivastava (@ai_for_success) March 29, 2024
It uses text input and a single 15-second audio sample to generate natural-sounding speech that closely resembles the original speaker.
Reference and Generated audio is very close and hard to differentiate.
More details in 🧵 pic.twitter.com/tJRrCO2WZP
Представители OpenAI заявили, что их впечатлили варианты использования, предложенные участниками тестирования. Но необходимо принять дополнительные меры безопасности, прежде чем компания примет решение о том, «можно ли и как развертывать эту технологию в больших масштабах».
Партнеры, допущенные к тестированию подписали соглашения, которое обязывает явным образом информировать пользователей об использовании искусственно сгенерированного контента. Кроме того, Voice Engine внедряет в звуковые файлы специальную метку (водяные знаки), которая позволяет отследить происхождение и распространение контента.
Тем не менее в компании полагают, что перед внедрением технологии нужно проработать дополнительные меры, которые ограничат незаконное использование подобных моделей. Например, необходимо создать «стоп-лист» голосов известных людей, которые модель не будет генерировать, чтобы припятствовать распространению дип-фейков.
Одновременно OpenAI объявила об отмене требования о регистрации для использования наиболее известного своего продукта — языковой модели ChatGPT. Теперь для использования чат-бота необязательно заводить персональный аккаунт.
Читать далее:
Ученые создали первый в мире алмазный транзистор: он работает при самых высоких температурах
Крупнейшее извержение вулкана за 11 700 лет покрыло лавой 4 500 км²
Ученые рассмотрели, что происходит в центре нашей галактики
На обложке: Изображение от rawpixel.com на Freepik, сведения о лицензии