OpenAI представила результаты ограниченного тестирования модели Voice Engine, которая генерирует реалистичную запись голоса на основе небольшого фрагмента. Результаты показывают многообещающие примеры использования новой технологии, но в компании обеспокоены потенциальными проблемами с безопасностью.
Voice Engine создает синтетический голос на основе 15-секундного фрагмента записи чьей-либо речи. Голос, сгенерированный ИИ и очень близкий к оригиналу, может зачитывать любой текст, как на языке спикера, так и используя другие языки. OpenAI предоставила доступ к модели нескольким компаниям партнерам для тестирования возможностей ИИ при решении реальных задач.
Например, Age of Learning использовала Voice Engine для создания закадрового контента для учебных материалов и предоставления учителям персонализированных устных ответов для взаимодействия с учениками. А HeyGen переводит рекламные видео и демонстрации продуктов для вывода товаров на новые рынки. При этом в процессе перевода сохраняется стиль речи и акцент спикера.
Также в тестировании участвовала компания Livox, которая разработала приложения для людей с проблемами речи. Voice Engine позволяет пользователям генерировать голос на основе текста и выбирать голос, который лучше всего их представляет. А Lifespan запустила пилотную программу, позволяющую людям с нарушениями речи из-за рака или неврологических заболеваний общаться с помощью ИИ.
OpenAI just launched Voice Engine,
— AshutoshShrivastava (@ai_for_success) March 29, 2024
It uses text input and a single 15-second audio sample to generate natural-sounding speech that closely resembles the original speaker.
Reference and Generated audio is very close and hard to differentiate.
More details in 🧵 pic.twitter.com/tJRrCO2WZP
Представители OpenAI заявили, что их впечатлили варианты использования, предложенные участниками тестирования. Но необходимо принять дополнительные меры безопасности, прежде чем компания примет решение о том, «можно ли и как развертывать эту технологию в больших масштабах».
Партнеры, допущенные к тестированию подписали соглашения, которое обязывает явным образом информировать пользователей об использовании искусственно сгенерированного контента. Кроме того, Voice Engine внедряет в звуковые файлы специальную метку (водяные знаки), которая позволяет отследить происхождение и распространение контента.
Тем не менее в компании полагают, что перед внедрением технологии нужно проработать дополнительные меры, которые ограничат незаконное использование подобных моделей. Например, необходимо создать «стоп-лист» голосов известных людей, которые модель не будет генерировать, чтобы припятствовать распространению дип-фейков.
Одновременно OpenAI объявила об отмене требования о регистрации для использования наиболее известного своего продукта — языковой модели ChatGPT. Теперь для использования чат-бота необязательно заводить персональный аккаунт.
Читать далее:
Ученые создали первый в мире алмазный транзистор: он работает при самых высоких температурах
Крупнейшее извержение вулкана за 11 700 лет покрыло лавой 4 500 км²
Ученые рассмотрели, что происходит в центре нашей галактики
На обложке: Изображение от rawpixel.com на Freepik, сведения о лицензии