ИИ от Microsoft имитирует любой голос на основе трехсекундной записи

Microsoft представила искусственный интеллект, который может воспроизвести любой голос, передавая эмоции и тон говорящего.

Компания Microsoft представили искусственный интеллект VALL-E. Он может генерировать голосовые записи на основе трехсекундного образца. Исследование показало, что модель, обученная на основе множества коротких отрывков, генерирует английскую речь, которую невозможно отличить от голоса оригинала.

Исследователи из Корнуэльского университета использовали модель VALL-E для анализа механизмов генерации речи. В своей работе, препринт которой опубликован на сервере arXiv, ученые исследуют нейронную сеть, обученную на основе 60 тыс. часов английской речи. Это в сотни раз больше, чем у существующих аналогов.

Принцип работы ИИ. Изображение: VALL-E

Анализ показал, что системе достаточно трехсекундного ролика для имитации голоса собеседника. При этом Vall-E значительно превосходит современную систему TTS с точки зрения естественности звучания речи и сходства голоса. Кроме того, она может сохранять эмоции говорящего и акустическую среду (влияние акустических свойств помещения, в котором была сделана оригинальная запись).

Разработанная система генерации пока закрыта для публичного доступа, но исследователи опубликовали примеры образцов и готовых голосовых файлов на сайте в интернете. Примеры сгенерированной речи отличаются по качеству. В то время как некоторые из них звучат естественно, на других слышно, что они сгенерированы машиной. Авторы разработки отмечают, что дальнейшее обучение на разных голосах, в том числе с разными акцентами, повысит качество работы системы.

https://hightech.fm/wp-content/uploads/2023/01/3_pt.wav
Образец голоса человека. Аудио: VALL-E
https://hightech.fm/wp-content/uploads/2023/01/3_ours.wav
Сгенерированная запись, сохраняющая внешние шумы. Аудио: VALL-E

Исследователи также отмечают, что возможность генерации голосов, идентичных оригинальным, создает новые вызовы для безопасности, поскольку может использоваться мошенниками. Они полагают, что до широкого публичного релиза модели необходимо разработать систему, которая будет распознавать записи, сгенерированные ИИ.


Читать далее:

Раскрыт секрет долговечности римского бетона: он умеет восстанавливаться

Генетики определили, как менялся возраст зачатия у людей за 250 000 лет

Солнце открыло год вспышкой самого мощного класса

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Почему Вселенная несимметрична: физики приблизились к разгадке тайны
Новости
Посмотрите на обратную сторону спутника Марса: это второе фото в истории
Новости
Это приложение буквально заставляет трогать траву и блокирует соцсети
Новости
Посмотрите на место гибели лунного аппарата «Афина»
Новости
Apple призвала срочно обновить iPhone из-за критической уязвимости  
Новости
В РосНИИРОС опровергли планы ICANN закрыть домен .su  
Новости
Европейские охотники каменного века «путешествовали» по морю в Африку
Наука
Зонд «Гера» сделал снимки спутника Марса на пути к «пострадавшему в ДТП» астероиду
Космос
В испанской пещере нашли «фрагменты лица» древнейшего жителя Западной Европы
Наука
Стартап представил робота, который готовит как шеф-повар лучших ресторанов
Новости
В паровом реакторе впервые зажгли термоядерную плазму
Новости
Работа, написанная ИИ, прошла научное рецензирование, но есть нюансы
Наука
Смертоносные звезды: два массовых вымирания связали со взрывами сверхновых
Космос
Сразу четыре похожих на Землю планеты нашли у ближайшей одиночной звезды
Космос
Физики обнаружили доказательство предсказания Хокинга
Космос
Загадочные радиосигналы впервые обнаружили в глубинах Галактики 
Космос
Этот компьютер решил задачу за 20 минут: суперкомпьютер потратил бы миллион лет
Новости
Названа дата удаления домена .su: что будет с 100 000 сайтов
Новости
Google DeepMind дала роботам ИИ: с ним машинам не надо учиться
Новости
Ученые нашли аномалию во Вселенной: эта галактика не должна была выжить
Космос