ИИ от Microsoft имитирует любой голос на основе трехсекундной записи

Microsoft представила искусственный интеллект, который может воспроизвести любой голос, передавая эмоции и тон говорящего.

Компания Microsoft представили искусственный интеллект VALL-E. Он может генерировать голосовые записи на основе трехсекундного образца. Исследование показало, что модель, обученная на основе множества коротких отрывков, генерирует английскую речь, которую невозможно отличить от голоса оригинала.

Исследователи из Корнуэльского университета использовали модель VALL-E для анализа механизмов генерации речи. В своей работе, препринт которой опубликован на сервере arXiv, ученые исследуют нейронную сеть, обученную на основе 60 тыс. часов английской речи. Это в сотни раз больше, чем у существующих аналогов.

Принцип работы ИИ. Изображение: VALL-E

Анализ показал, что системе достаточно трехсекундного ролика для имитации голоса собеседника. При этом Vall-E значительно превосходит современную систему TTS с точки зрения естественности звучания речи и сходства голоса. Кроме того, она может сохранять эмоции говорящего и акустическую среду (влияние акустических свойств помещения, в котором была сделана оригинальная запись).

Разработанная система генерации пока закрыта для публичного доступа, но исследователи опубликовали примеры образцов и готовых голосовых файлов на сайте в интернете. Примеры сгенерированной речи отличаются по качеству. В то время как некоторые из них звучат естественно, на других слышно, что они сгенерированы машиной. Авторы разработки отмечают, что дальнейшее обучение на разных голосах, в том числе с разными акцентами, повысит качество работы системы.

https://hightech.fm/wp-content/uploads/2023/01/3_pt.wav
Образец голоса человека. Аудио: VALL-E
https://hightech.fm/wp-content/uploads/2023/01/3_ours.wav
Сгенерированная запись, сохраняющая внешние шумы. Аудио: VALL-E

Исследователи также отмечают, что возможность генерации голосов, идентичных оригинальным, создает новые вызовы для безопасности, поскольку может использоваться мошенниками. Они полагают, что до широкого публичного релиза модели необходимо разработать систему, которая будет распознавать записи, сгенерированные ИИ.


Читать далее:

Раскрыт секрет долговечности римского бетона: он умеет восстанавливаться

Генетики определили, как менялся возраст зачатия у людей за 250 000 лет

Солнце открыло год вспышкой самого мощного класса

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
В глубинах Тихого океана обнаружили пауков, питающихся бактериями
Наука
Открыт белок, который восстанавливает ДНК, препятствуя старению мозга
Наука
Рассуждающая модель от китайской MiniMax потребляет меньше ресурсов, чем DeepSeek
Новости
Под Волгоградом обнаружили краску, которую использовали неандертальцы
Наука
Человеческую мочу преобразовали в материал для зубных имплантатов
Наука
Инженер-любитель спроектировал eVTOL: он может пролететь более 200 км за три часа
Новости
Из личинок мухи создали антисептик для борьбы с супербактериями
Наука
В мессенджере WhatsApp скоро появится официальная реклама
Новости
По 319 млн рублей выделят на создание центров промышленной робототехники в России
Иннополис
Инженеры создали дрон с рукой, напоминающей хобот слона
Новости
Спутники устроили искусственное затмение для изучения короны Солнца
Космос
На Кузбассе обнаружили останки флоры и фауны эпохи динозавров
Наука
Кудиты вместо кубитов: физики написали инструкцию для создания кудитных квантовых процессоров
Новости
Астрономы нашли «потерянную» половину материи во Вселенной
Космос
Микробы оказались каннибалами: голодные бактерии поедают соседей, чтобы выжить
Наука
Математики прочитают открытые лекции по оптимизации в Университете Иннополис
Иннополис
Solar Orbiter впервые сфотографировал полярную область на Солнце
Космос
Физики смоделировали «создание света из ничего» в вакууме
Наука
«Уэбб» рассмотрел ледяной мир на странной орбите вблизи Солнечной системы
Космос
В Китае человеческие сердца впервые вырастили в эмбрионах свиней
Наука