ИИ от Microsoft имитирует любой голос на основе трехсекундной записи

Microsoft представила искусственный интеллект, который может воспроизвести любой голос, передавая эмоции и тон говорящего.

Компания Microsoft представили искусственный интеллект VALL-E. Он может генерировать голосовые записи на основе трехсекундного образца. Исследование показало, что модель, обученная на основе множества коротких отрывков, генерирует английскую речь, которую невозможно отличить от голоса оригинала.

Исследователи из Корнуэльского университета использовали модель VALL-E для анализа механизмов генерации речи. В своей работе, препринт которой опубликован на сервере arXiv, ученые исследуют нейронную сеть, обученную на основе 60 тыс. часов английской речи. Это в сотни раз больше, чем у существующих аналогов.

Принцип работы ИИ. Изображение: VALL-E

Анализ показал, что системе достаточно трехсекундного ролика для имитации голоса собеседника. При этом Vall-E значительно превосходит современную систему TTS с точки зрения естественности звучания речи и сходства голоса. Кроме того, она может сохранять эмоции говорящего и акустическую среду (влияние акустических свойств помещения, в котором была сделана оригинальная запись).

Разработанная система генерации пока закрыта для публичного доступа, но исследователи опубликовали примеры образцов и готовых голосовых файлов на сайте в интернете. Примеры сгенерированной речи отличаются по качеству. В то время как некоторые из них звучат естественно, на других слышно, что они сгенерированы машиной. Авторы разработки отмечают, что дальнейшее обучение на разных голосах, в том числе с разными акцентами, повысит качество работы системы.

https://hightech.fm/wp-content/uploads/2023/01/3_pt.wav
Образец голоса человека. Аудио: VALL-E
https://hightech.fm/wp-content/uploads/2023/01/3_ours.wav
Сгенерированная запись, сохраняющая внешние шумы. Аудио: VALL-E

Исследователи также отмечают, что возможность генерации голосов, идентичных оригинальным, создает новые вызовы для безопасности, поскольку может использоваться мошенниками. Они полагают, что до широкого публичного релиза модели необходимо разработать систему, которая будет распознавать записи, сгенерированные ИИ.


Читать далее:

Раскрыт секрет долговечности римского бетона: он умеет восстанавливаться

Генетики определили, как менялся возраст зачатия у людей за 250 000 лет

Солнце открыло год вспышкой самого мощного класса

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Ученые впервые наблюдали, как орангутанг занимается самолечением
Наука
SpaceX не смогла скрыть полет ракеты над Россией: в сети публикуют фото
Космос
Зонд «Эйнштейн» показал первую партию редких космических фото
Космос
Миссию по доставке образцов с загадочной стороны Луны запустили в Китае
Наука
Ученые подтвердили ключевые события из Библии
Наука
Недалеко от нас есть планета, где ветер дует быстрее пули
Космос
Найден необычный способ бороться с хроническим стрессом
Наука
Посмотрите на самый редкий торнадо, который пронесся над США
Наука
Над Землей пролетел астероид, который вращался быстрее всех остальных
Космос
Ученые показали лицо женщины, которая жила 75 000 лет назад
Наука
Анализ генов показал, как древние водоросли вышли на поверхность планеты
Наука
Древняя технология поможет вырастить растения на Марсе, считают ученые
Космос
Физики из MIT добились рекордной близости между атомами для квантовых исследований
Наука
В Германии на ветряную электростанцию впервые установили деревянные лопасти
Новости
Инженеры разработали искусственную пиявку для безболезненного забора крови у детей
Наука
Solar Orbiter запечатлел «пушистую» корону Солнца в завораживающих деталях
Космос
Китай отправляет миссию на обратную сторону Луны: как смотреть онлайн
Космос
ИИ нашел асимметрию материи и антиматерии на Большом адронном коллайдере
Наука
TikTok вернулся в Россию? Что известно прямо сейчас
Новости
В Японии разработали устройство 6G, которое передает данные со скоростью 100 Гбит/с
Новости