Baidu представила улучшенный алгоритм клонирования речи

Китайский технологический гигант Baidu представил улучшенную систему синтеза речи Deep Voice. Технология быстро обучается и воспроизводит текст голосом говорящего с высокой точностью. “Аудиоклонирование” позволяет искусственно генерировать любые слова и предложения, воссоздавая при этом акцент и другие особенности речи говорящего.

В новом исследовании Baidu представила усовершенствованную технологию распознавания речи Deep Voice. В блоге компания рассказала, что на обучение алгоритма уходит не более получаса. За это время система изучает образцы голоса говорящего и учится их имитировать. Один алгоритм способен воспроизводить тысячи голосов. Однако чем больше образцов изучает система, тем качественнее становится имитация.

Математик доказал, что черные дыры могут стирать прошлое

На сайте GitHub можно прослушать аудиофайлы с демонстрацией возможностей Deep Voice. Для сравнения компания опубликовала примеры клонированной речи, воссозданной на примере 5, 10, 20, 50 и 100 образцов. После 5 и 10 образцов алгоритм воспроизводит речь не слишком отчетливо. По мере обучения синтезированная речь становится все более правдоподобной. Но, как отмечает The Register, пока имитацию можно отличить от оригинала по низкому качеству звука и шумам.

Компания представила технологию Deep Voice в марте прошлого года. В мае алгоритм Deep Voice 2 уже научился имитировать акценты и синтезировать речь всего за полчаса. Тогда система могла работать с сотнями образцов. Улучшенная модель способна обрабатывать тысячи голосов. При этом синтезировать голос алгоритм может даже после прослушивания коротких фраз длиной в несколько секунд.

При клонировании голоса Baidu использует две техники — метод адаптации и метод расшифровки. В первом случае система изучает голоса нескольких говорящих. В экспериментах компания использовала набор данных LibriSpeech, в котором собраны образцы речи 2484 человек. Алгоритм выделяет отдельные компоненты в произнесенных фразах и имитирует голос с учетом особенностей произношения и ритма. При методе расшифровки система исследует речь каждого говорящего в отдельности, а сам процесс занимает всего несколько секунд.

10 прорывных технологий 2018 года

Один из авторов исследования Серкан Арик рассказал The Register, что метод расшифровки проще применить в реальной жизни. Он не требует большого объема памяти и подходит для использования на смартфонах и умных колонках. Пока система далека от совершенства, но в будущем она позволит создавать голосовых помощников, которые будут говорить голосом пользователя. Причем на процесс обучения уйдет несколько минут.

По словам Арика, о рисках технологии пока говорить рано — алгоритм еще не умеет синтезировать речь со 100%-ной точностью. Однако в будущем Baidu планирует защитить систему от использования в преступных целях.

Генеративные сети и базовые алгоритмы на основе машинного обучения уже умеют генерировать фотографии, изображения и видеоролики, которых никогда не существовало в действительности. Так, алгоритм Nvidia научился создавать убедительные фальшивые видео, на которых день преобразуется в ночь, а зимний пейзаж — в летний. При этом отличить синтезированный контент от настоящего практически невозможно.

Открыты материалы, которые совершат революцию в электронике

Некоторые эксперты уже говорят о наступлении информационного апокалипсиса, первыми признаками которого стали фальшивые новости в социальных сетях. Со временем у людей может выработаться апатия по отношению к реальности и полная неспособность отличить правду от вымысла.

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Древний кинжал нашли в Твери: ученые выяснили его возраст
Наука
Редкое астрономическое явление можно увидеть уже в эту пятницу
Космос
Ученые раскрыли, как появились невозможные черные дыры
Космос
Минпромторг закроет параллельный импорт ноутбуков и серверов HP и Fujitsu
Новости
При Трампе пошлины на азиатские солнечные панели выросли до рекордных 3521%
Новости
ИИ помог выиграть 36 млн в лотерею: можно ли это повторить
Новости
Зонд «Люси» сфотографировал астероид необычной формы
Космос
Крупнейшая структура во Вселенной больше и ближе к Земле, показывают гамма-всплески
Космос
Разработан метод для быстрого обнаружения ДНК в образце с помощью света вместо ПЦР
Наука
Huawei выпускает чип Ascend 910C в ответ на торговые ограничения для Nvidia
Новости
Создана упаковка для транспортировки и длительного хранения донорской крови
Наука
Теорию относительности Эйнштейна проверят на орбите Земли
Космос
«Фабрику» железного века по производству краски нашли в Израиле: она проработала 500 лет
Наука
В Японии испытали летающие молниеотводы: дроны, которые привлекают молнии
Новости
Шимпанзе впервые попали на видео во время «вечеринки» с алкоголем
Наука
В Госдуме хотят проверять владельцев российских сайтов через Госуслуги
Новости
Физики разработали кубиты с увеличенным временем жизни для квантовых устройств
Наука
Астрономы подтвердили открытие первой «одинокой» черной дыры
Космос
Создан металл, который не теряет прочности при самых экстремальных температурах
Наука
Сколько яиц и кулича можно съесть на Пасху: врачи назвали допустимую норму
Наука