Сообщить об ошибке на сайте
URL
Ошибка
Идеи

Китайский технологический гигант Baidu представил улучшенную систему синтеза речи Deep Voice. Технология быстро обучается и воспроизводит текст голосом говорящего с высокой точностью. «Аудиоклонирование» позволяет искусственно генерировать любые слова и предложения, воссоздавая при этом акцент и другие особенности речи говорящего.

В новом исследовании Baidu представила усовершенствованную технологию распознавания речи Deep Voice. В блоге компания рассказала, что на обучение алгоритма уходит не более получаса. За это время система изучает образцы голоса говорящего и учится их имитировать. Один алгоритм способен воспроизводить тысячи голосов. Однако чем больше образцов изучает система, тем качественнее становится имитация.

На сайте GitHub можно прослушать аудиофайлы с демонстрацией возможностей Deep Voice. Для сравнения компания опубликовала примеры клонированной речи, воссозданной на примере 5, 10, 20, 50 и 100 образцов. После 5 и 10 образцов алгоритм воспроизводит речь не слишком отчетливо. По мере обучения синтезированная речь становится все более правдоподобной. Но, как отмечает The Register, пока имитацию можно отличить от оригинала по низкому качеству звука и шумам.

Компания представила технологию Deep Voice в марте прошлого года. В мае алгоритм Deep Voice 2 уже научился имитировать акценты и синтезировать речь всего за полчаса. Тогда система могла работать с сотнями образцов. Улучшенная модель способна обрабатывать тысячи голосов. При этом синтезировать голос алгоритм может даже после прослушивания коротких фраз длиной в несколько секунд.

При клонировании голоса Baidu использует две техники — метод адаптации и метод расшифровки. В первом случае система изучает голоса нескольких говорящих. В экспериментах компания использовала набор данных LibriSpeech, в котором собраны образцы речи 2484 человек. Алгоритм выделяет отдельные компоненты в произнесенных фразах и имитирует голос с учетом особенностей произношения и ритма. При методе расшифровки система исследует речь каждого говорящего в отдельности, а сам процесс занимает всего несколько секунд.

Один из авторов исследования Серкан Арик рассказал The Register, что метод расшифровки проще применить в реальной жизни. Он не требует большого объема памяти и подходит для использования на смартфонах и умных колонках. Пока система далека от совершенства, но в будущем она позволит создавать голосовых помощников, которые будут говорить голосом пользователя. Причем на процесс обучения уйдет несколько минут.

По словам Арика, о рисках технологии пока говорить рано — алгоритм еще не умеет синтезировать речь со 100%-ной точностью. Однако в будущем Baidu планирует защитить систему от использования в преступных целях.

Генеративные сети и базовые алгоритмы на основе машинного обучения уже умеют генерировать фотографии, изображения и видеоролики, которых никогда не существовало в действительности. Так, алгоритм Nvidia научился создавать убедительные фальшивые видео, на которых день преобразуется в ночь, а зимний пейзаж — в летний. При этом отличить синтезированный контент от настоящего практически невозможно.

Некоторые эксперты уже говорят о наступлении информационного апокалипсиса, первыми признаками которого стали фальшивые новости в социальных сетях. Со временем у людей может выработаться апатия по отношению к реальности и полная неспособность отличить правду от вымысла.

Загрузка...
Подписывайтесь на наши каналы в Telegram

«Хайтек» - новости онлайн по мере их появления

«Хайтек» Daily - подборки новостей 3 раза в день

Сэр Харшад Бадехиа — о бронежилетах будущего, русских математиках и металлургии
Тренды
Google представила искусственный интеллект для больниц. Он может предсказать смерть пациентов
Медицина будущего
«Надежнее золота»: блокчейн в цифрах
Блокчейн
Робопес SpotMini от Boston Dynamics прошелся по улицам Ганновера
Доброжелательные роботы
Бас Лансдорп, Mars One: «Моя жена отдала бы все, чтобы не лететь на Марс»
Полет на Марс
Как big data, блокчейн и 3D-печать сделали пищу полезнее
Мнения
Тренды
Томас Циммерман, IBM, — о том, как остановить конец света, спасая планктон
Без Siri, Алисы и «Окей, Google»: как и зачем нас подслушивают собственные телефоны
Тренды
Шрада Агарвал, Outcome Health: «Когда человек знает о своей болезни, от этого выигрывает и он, и фарма»
Мнения
Тренды
«Дорогая, я ухожу от тебя к роботу!»: заменят ли секс-андроиды реальные отношения?
7 правил для начинающих и разумных блокчейн-инвесторов
ICO
Четвертая революция: как интернет вещей изменит промышленность и нефтедобычу
Тренды
Не витайте в «облаках»: как провайдеры обманывают доверчивых клиентов
Мнения
Когда мы начнем летать на автомобилях в городе?
Тренды
Кейсы
Как в Россию проникают технологии: интернет-рестораны, маникюр на дому и «умное» страхование
Гендиректор Uber Дара Хосровшахи: «Автомобили должны ездить в трех измерениях»
Мнения
Олег Бабкин: «Системных администраторов никто не обучает, обучают только разработчиков»
Мнения
«Чтобы создать новое лекарство, нужно 10–12 лет и миллиард долларов»
Мнения
Сооснователь «Евросети» Тимур Артемьев: «Мы будем летать из Лондона в Сидней через космос. Так ближе»
Тренды
Новый стандарт рекламного рынка: что нужно знать о programmatic, чтобы рекламироваться эффективно
Тренды
Иван Горшунов, Etcetera, — о мобильных приложениях, стартапах и «внутренней девятиэтажке», которая мешает заглянуть за горизонт
Мнения
Билетный IT: как построить технологическую платформу вокруг билетного бизнеса
Кейсы
Cognitive Technologies: как российское бездорожье поможет искусственному интеллекту водить машины лучше, чем люди
Кейсы
Кейсы
10 предпринимателей — о том, как им помогают новые технологии в жизни и бизнесе
Don’t open the doors: как сделать игру из пластилина в одиночку (и привлечь инвестора на следующий проект)
Кейсы
Софт, бот, нейросеть: айтишники объясняют, почему не боятся автоматизации, роботизации и ИИ
Кейсы
Специалист по лучевой диагностике Сергей Морозов: искусственный интеллект возьмет на себя 30% функций врача и до 60% функций лаборантов
Мнения
Системный архитектор Алексей Усов — о Red Hat, международных стандартах, Linux и «Платоне»
Мнения
Microsoft впервые за три года обогнала Google по капитализации. Теперь компания — в тройке самых дорогих
Тренды
Сельское хозяйство
Российская компания представила систему, которая превращает любой трактор и комбайн в беспилотник
Массачусетский институт показал неопубликованное ранее видео из выступления Стива Джобса
Тренды
Антон Трантин, Pulsar VC: почему вашему стартапу не нужен блокчейн
Блокчейн
Одна распознает, другая проверяет, третья следит, чтобы никто не мухлевал: как нейронные сети работают над изображениями и видео
Тренды
«Ну как бы э-э-э»: почему Google Duplex — не прорыв
Тренды
Ростуризм предложил создать аналог Booking.com в России
Мнения
В Бурятии прошло новое тестирование почтовых дронов. На этот раз беспилотник не разбился
Тренды
Создатели Pokemon Go выпустят новую игру в 2018 году
Кейсы
Роман Аранин, Observer: «Мы не хотим делать инвалидные коляски уровня «Жигулей»
Мнения
Большинство популярных витаминов оказались бесполезными
Кейсы
Virgin Galactic провела успешное испытание космического корабля для туристов
Частный космос
В США представили мобильную энергоэффективную деревню, напечатанную на 3D-принтере
Умный дом
Тренды
Сбербанк начнет выдавать биометрические водительские права уже в декабре 2018 года
Китай пригласил любые страны развивать свою околоземную станцию — замену МКС
Частный космос
Samsung открыла в России центр искусственного интеллекта — в нем будут сотрудничать со стартапами и студентами
Тренды
Инженеры BMW и MIT работают над проектом надувного автомобиля
Тренды
Исследование показало, что худшие пароли — названия музыкальных групп, брендов и футбольных команд
Кейсы
Тренды
Ученые нашли в Антарктиде три огромных каньона, скрытых под 2 километрами льда
НАСА отправит на Марс крошечную химическую лабораторию в рамках миссии ExoMars для поисков жизни
Есть ли жизнь на Марсе
Пираты распространили новинки кино через Сhrome Web Store
Кейсы