Сообщить об ошибке на сайте
URL
Ошибка
Идеи

Китайский технологический гигант Baidu представил улучшенную систему синтеза речи Deep Voice. Технология быстро обучается и воспроизводит текст голосом говорящего с высокой точностью. «Аудиоклонирование» позволяет искусственно генерировать любые слова и предложения, воссоздавая при этом акцент и другие особенности речи говорящего.

В новом исследовании Baidu представила усовершенствованную технологию распознавания речи Deep Voice. В блоге компания рассказала, что на обучение алгоритма уходит не более получаса. За это время система изучает образцы голоса говорящего и учится их имитировать. Один алгоритм способен воспроизводить тысячи голосов. Однако чем больше образцов изучает система, тем качественнее становится имитация.

На сайте GitHub можно прослушать аудиофайлы с демонстрацией возможностей Deep Voice. Для сравнения компания опубликовала примеры клонированной речи, воссозданной на примере 5, 10, 20, 50 и 100 образцов. После 5 и 10 образцов алгоритм воспроизводит речь не слишком отчетливо. По мере обучения синтезированная речь становится все более правдоподобной. Но, как отмечает The Register, пока имитацию можно отличить от оригинала по низкому качеству звука и шумам.

Компания представила технологию Deep Voice в марте прошлого года. В мае алгоритм Deep Voice 2 уже научился имитировать акценты и синтезировать речь всего за полчаса. Тогда система могла работать с сотнями образцов. Улучшенная модель способна обрабатывать тысячи голосов. При этом синтезировать голос алгоритм может даже после прослушивания коротких фраз длиной в несколько секунд.

При клонировании голоса Baidu использует две техники — метод адаптации и метод расшифровки. В первом случае система изучает голоса нескольких говорящих. В экспериментах компания использовала набор данных LibriSpeech, в котором собраны образцы речи 2484 человек. Алгоритм выделяет отдельные компоненты в произнесенных фразах и имитирует голос с учетом особенностей произношения и ритма. При методе расшифровки система исследует речь каждого говорящего в отдельности, а сам процесс занимает всего несколько секунд.

Один из авторов исследования Серкан Арик рассказал The Register, что метод расшифровки проще применить в реальной жизни. Он не требует большого объема памяти и подходит для использования на смартфонах и умных колонках. Пока система далека от совершенства, но в будущем она позволит создавать голосовых помощников, которые будут говорить голосом пользователя. Причем на процесс обучения уйдет несколько минут.

По словам Арика, о рисках технологии пока говорить рано — алгоритм еще не умеет синтезировать речь со 100%-ной точностью. Однако в будущем Baidu планирует защитить систему от использования в преступных целях.

Генеративные сети и базовые алгоритмы на основе машинного обучения уже умеют генерировать фотографии, изображения и видеоролики, которых никогда не существовало в действительности. Так, алгоритм Nvidia научился создавать убедительные фальшивые видео, на которых день преобразуется в ночь, а зимний пейзаж — в летний. При этом отличить синтезированный контент от настоящего практически невозможно.

Некоторые эксперты уже говорят о наступлении информационного апокалипсиса, первыми признаками которого стали фальшивые новости в социальных сетях. Со временем у людей может выработаться апатия по отношению к реальности и полная неспособность отличить правду от вымысла.

Загрузка...
Подписывайтесь на наши каналы в Telegram

«Хайтек» - новости онлайн по мере их появления

«Хайтек» Daily - подборки новостей 3 раза в день

Колонизация отменяется: почему терраформирование невозможно на Марсе
Тренды
Сет Стивенс-Давидовиц: у людей гораздо больше непристойных и скверных мыслей, чем мы думали
Мнения
Умные города подвергают своих жителей опасности из-за датчиков освещения и радиации
Тренды
Биоценоз в фарме: зачем нужна альтернатива антибиотикам и как работают лекарства нового поколения
Тренды
Мнения
Геронтолог Обри ди Грей: жизнь длиной в тысячу лет — это побочный эффект поиска вечного здоровья
Чарльз Адлер, co-founder Kickstarter: я — панк-рокер, который раздвигает границы
Кейсы
Как ИИ меняет медицину: личный помощник для врачей, маршрутизатор в клиниках и разработчик лекарств
Кейсы
Эдвин Диндер, Huawei Technologies: умный город — это ничто
Мнения
«Если изобретение с ИИ не приносит пользу, сам продукт никому не нужен»
Мнения
Feature engineering: шесть шагов для создания успешной модели машинного обучения
Тренды
Карло Ратти, Senseable City Laboratory (MIT) — о городах будущего, третьей коже человека и роболодках
Тренды
Мнения
Человек — это набор из пяти чисел: Игорь Волжанин, DataSine — о психотипировании с помощью big data
Мы все — сенсоры: CEO SQream Ами Галь — о том, как обрабатывают big data
Кейсы
Что такое скрапинг: как Amazon, Walmart и другие ритейлеры используют ботов в борьбе с конкурентами
Идеи
Почему китайские подлодки-беспилотники станут самым опасным врагом под водой?
Идеи
Филипп Роуд, LSE Cities: самый кошмарный сценарий — беспилотники, ездящие по городу, чтобы не платить за парковку
Мнения
Юрий Корженевский — о том, как построить безопасные системы для банков на блокчейне
Блокчейн
MyGenetics: ДНК-тесты, помогающие «взломать» организм, как компьютер
Тренды
Иннополис
Russian Robot Olympiad: как дети строят роботов и решают реальные инженерные проблемы
Trade-to-Mine: как биржи привлекают трейдеров в условиях падения рынка
Блокчейн
Дмитрий Фадин, 3D Bioprinting Solutions — о будущем биопринтинга и печати органов в космосе
Мнения
IoT изменит все: какие умные технологии принесут бизнесу экономию, безопасность и инновации
Тренды
Как высокие технологии побуждают нас покупать билеты и туристические услуги
Тренды
Чем плоха Кремниевая долина для IT-стартапов из России: дорого, неудобно и нет транспорта
Мнения
Жить по-умному: как защитить свой дом и не бояться киберугроз
Умный дом
Андрей Синогейкин, Wonder Technologies, — об искусственных алмазах
Тренды
Никита Бокарев, ESforce, — о деньгах, киберспорте и его немаргинальности
Тренды
Тренды
YouTube-депрессия: как создатели популярных каналов боятся потерять подписчиков и разум
Гельмут Райзингер, Orange Business Services, — об IIoT, 5G и телеком-стартапах
Мнения
«Робот берет вас на работу»: как искусственный интеллект, блокчейн и VR подбирают персонал
Мнения
Телемедицина, роботы и умные дома: каким через 5 лет будет «оцифрованный» город в России
Тренды
Мясная революция: как перейти от веганских заменителей к клеточным технологиям и биореакторам
Идеи
AI-выборы: как искусственный интеллект и голосовые помощники сделают демократию лучше
Тренды
Идеи
Тупик для беспилотников: как мечты разработчиков разбиваются о неожиданности на дорогах
Здесь нужен InsurTech: за какими стартапами будущее страхования
Мнения
Идеи
Вирус лженауки в Google: как поисковые системы распространяют опасные мифы о прививках
«Кто-то управляет моим домом»: как жертв домашнего насилия терроризируют с помощью умных устройств
Умный дом
Паскаль Фуа, EPFL, — о ключевых точках, глубоких нейросетях и эпиполярной геометрии
Мнения
20 фильмов о кибербезопасности, взломах и цифровых преступлениях
Тренды
Ян Лекун, Facebook: прогностические модели мира — решающее достижение в ИИ
Мнения
Джианкарло Суччи: «Попытка спроектировать программу без багов — утопия»
Иннополис
Game out: Как видеоигры обучают детей-аутистов держать равновесие и узнавать людей
Тренды
Прослушка, контроль камеры и предсказание смерти пользователя: самые странные патенты Facebook
Кейсы
Цес Снук, QUVA: мы не хотим зависеть от крупных компаний, которые владеют всеми данными
Мнения
Дмитрий Песков, АСИ: «В России традиционно долго запрягают, и в сфере IT мы только этим и занимаемся»
Иннополис
ДНК-тесты: как генетические компании обманывают людей и разрушают семьи
Мнения
Мануэль Маццара: «Для Facebook вы не покупатель, вы — продукт»
Иннополис
Тренды
Блокчейн, искусственное мясо и «смерть» смартфонов: что будет с технологиями через 10 лет
Витторио Феррари, Google: «Чтобы машина распознала книгу о Гарри Поттере нужна сложная математическая модель»
Мнения