Сообщить об ошибке на сайте
URL
Ошибка
Идеи

Китайский технологический гигант Baidu представил улучшенную систему синтеза речи Deep Voice. Технология быстро обучается и воспроизводит текст голосом говорящего с высокой точностью. «Аудиоклонирование» позволяет искусственно генерировать любые слова и предложения, воссоздавая при этом акцент и другие особенности речи говорящего.

В новом исследовании Baidu представила усовершенствованную технологию распознавания речи Deep Voice. В блоге компания рассказала, что на обучение алгоритма уходит не более получаса. За это время система изучает образцы голоса говорящего и учится их имитировать. Один алгоритм способен воспроизводить тысячи голосов. Однако чем больше образцов изучает система, тем качественнее становится имитация.

На сайте GitHub можно прослушать аудиофайлы с демонстрацией возможностей Deep Voice. Для сравнения компания опубликовала примеры клонированной речи, воссозданной на примере 5, 10, 20, 50 и 100 образцов. После 5 и 10 образцов алгоритм воспроизводит речь не слишком отчетливо. По мере обучения синтезированная речь становится все более правдоподобной. Но, как отмечает The Register, пока имитацию можно отличить от оригинала по низкому качеству звука и шумам.

Компания представила технологию Deep Voice в марте прошлого года. В мае алгоритм Deep Voice 2 уже научился имитировать акценты и синтезировать речь всего за полчаса. Тогда система могла работать с сотнями образцов. Улучшенная модель способна обрабатывать тысячи голосов. При этом синтезировать голос алгоритм может даже после прослушивания коротких фраз длиной в несколько секунд.

При клонировании голоса Baidu использует две техники — метод адаптации и метод расшифровки. В первом случае система изучает голоса нескольких говорящих. В экспериментах компания использовала набор данных LibriSpeech, в котором собраны образцы речи 2484 человек. Алгоритм выделяет отдельные компоненты в произнесенных фразах и имитирует голос с учетом особенностей произношения и ритма. При методе расшифровки система исследует речь каждого говорящего в отдельности, а сам процесс занимает всего несколько секунд.

Один из авторов исследования Серкан Арик рассказал The Register, что метод расшифровки проще применить в реальной жизни. Он не требует большого объема памяти и подходит для использования на смартфонах и умных колонках. Пока система далека от совершенства, но в будущем она позволит создавать голосовых помощников, которые будут говорить голосом пользователя. Причем на процесс обучения уйдет несколько минут.

По словам Арика, о рисках технологии пока говорить рано — алгоритм еще не умеет синтезировать речь со 100%-ной точностью. Однако в будущем Baidu планирует защитить систему от использования в преступных целях.

Генеративные сети и базовые алгоритмы на основе машинного обучения уже умеют генерировать фотографии, изображения и видеоролики, которых никогда не существовало в действительности. Так, алгоритм Nvidia научился создавать убедительные фальшивые видео, на которых день преобразуется в ночь, а зимний пейзаж — в летний. При этом отличить синтезированный контент от настоящего практически невозможно.

Некоторые эксперты уже говорят о наступлении информационного апокалипсиса, первыми признаками которого стали фальшивые новости в социальных сетях. Со временем у людей может выработаться апатия по отношению к реальности и полная неспособность отличить правду от вымысла.

Загрузка...
Подписывайтесь на наши каналы в Telegram

«Хайтек» - новости онлайн по мере их появления

«Хайтек» Daily - подборки новостей 3 раза в день

Дмитрий Филатов, Sistema_VC: стартапы — это в первую очередь про людей, а во вторую — про деньги
Мнения
Эра Data Science: как меняется бизнес с приходом big data и новых технологий
Тренды
Народ против транспорта: почему люди недовольны, когда в городах строят новые станции метро
Идеи
Беспилотники против велосипедистов: как безопасные автомобили сделают жизнь людей хуже
Идеи
Кейсы
«Лиза Алерт»: как беспилотники и краудсорсинг помогают искать пропавших людей
SONM: как люди будут зарабатывать на собственных компьютерах с помощью блокчейна
Кейсы
Егор Матешук, ostrovok.ru: проблемы big data можно решить, закидывая пачки денег в топку
Мнения
Художник-граффитист Миша Most: технология — это кисть, которая создает будущее
Мнения
Лунная гонка: как мировые державы собираются присвоить себе спутник Земли
Идеи
Итоги Нобелевской недели. За что дали Нобелевскую премию в 2018 году?
Тренды
Руслан Шагалеев, Иннополис: война между корпорациями и городами ведется за человеческий капитал
Идеи
Кристина Хаверкамп, DENA: цена на электроэнергию должна сильнее коррелировать c погодой: много солнца и ветра — дешево, мало — дорого
Тренды
Тренды
7 лучших книг о технологиях и науке на русском языке, вышедших в 2018 году
Микрореволюция: фермеры с помощью микробов спасут мир от голода
Идеи
Мнения
Александр Тормасов, Университет Иннополис: мозги людей могут быть совершенно не готовы к восприятию новых идей
Одежда, которая поможет миру: костюм-помощник, майка-тренер и носок-няня
Тренды
В ожидании первого удара: как США готовятся к атаке со стороны России и Китая
Тренды
Страшнее метана: какие еще промышленные выбросы разрушают озоновый слой
Тренды
Интеллект большого города: как данные и умные алгоритмы улучшают качество жизни в мегаполисах
Тренды
На защите европейцев: как GDPR стал дырой в бюджете российских ИТ-компаний
Мнения
Игорь Балк, Global Innovation Labs: в XXI веке приватности нет и не будет
Тренды
Deneum: как заниматься холодным ядерным синтезом и бороться с сомнениями ученых
Кейсы
Расист, оружие и предвзятый судья — каким станет искусственный интеллект в будущем
Тренды
На совести информаторов: как громкие скандалы вокруг АНБ, Facebook и Tesla изменили мир
Тренды
NativeOS: нативная реклама в видео без репутационных потерь и терроризма от режиссера короткометражек
Кейсы
Тренды
Тихий убийца: как микропластик вызывает болезни и останавливает репродукцию живых организмов
Гонка для JavaScript-разработчиков: как постоянные обновления мешают работе
Тренды
Big data на страже здоровья: как и зачем медицинские организации собирают и хранят данные
Тренды
Николь Миллс, Booking.com — об инновациях, agile-подходе и индустрии впечатлений
Кейсы
Слишком опасный нанопластик: как одноразовые пакеты превращаются в частицы-убийцы
Тренды
Идеи
Человек и квантовая теория: существует ли то, что мы не наблюдаем
Здесь может быть ваша реклама: НАСА планирует заработать на космосе миллионы
Тренды
Опасный криптотрейдинг: как киберпреступники угрожают виртуальным сбережениям и биржам
Тренды
Как через 20 лет будет выглядеть армия будущего
Тренды
5 финансовых инструментов, которые помогут инвесторам даже после падения криптовалюты
Тренды
Александр Лямин, Qrator Labs: наша задача — выработать у людей цифровую гигиену, чтобы они «не ели с помойки»
Кейсы
Эдуард Фош Вильяронга: люди видят в роботе только внешность, забывая, что он следит за ними
Тренды
Доктор Куэй Во-Райнард, HIT Foundation: если страна требует суверенитета данных, мы построим для нее отдельный блокчейн
Кейсы
Роботы против мигрантов: какой вклад в ксенофобию и расизм делают технологии ИИ
Тренды
Идеи
«Хакинтош»: как собрать свой собственный Mac лучше, чем у Apple
Война скриптов — искусственный интеллект против навязчивой рекламы
Тренды
Как заново изобрести супермаркет: осознанность потребления, этика производства и роботы
Тренды
Каждый человек станет сам себе банком: цифровой мир отказывается от посредников между бизнесом и клиентом
Тренды
Архитектор вычислительной инфраструктуры «Платона» Александр Варламов — о будущем ИТ-индустрии в России, стартапах и разработке
Кейсы
Дмитрий Богданов, капитан сборной России по CS:GO — о стиле жизни киберспортсмена, тренировках и блокировках РКН
Тренды
Прайсинг, трекинг, скоринг, биллинг и другие технологии, которые двигают российский бизнес
Тренды
Идеи
Космос — наш дом: что осталось решить ученым, чтобы поселить человека за пределами Земли
«Педиатр 24/7»: как телемед-стартап подарил родителям спокойствие, а врачам — работу
Кейсы
Вас снова обманули: как человечество учит компьютеры определять фейки в интернете
Тренды