Лаборатория DeepMind опубликовала данные своего последнего исследования в области синтеза речи, более известной как Text-To-Speech, или TTS. Разработанная и обученная сотрудниками компании искусственная нейронная сеть WaveNet говорит по-английски и по-китайски более естественно, чем новейшие системы TTS Google.
WaveNet — это сверточная нейронная сеть, которая, после обучения на основании большого объема данных, может делать умозаключения о новых данных. Или генерировать новые данные. Эту технологию широко используют, в основном, в распознавании изображений Facebook и тот же Google.
Для обучения WaveNet разработчики пригласили профессиональных дикторов, а результаты своего труда сравнили с двумя другими распространенными технологиями — скрытой марковской моделью (HMM) и конкатенативной системой. Тестовая группа слушателей пришла к выводу, что речь, синтезированная WaveNet, звучит более естественно, чем созданная двумя другими системами (но ее все еще нельзя спутать с человеческой). Впрочем, вы можете убедиться в этом сами.
Исследователи пошли дальше и научили WaveNet создавать музыку, дав послушать записи игры на пианино. Результат получился на удивление экспрессивным и эмоциональным.
Кроме того, технология была испробована для распознавания речи, и ученые снова оказались довольны: модель набрала 18,8% в тесте, что, насколько известно инженерам DeepMind, лучший результат, которого добивалась система, обученная напрямую по базе данных аудиозаписей речи TIMIT, пишет VentureBeat.
Следующей жертвой алгоритма DeepMind может стать покер
Идеи
Собирается ли Google использовать WaveNet в существующих продуктах — неизвестно, но вполне вероятно. Другая разработка лаборатории, система сокращения потребления энергии в дата-центрах, уже экономит компании миллионы.