Лаборатория DeepMind опубликовала данные своего последнего исследования в области синтеза речи, более известной как Text-To-Speech, или TTS. Разработанная и обученная сотрудниками компании искусственная нейронная сеть WaveNet говорит по-английски и по-китайски более естественно, чем новейшие системы TTS Google.
WaveNet — это сверточная нейронная сеть, которая, после обучения на основании большого объема данных, может делать умозаключения о новых данных. Или генерировать новые данные. Эту технологию широко используют, в основном, в распознавании изображений Facebook и тот же Google.
Для обучения WaveNet разработчики пригласили профессиональных дикторов, а результаты своего труда сравнили с двумя другими распространенными технологиями — скрытой марковской моделью (HMM) и конкатенативной системой. Тестовая группа слушателей пришла к выводу, что речь, синтезированная WaveNet, звучит более естественно, чем созданная двумя другими системами (но ее все еще нельзя спутать с человеческой). Впрочем, вы можете убедиться в этом сами.
Исследователи пошли дальше и научили WaveNet создавать музыку, дав послушать записи игры на пианино. Результат получился на удивление экспрессивным и эмоциональным.
Кроме того, технология была испробована для распознавания речи, и ученые снова оказались довольны: модель набрала 18,8% в тесте, что, насколько известно инженерам DeepMind, лучший результат, которого добивалась система, обученная напрямую по базе данных аудиозаписей речи TIMIT, пишет VentureBeat.
![](https://hightech.fm/wp-content/uploads/2018/10/5187.jpg)
Следующей жертвой алгоритма DeepMind может стать покер
Идеи
Собирается ли Google использовать WaveNet в существующих продуктах — неизвестно, но вполне вероятно. Другая разработка лаборатории, система сокращения потребления энергии в дата-центрах, уже экономит компании миллионы.