Система преобразования текста в речь Deep Voice от Baidu научилась отражать различия в региональных акцентах. Новая версия технологии, Deep Voice 2, может обучиться на сотнях различных голосов за полчаса, при этом будет достигнуто высокое качество звука, пишет Engadget.
Это впечатляющий результат, особенно если учесть, что предыдущая версия алгоритма обучалась около 20 часов. По данным Baidu, в отличие от прошлых систем преобразования текста в речь, Deep Voice 2 распознает сходства между голосами самостоятельно и без указаний. А потому он может учиться у большого количества голосов.
Систему распознавания голоса Deep Voice компания представила в марте этого года. Нейронная сеть Baidu может создавать качественный голос даже на основе небольших образцов записи голоса. В дальнейшем развитие подобных технологий приведет к тому, что цифровые помощники будут разговаривать с нами голосами, которые наиболее привычны нам.
В Китае ввели в эксплуатацию крупнейшую плавучую солнечную ферму
Технологии
По мнению генерального директора компании Робина Ли, переход от интернет-компаний к ИИ-компаниям позволит трансформировать различные отрасли промышленности, от автомобилестроения и электроники до домашней мебели. В марте Baidu также представила SwiftScribe — веб-приложение, которое расшифровывает речь с помощью искусственного интеллекта.