1 февраля 2019

Google создал базу данных из 68 синтезированных голосов

Инженеры Google опубликовали базу данных из нескольких тысяч записей синтезированных голосов — речевых сигналов, сформированных из печатного текста. Об этом говорится в блоге компании.

В базу входят несколько отрывков текста, синтезированного 68 разными голосами. Все они записаны на английском языке, а некоторые моделируют различные акценты — британский, американский, ирландский и другие.

Пока доступ к дата-сету имеют только разработчики, победившие в конкурсе на разработку алгоритмов для распознавания синтезированной речи Automatic Speaker Verification. В будущем она станет доступной всем желающим.


Ранее инженеры из Корейского института передовых технологий научили искусственный интеллект выбирать правдоподобные жесты для иллюстрирования синтетической речи. Нейросеть обучалась на основе 52 часов записей с конференции TED Talks.

В прошлом году китайский технологический гигант Baidu представил улучшенную систему синтеза речи Deep Voice. Технология быстро обучается и воспроизводит текст голосом говорящего с высокой точностью. Аудиоклонирование позволяет искусственно генерировать любые слова и предложения, воссоздавая при этом акцент и другие особенности речи говорящего.