В базу входят несколько отрывков текста, синтезированного 68 разными голосами. Все они записаны на английском языке, а некоторые моделируют различные акценты — британский, американский, ирландский и другие.
Пока доступ к дата-сету имеют только разработчики, победившие в конкурсе на разработку алгоритмов для распознавания синтезированной речи Automatic Speaker Verification. В будущем она станет доступной всем желающим.
Ранее инженеры из Корейского института передовых технологий научили искусственный интеллект выбирать правдоподобные жесты для иллюстрирования синтетической речи. Нейросеть обучалась на основе 52 часов записей с конференции TED Talks.
В прошлом году китайский технологический гигант Baidu представил улучшенную систему синтеза речи Deep Voice. Технология быстро обучается и воспроизводит текст голосом говорящего с высокой точностью. Аудиоклонирование позволяет искусственно генерировать любые слова и предложения, воссоздавая при этом акцент и другие особенности речи говорящего.