Технологии

Baidu представила технологию расшифровки речи

Далее

Компания Baidu, известная в мире как “китайский Google”, представила SwiftScribe - веб-приложение, которое расшифровывает речь с помощью искусственного интеллекта, пишет Digital Trends.

SwiftScribe распознает файлы в формате .wav и .mp3. Как только загрузка завершена, начинается процесс расшифровки. 30-секундный файл занимает около 10 секунд, а одноминутный — менее 30. Максимальная длительность аудиозаписи, которую позволяет расшифровать приложение — 1 час, чтобы перевести ее в текст понадобится 20 минут.

Приложение не всегда работает идеально, SwiftScribe иногда пропускает слова, путается в заглавных буквах и пунктуации. Пользователям предлагается редактируемое поле, в которое можно вносить свои корректировки. Сейчас сервис работает с английским языком.

По словам проектного менеджера Baidu, Тянь Ву, SwiftScribe может сократить время на расшифровку аудио в 1,67 раза. В настоящий момент приложение доступно бесплатно, но компания надеется монетизировать его. Недавно Baidu также представила свой алгоритм Deep Voice, который научился разговаривать за несколько часов и без помощи человека.

Создатель Linux: «Разговоры об инновациях — полная чушь»

Недавно IBM объявила, что побила рекорд в технологиях распознавания речи. Компании удалось снизить долю ошибок в компьютерном распознавании речи до 5,5% — это новый рекорд. Ранее ИИ компании показывал результат в 6,9%, а прежний рекорд алгоритма от Microsoft составлял 5,9% ошибок. Для человека доля ошибок в распознавании речи равна примерно 5%.

Загрузка...