Алгоритм распознавания речи от Microsoft сравнялся с человеком

Исследователи ИИ-подразделения Microsoft объявили, что созданная ими система распознавания речи практически сравнялась с человеком. Вероятность ошибки в кодовом слове (WER) составила 5,9% - столько же, сколько у профессиональных транскрибаторов.

Добиться таких показателей ученым помогли глубокие нейронные сети, способные хранить значительные объемы информации, — так называемые наборы обучающих данных. С их помощью система научилась распознавать паттерны в речи человека. Исследователи применили нейронные языковые модели для формирования ассоциативных облаков слов.

Система научилась понимать, что слово fast по смыслу ближе к quick, но никак не к slow. Благодаря этому алгоритм лучше ориентируется в речи и лучше понимает контекст. В процессе разработки был использован набор инструментов глубокого обучения Computational Network Toolkit от Microsoft.

«Вы не поверите, насколько дешево сделать электромобиль»

Напомним, в сентябре разработчики Microsoft достигли самого высокого в мире уровня распознавания речи на тот период — процент ошибок алгоритма составил всего 6,3%. На этот раз компания побила собственный рекорд на 0,4%. Такой процент ошибок считается самым низким в индустрии. Показатель WER у профессиональных транскрибаторов так же составляет 5,9%, отмечает Microsoft в тексте исследования.

Главный эксперт компании по изучению речи Сюэдун Хуанг заявил, что равенство ИИ и человека в этой сфере следует считать историческим достижением. Однако авторы исследования подчеркивают, что алгоритм, как и человек, пока далек от совершенства. Исследователи будут испытывать систему в шумной среде — на улицах, в ресторанах и на открытых площадках в ветреную погоду. Следующим поворотным моментом должно стать не только распознавание речи, но и ее понимание, считают в компании.

Установленный рекорд позволит усовершенствовать системы распознавания речи в Xbox, Cortana и других продуктах Microsoft.

Купить реактивный ранец можно будет уже в 2017 году

Алгоритмы учатся не только понимать речь, но и синтезировать ее. Так нейросеть WaveNet от DeepMind говорит по-английски и по-китайски более естественно, чем новейшие системы TTS Google. Хотя пока что спутать робота с человеком нельзя, система все равно превосходит большинство существующих аналогов.

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Экспериментальный лазер передал данные с зонда «Психея» на расстоянии 226 млн километров
Космос
Посмотрите на самое близкое фото обломка ракеты в космосе
Космос
Ученые нашли следы древних ритуалов майя на благословение
Наука
В Китае появились батареи со сверхбыстрой зарядкой для электрокаров: запас хода составляет 1000 км
Новости
Найдены скрытые «дорожки для мертвых»: их обнаружили с помощью лидара
Наука
Беспилотные грузовики Evocargo начинают работу во «Внуково» в рамках эксперимента
Новости
«Человеческие нейронные сети потребляют около 20 Вт, а искусственные — сотни ватт»
Технологии
Ученые считают, что недалеко от Земли есть «живая» планета
Новости
Китай готов к автономным летающим такси: когда будут первые полеты
Новости
Посмотрите на сотни черных «пауков», которые заполонили Марс весной
Космос
Где похоронен Платон: ученые наконец-то нашли ответ
Наука
Почему мужчины умирают в России на 10 лет раньше женщин: в Минздраве назвали причину
Новости
Крошечный и тонкий экран отслеживает активность мозга во время операции
Новости
Российские школьники создают автономную систему для борьбы с браконьерами
Новости
Телескоп НАСА наблюдал сверхновую, которая противоречит современным теориям
Космос
Данные передали со скоростью 25 Мбит/с на расстоянии в 226 000 000 км
Космос
Мертвая звезда осветила мощной вспышкой соседнюю галактику
Космос
Биологи представили альтернативную теорию происхождения строительных блоков жизни
Наука
Биоинженеры спроектировали клетки-киллеры для терапии рака мозга
Наука
Как Process Mining и Task Mining повышают эффективность и прибыльность бизнеса
Мнения