Алгоритм распознавания речи от Microsoft сравнялся с человеком

Исследователи ИИ-подразделения Microsoft объявили, что созданная ими система распознавания речи практически сравнялась с человеком. Вероятность ошибки в кодовом слове (WER) составила 5,9% - столько же, сколько у профессиональных транскрибаторов.

Добиться таких показателей ученым помогли глубокие нейронные сети, способные хранить значительные объемы информации, — так называемые наборы обучающих данных. С их помощью система научилась распознавать паттерны в речи человека. Исследователи применили нейронные языковые модели для формирования ассоциативных облаков слов.

Система научилась понимать, что слово fast по смыслу ближе к quick, но никак не к slow. Благодаря этому алгоритм лучше ориентируется в речи и лучше понимает контекст. В процессе разработки был использован набор инструментов глубокого обучения Computational Network Toolkit от Microsoft.

«Вы не поверите, насколько дешево сделать электромобиль»

Напомним, в сентябре разработчики Microsoft достигли самого высокого в мире уровня распознавания речи на тот период — процент ошибок алгоритма составил всего 6,3%. На этот раз компания побила собственный рекорд на 0,4%. Такой процент ошибок считается самым низким в индустрии. Показатель WER у профессиональных транскрибаторов так же составляет 5,9%, отмечает Microsoft в тексте исследования.

Главный эксперт компании по изучению речи Сюэдун Хуанг заявил, что равенство ИИ и человека в этой сфере следует считать историческим достижением. Однако авторы исследования подчеркивают, что алгоритм, как и человек, пока далек от совершенства. Исследователи будут испытывать систему в шумной среде — на улицах, в ресторанах и на открытых площадках в ветреную погоду. Следующим поворотным моментом должно стать не только распознавание речи, но и ее понимание, считают в компании.

Установленный рекорд позволит усовершенствовать системы распознавания речи в Xbox, Cortana и других продуктах Microsoft.

Купить реактивный ранец можно будет уже в 2017 году

Алгоритмы учатся не только понимать речь, но и синтезировать ее. Так нейросеть WaveNet от DeepMind говорит по-английски и по-китайски более естественно, чем новейшие системы TTS Google. Хотя пока что спутать робота с человеком нельзя, система все равно превосходит большинство существующих аналогов.

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Томатам вернули сладость, отключив два гена
Наука
«Красные монстры» ранней Вселенной противоречат моделям развития галактик
Наука
Google использовал 40 000 000 телефонов, чтобы составить карту ионосферы
Наука
Физики обнаружили, что сам свет может отбрасывать тень
Наука
Продолжительность детства у древних людей изучили по ископаемым зубам
Наука
Оказалось, мы живем не в лучшей для разумной жизни Вселенной
Космос
В России пройдет международный хакатон по обнаружению голосовых дипфейков
Новости
Этот гаджет превратит смартфон во флейту или другой музыкальный инструмент
Новости
Госдума обяжет установку RuStore на всех гаджетах в России: проект приняли в I чтении
Новости
Эйнштейн ошибался: его главная теория не подходит нашей Вселенной
Космос
Сотни стартапов и тысячи идей: в Москве подвели итоги форума «ТехПред 2024»
Новости
Контур.Толк запускает бесплатную версию для онлайн-встреч без ограничений по времени
Технологии
Starship довезет пассажиров из Европы в США за полчаса на скорости 27 000 км/ч
Новости
Новое приложение для видеокарт GeForce от Nvidia уже доступно для скачивания
Новости
Rutube упростил подачу сведений о блогерах в Роскомнадзор
Новости
Бюджетный термоядерный реактор смог удержать плазму при 300 000 °С 
Новости
Посмотрите на картину робота-художника: ее продали 1 000 000 долларов
Новости
Илона Маска назначили в Белый дом: какие планы у миллиардера в правительстве Трампа
Новости
Ученая вылечила собственный рак с помощью вирусов из лаборатории
Наука
Платформу китайского гуманоидного робота открыли для всех разработчиков
Новости