На конференции по нейронным системам обработки информации исследователи МТИ представили новый метод обучения систем распознавания речи, основанный не на транскрипции, а на сопоставлении изображений и их устных описаний.
«Цель этой работы — заставить машину изучать язык так, как это делает человек», — говорит Джим Гласс, старший научный сотрудник и соавтор исследования. Успехи Siri и Google впечатляют, но метод, который используется для их обучения, очень дорогой, поэтому его применяют только для самых распространенных языков. В мире примерно 7000 языков, но только для 2% из них созданы автоматические системы распознавания устной речи.
Исследователи МТИ создали систему, которая связывает запись устной речи с группой тематически подобранных изображений. Если, к примеру, высказывание ассоциируется с отдельным классом изображений, а у изображений есть текстовое описание, машина может найти транскрипцию без вмешательства человека. Аналогичным образом класс изображений с описанием на разных языках даст возможность сделать автоматический перевод.
Компания DroneShield создала антидроновое ружье
Идеи
Система, которая изучает визуализацию слов, обладает более широким потенциалом применения, чем стандартная система распознавания речи.
Во время испытаний ученые «скормили» компьютеру базу данных из 1000 изображений, каждое из которых обладало вербальным описанием в аудиоформате. Затем проиграли одну из записей и попросили найти 10 изображений, которые лучше всего подходят к высказыванию. Корректность выбора машины исследователи оценили в 31%, сообщает MIT News.
«Я всегда подчеркиваю, что мы движемся маленькими шагами, и нам предстоит пройти долгий путь, — говорит Гласс. — Но это обнадеживающий старт».
Boom возрождает сверхзвуковые «Конкорды»
Идеи
С помощью глубоких нейронных сетей исследователи Microsoft добились того, что созданная ими система распознавания речи практически сравнялась с человеком и научилась формировать ассоциации.