Существующие системы распознавания речи требуют множество аннотаций и транскрипций для эффективного выполнения задач. Разработанная инженерами из MIT система работает проще — например, ей достаточно сказать «синяя рубашка», и ИИ найдет объект на изображении.
Система состоит из двух нейросетей — первая делит изображение на сетку из маленьких ячеек, а вторая разделяет звуковую спектрограмму на короткие отрезки по одной-две секунды. Затем ИИ проверяет, насколько точно аудиодорожка соответствует изображению в сетке.
Ученые полагают, что разработка может использоваться для создания переводчиков, способных распознать язык и подобрать подходящий перевод с точностью до 100%.
Искусственный интеллект от MIT по речи поймет, есть ли у человека депрессия
Новости
Ранее инженеры из Лаборатории компьютерных наук Массачусетского технологического института создали искусственный интеллект, способный определить структуру и назначение объекта, с которым алгоритм никогда раньше не сталкивался. Разработка позволит сделать роботов действительно эффективными помощниками на производстве и дома.