Нейросеть научилась искать объекты на изображении по голосовому описанию

Существующие системы распознавания речи требуют множество аннотаций и транскрипций для эффективного выполнения задач. Разработанная инженерами из MIT система работает проще — например, ей достаточно сказать «синяя рубашка», и ИИ найдет объект на изображении.

Система состоит из двух нейросетей — первая делит изображение на сетку из маленьких ячеек, а вторая разделяет звуковую спектрограмму на короткие отрезки по одной-две секунды. Затем ИИ проверяет, насколько точно аудиодорожка соответствует изображению в сетке.

Ученые полагают, что разработка может использоваться для создания переводчиков, способных распознать язык и подобрать подходящий перевод с точностью до 100%.

Искусственный интеллект от MIT по речи поймет, есть ли у человека депрессия

Новости

Ранее инженеры из Лаборатории компьютерных наук Массачусетского технологического института создали искусственный интеллект, способный определить структуру и назначение объекта, с которым алгоритм никогда раньше не сталкивался. Разработка позволит сделать роботов действительно эффективными помощниками на производстве и дома.

Нейросеть научилась искать объекты на изображении по голосовому описанию

Читайте «Хайтек» в