Благодаря новой модели глубинного обучения ИИ воспринимает неочевидные связи между объектами в конкретной ситуации. Сперва модель понимает каждую отдельную связь, а потом составляет из них общую картину. В частности, это помогает ИИ генерировать более точные изображения из текстовых описаний.
Этот подход поможет в ситуациях, когда роботам поручают сложные многоступенчатые задачи: размещение вещей на складских площадках или при сборке техники. Без понимания связей инструкция «подними коробку справа от шкафа и положи его на полку сверху» вынудила бы робота растеряться. А еще такой подход приближает будущее, где роботы смогут обучаться, взаимодействуя со средой. Совсем как люди.
«Когда я смотрю на стол, я не могу определить координаты объекта. Наш мозг работает по-другому: мы понимаем ситуацию исходя из связей между объектами. Думаем, что научив этому ИИ, мы дадим ему возможность более эффективно оперировать средой», — говорит Юлин Ду, аспирант Лаборатории искусственного интеллекта МТИ.
Модель работает и наоборот: она учится создавать текстовое описание объектов на изображении. А еще — редактировать изображение, чтобы расположить вещи так, как сказано в изменившемся описании.
Исследователи сравнивали свою модель с другими методами глубинного обучения, где ИИ ставили задачу сгенерировать изображение по описанию. Во всех случаях их вариант превосходил ожидания. Для подтверждения наблюдений работу модели оценивали и люди: их спросили, насколько созданное изображение соответствует описанию. В самых сложных примерах, где было три связи между объектами, 91% участников подтвердил, что новая модель показала лучший результат. «Интересно, что мы можем повышать сложность, увеличивая количество связей, но наша модель все равно справляется. А другие — нет», — добавляет Ду.
Инженеры опробовали и иные подходы, показывая модели сцены, которые она не видела до этого, предлагая разные описания одной модели, и она все равно справлялась с тестированием. Но инженеры осторожны в прогнозах: пока они планируют проверить свою модель на объектах реального мира, где много визуального шума, а объекты заслоняют друг друга.
Читать далее
Посмотрите, как выглядит Сатурн с Луны. Фото сделал орбитальный аппарат НАСА
Исследователи «прочитали» мысли медузы
Школьница нашла клад бронзового века: 65 артефактов датируются 1 300 годом до н.э.