Языковые модели научили понимать сложные трехмерные сцены
Новости 4 августа 2025

Языковые модели научили понимать сложные трехмерные сцены

Далее

Новая архитектура поможет роботам хорошо ориентироваться не только в симуляторах, но и в реальном мире.

Большие языковые модели совершили революцию в обработке текста, но их способность работать с реальным трехмерным миром остается ограниченной. При анализе окружающей среды традиционные LLM-подходы либо опираются на двухмерные изображения, теряя глубину и пространство, либо на необработанные облака точек, не улавливая смысловые связи между объектами. В результате ИИ может распознать стол и стул, но не поймет, что стул стоит у стола и предназначен для сидения, а это — критически важный контекст для взаимодействия с окружающим миром. 

Команда Института AIRI и Центра когнитивного моделирования МФТИ представила 3DGraphLLM — метод, который расширяет возможности больших языковых моделей при работе с трехмерным пространством. Научная работа принята к публикации на одной из ведущих конференций в области компьютерного зрения — ICCV, а сама нейросетевая модель уже тестировалась на данных, собранных в Центре робототехники Сбера.

В отличие от прежних решений, 3DGraphLLM позволяет учитывать пространственные и семантические связи между элементами сцены — от расположения до относительных размеров и контекста использования. Это особенно важно при анализе насыщенных бытовых пространств, таких как кухня, мастерская или офисное помещение, где десятки объектов тесно связаны друг с другом.

Модель обучалась на данных из наиболее известных и больших датасетов ScanNet, 3RScan, которые содержат точные реконструкции реальных помещений, и расширенных датасетов вроде ScanRefer и Multi3DRefer, содержащих текстовые запросы к реконструированным сценам. В качестве языковых моделей использовались Vicuna-v1.5 и LLAMA3 соответственно с 7 и 8 миллиардами параметров — относительно компактные, чтобы запускаться на энергоэффективных компьютерах с графическим процессорами (например, Nvidia Jetson AGX Orin), которые обычно встраиваются в робототехнические платформы.

Запрос пользователя: Назови тип комнаты?3DGraphLLM: Комната в отеле
Запрос пользователя: Могу ли я приготовить обед в этой комнате?3DGraphLLM: Нет
Запрос пользователя: Какой объект я могу использовать, чтобы сделать домашнюю работу? Ответь, используя ID объекта
3DGraphLLM: <OBJ037> (стол)
Примеры того, как разработанная модель 3DGraphLLM отвечает на вопросы по трехмерной сцене 

Предложенный метод демонстрирует значительное превосходство по качеству поиска 3D-объектов над экспертными моделями, не использующими LLM (точность выше более чем на 10%). Для сравнения выбраны 11 методов, среди которых 3D-VisTA, PQ3D, ViL3DRel.

Среди 12 современных подходов на основе больших языковых моделей 3DGraphLLM занял лидирующую позицию. Предложенная идея использования графа 3D-сцены позволила более чем на 7% улучшить точность распознавания объектов по текстовому описанию по сравнению с базовым методом Chat-Scene на общепризнанных бенчмарках ScanRefer и Multi3DRefer.  Кроме того, 3DGraphLLM достигает такого же уровня качества, как SOTA-метод GPT4Scene, обрабатывая запрос пользователя в 2-4 раза быстрее и используя в 10 раз меньшее количество входных токенов за счет сжатия графа сцены.

«Сейчас мы работаем над интеграцией метода в реальные робототехнические платформы. Важно, чтобы робот не просто распознавал окружающие предметы, но и понимал, как объекты соотносятся друг с другом и с задачами пользователя. Такие навыки критичны для сервисных, образовательных и бытовых роботов следующего поколения», — отметил Дмитрий Юдин, кандидат технических наук, ведущий научный сотрудник лаборатории когнитивных систем искусственного интеллекта AIRI, заведующий Лабораторией интеллектуального транспорта Центра когнитивного моделирования МФТИ.