Google DeepMind подала патентную заявку на систему, которая наделяет роботов способностью к внутреннему монологу — описанию увиденного на естественном языке. Это позволяет роботам быстрее обучаться новым задачам, наблюдая за действиями людей.
Технология работает так: робот смотрит видео или изображение, где человек выполняет действие (например, поднимает чашку), и «внутренне проговаривает» — «человек поднимает чашку». Это связывает визуальные данные с речевыми описаниями и помогает лучше запоминать и воспроизводить действия — даже с незнакомыми объектами и без предварительного обучения.
Такой внутренний монолог помогает роботам сопоставлять визуальные данные с речевыми описаниями, что значительно улучшает их способность понимать и запоминать правильные действия при столкновении с похожими объектами.
Главное преимущество системы заключается в том, что она поддерживает обучение «с нуля»: роботы могут выполнять задачи с незнакомыми объектами без предварительного обучения.
DeepMind отмечает, что метод снижает требования к объему памяти и вычислительной мощности, необходимой для обучения роботизированных систем. Добавление внутренней речи обеспечивает роботам контекст, позволяя им принимать обоснованные решения и адаптироваться к новым ситуациям.
Проект развивается параллельно с другим направлением DeepMind — автономной моделью Gemini Robotics On-Device, представленной на прошлой недели. Она работает без облака и подходит для задач с минимальными задержками. Эта «стартовая модель» учится по 50–100 демонстрациям и работает даже на устройствах с ограниченной связью.
Читать далее:
Вода поднимется до 2 метров в Петербурге уже завтра: это впервые за 160 лет
Вирус герпеса перестраивает геном человека, но есть способ его остановить
Новый вирус пугает пользователей соцсетей: «горло будто порезали лезвием»
На обложке: кадр из демонстрационного видео Robotics On-Device