Google Research заставляет роботов учиться на своих ошибках
Кейсы 30 марта 2016

Google Research заставляет роботов учиться на своих ошибках

Далее

Для того чтобы научиться брать предметы руками, ребенок все детство пробует и учится на своих ошибках. У машин нет столько времени, поэтому Google Research собрали несколько роботов-манипуляторов и заставили их целый месяц подбирать предметы разной формы, размера и веса. Инженеры рассказали, почему этот подход можно считать уникальным, и почему 800 000 раз - это только начало.

Успехам в хватании предметов мы обязаны, в частности, зрению. Вещь можно подобрать и не видя ее, но если следить за движением рук, то получается лучше. У роботов есть аналог зрения, обеспечивающий визуальное самоуправление, которое не только повышает точность движений, но и позволяет брать предметы, которые движутся вокруг вас и меняют направление в тот момент, когда вы их хватаете.

Обучение роботов такому навыку — задача сложная, потому что между данными сенсоров и действиями нет обязательной связи, особенно если данные с датчиков поступают постоянно.

Более изобретательный способ — это позволить роботам учиться самостоятельно. Команда ученых Google Research при помощи коллег из X, поставила задачу роботу 7-DoF подбирать предметы в лотке, используя монокулярное визуальное самоуправление и сверточную нейронную сеть (CNN) для предугадывания последствий хвата.

CNN постоянно обучается (поначалу ошибок много, потом их становится меньше), а чтобы ускорить процесс, Google поставила рядом еще 14 роботов. Все они полностью автономны: людям нужно было лишь наполнить лотки предметами и включить питание.

Выполняя задание, робот постоянно предсказывает, наблюдая за действием своей руки, какое следующее действие максимально увеличит эффективность. В результате получается своего рода координация движений между глазом и рукой.

В будущем инженеры Google Research планируют увеличить разнообразие методик обучения, чтобы узнать, насколько более адаптивными может быть их технология.

Наблюдая за примерно 800 000 попытками (около 3000 робото-часов практики), ученые сделали вывод, что у них начинает формироваться реактивное поведение. Роботы оценивают движения своего манипулятора и корректируют его действия в реальном времени.

Также роботы стали проявлять интересные особенности поведения. Например, они отделяли один предмет от других, чтобы легче было его взять. Все эти действия возникли спонтанно, в процессе обучения, а не были запрограммированы.