Кейсы 30 марта 2016

Google Research заставляет роботов учиться на своих ошибках

Далее

Для того чтобы научиться брать предметы руками, ребенок все детство пробует и учится на своих ошибках. У машин нет столько времени, поэтому Google Research собрали несколько роботов-манипуляторов и заставили их целый месяц подбирать предметы разной формы, размера и веса. Инженеры рассказали, почему этот подход можно считать уникальным, и почему 800 000 раз - это только начало.

Успехам в хватании предметов мы обязаны, в частности, зрению. Вещь можно подобрать и не видя ее, но если следить за движением рук, то получается лучше. У роботов есть аналог зрения, обеспечивающий визуальное самоуправление, которое не только повышает точность движений, но и позволяет брать предметы, которые движутся вокруг вас и меняют направление в тот момент, когда вы их хватаете.

Обучение роботов такому навыку — задача сложная, потому что между данными сенсоров и действиями нет обязательной связи, особенно если данные с датчиков поступают постоянно.

Более изобретательный способ — это позволить роботам учиться самостоятельно. Команда ученых Google Research при помощи коллег из X, поставила задачу роботу 7-DoF подбирать предметы в лотке, используя монокулярное визуальное самоуправление и сверточную нейронную сеть (CNN) для предугадывания последствий хвата.

CNN постоянно обучается (поначалу ошибок много, потом их становится меньше), а чтобы ускорить процесс, Google поставила рядом еще 14 роботов. Все они полностью автономны: людям нужно было лишь наполнить лотки предметами и включить питание.

Выполняя задание, робот постоянно предсказывает, наблюдая за действием своей руки, какое следующее действие максимально увеличит эффективность. В результате получается своего рода координация движений между глазом и рукой.

В будущем инженеры Google Research планируют увеличить разнообразие методик обучения, чтобы узнать, насколько более адаптивными может быть их технология.

Наблюдая за примерно 800 000 попытками (около 3000 робото-часов практики), ученые сделали вывод, что у них начинает формироваться реактивное поведение. Роботы оценивают движения своего манипулятора и корректируют его действия в реальном времени.

Также роботы стали проявлять интересные особенности поведения. Например, они отделяли один предмет от других, чтобы легче было его взять. Все эти действия возникли спонтанно, в процессе обучения, а не были запрограммированы.