В OpenAI придумали новую систему вознаграждения для роботов

Некоммерческая организация из Сан-Франциско OpenAI, одним из основателей которой был Илон Маск, выпустила алгоритм с открытым исходным кодом под названием Hindsight Experience Replay (HER). Он позволяет роботам эффективно учиться, рассматривая каждую неудачу машины как движение к успеху, пишет IEEE Spectrum.

Если раньше большинство стратегий обучения роботов (и людей) сводились к оценке с точки зрения числа удачных и неудачных попыток, то сегодня новый алгоритм от OpenAI полностью меняет этот подход. Алгоритм рассматривает каждую неудачную попытку не как поражение, а как шаг на пути к успеху. По словам разработчиков, это серьезно меняет подход и скорость обучения. Ведь пока ты не сделаешь ошибку, не поймешь, как ее избежать.

Toyota в 20 раз удешевила магниты для двигателей электромобилей

Другое преимущество алгоритма заключается в том, что он использует методику, которую исследователи называют «редким вознаграждением». Большинство алгоритмов обучения использует «full-pack rewards», когда робот получает награды разных размеров в зависимости от того, насколько близко он подбирается к выполнению задачи. В новом алгоритме робот получает одну награду только в случае успеха.

Традиционная методика эффективна, но разработка подобных программ занимает больше времени, и они не всегда подходят для реальной жизни. Большинство приложений ориентированы на конкретные результаты, и робот может либо преуспеть в них, либо нет. Редкие вознаграждения означают, что робот получает только одну награду. Ее проще измерить и проще реализовать.

Компромисс, тем не менее, заключается в том, что такой подход делает обучение медленнее, потому что робот не получает постоянной обратной связи. Именно в этом заключается идея нового алгоритма: он позволяет роботам учиться с редкими наградами, но рассматривая каждую попытку как урок и каждый раз изменяя цель, чтобы робот мог чему-то научиться.

Прошел испытания первый в мире воздушный солнечный реактор

Исследователи из лаборатории армии США и Техасского университета в Остине разработали алгоритм, призванный научить роботов выполнять задания, взаимодействуя с инструктором-человеком. Алгоритм получил название Deep TAMER.

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Найден способ экспоненциально повысить точность квантовых часов
Наука
Найдено крупнейшее облако заряженных частиц: оно в 20 раз больше Млечного Пути
Космос
Роботов научили определять местоположение людей на слух
Новости
Физики установили новый мировой рекорд точности работы кубита
Наука
Ученые восстановили пути миграции неандертальцев из Европы в Сибирь
Наука
В Китае создали ИИ для проектирования чипов: он справился за несколько дней
Новости
Четыре спутника НАСА наблюдали гигантский выброс плазмы на Солнце
Космос
Математики МГУ описали движение веществ в организме человека
Наука
В Стэнфорде создали вращающееся устройство, которое удаляет тромбы
Наука
В космосе впервые обнаружили гигантскую молекулу с 24 атомами углерода
Космос
Из-за отказа от прививок в России растет заболеваемость корью и коклюшем
Наука
Инженеры создали мягкого робота, который управляется лазерными лучами
Новости
В Apple усомнились в способности существующих моделей ИИ рассуждать
Новости
В IBM назвали сроки создания первого масштабного квантового компьютера
Новости
Посмотрите с орбиты Марса на гигантский вулкан, возвышающийся над облаками
Космос
В России приняли закон о создании единого национального мессенджера
Новости
Ученые выяснили, почему у летучих мышей «долгожителей» не бывает рака
Наука
Открыт прием заявок на премию «Промышленная робототехника»
Иннополис
Геофизик записал альбом из «музыки» сейсмических волн месторождения нефти
Новости
В желудке зауропода нашли остатки пищи: травоядный гигант глотал растения целиком
Наука