В OpenAI придумали новую систему вознаграждения для роботов

Некоммерческая организация из Сан-Франциско OpenAI, одним из основателей которой был Илон Маск, выпустила алгоритм с открытым исходным кодом под названием Hindsight Experience Replay (HER). Он позволяет роботам эффективно учиться, рассматривая каждую неудачу машины как движение к успеху, пишет IEEE Spectrum.

Если раньше большинство стратегий обучения роботов (и людей) сводились к оценке с точки зрения числа удачных и неудачных попыток, то сегодня новый алгоритм от OpenAI полностью меняет этот подход. Алгоритм рассматривает каждую неудачную попытку не как поражение, а как шаг на пути к успеху. По словам разработчиков, это серьезно меняет подход и скорость обучения. Ведь пока ты не сделаешь ошибку, не поймешь, как ее избежать.

Toyota в 20 раз удешевила магниты для двигателей электромобилей

Другое преимущество алгоритма заключается в том, что он использует методику, которую исследователи называют «редким вознаграждением». Большинство алгоритмов обучения использует «full-pack rewards», когда робот получает награды разных размеров в зависимости от того, насколько близко он подбирается к выполнению задачи. В новом алгоритме робот получает одну награду только в случае успеха.

Традиционная методика эффективна, но разработка подобных программ занимает больше времени, и они не всегда подходят для реальной жизни. Большинство приложений ориентированы на конкретные результаты, и робот может либо преуспеть в них, либо нет. Редкие вознаграждения означают, что робот получает только одну награду. Ее проще измерить и проще реализовать.

Компромисс, тем не менее, заключается в том, что такой подход делает обучение медленнее, потому что робот не получает постоянной обратной связи. Именно в этом заключается идея нового алгоритма: он позволяет роботам учиться с редкими наградами, но рассматривая каждую попытку как урок и каждый раз изменяя цель, чтобы робот мог чему-то научиться.

Прошел испытания первый в мире воздушный солнечный реактор

Исследователи из лаборатории армии США и Техасского университета в Остине разработали алгоритм, призванный научить роботов выполнять задания, взаимодействуя с инструктором-человеком. Алгоритм получил название Deep TAMER.

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Китайские ученые превратили мох в губку, которая впитывает нефть
Наука
Университет Иннополис запускает бесплатные экскурсии в Центр робототехники
Иннополис
Интерактивная карта клетки человека раскрывает тайны детского рака костей
Наука
«Уэбб» раскрыл детали космической катастрофы: как звезда поглотила планету
Космос
Российский госсектор потратил 2,4 млрд рублей за год на оборудование для ИИ
Новости
Китайская компания анонсировала первый матч по боксу между роботами
Новости
Эта черная дыра «проснулась» настолько голодной, что нарушила все модели ученых
Космос
Мошенники начали использовать схему с домофоном, чтобы красть деньги с банковских карт
Новости
Галактика-соседка Млечного Пути начинает разрушаться: что происходит
Космос
Россиян поздравили с Днем космонавтики прямо с МКС
Космос
Разработаны «бактерии-шпионы»: они посылают сигнал, заметный с высоты
Наука
Ученые разработали «плащ-невидимку» для нейронов для лечения Паркинсона
Наука
В России разработали проект строительства атомной электростанции на Луне
Космос
Пробуждение гиганта: яркие вспышки наблюдали у проснувшейся черной дыры
Космос
В ИТМО придумали, как «продлить жизнь» ракового белка для тестирования лекарств
Наука
Создана карта полумиллиарда нейронных связей, которые позволяют мышам видеть
Наука
Ученые из Яндекса и MIT придумали, как запускать LLM на ноутбуках и смартфонах
Новости
Облачную платформу для квантовых вычислений создали в Университете Иннополис
Новости
Эйнштейн ошибся: возможно, пространства-времени вообще не существует
Космос
Тестовый снимок «Гершель» показал скрытые галактики во Вселенной
Космос