В OpenAI придумали новую систему вознаграждения для роботов

Некоммерческая организация из Сан-Франциско OpenAI, одним из основателей которой был Илон Маск, выпустила алгоритм с открытым исходным кодом под названием Hindsight Experience Replay (HER). Он позволяет роботам эффективно учиться, рассматривая каждую неудачу машины как движение к успеху, пишет IEEE Spectrum.

Если раньше большинство стратегий обучения роботов (и людей) сводились к оценке с точки зрения числа удачных и неудачных попыток, то сегодня новый алгоритм от OpenAI полностью меняет этот подход. Алгоритм рассматривает каждую неудачную попытку не как поражение, а как шаг на пути к успеху. По словам разработчиков, это серьезно меняет подход и скорость обучения. Ведь пока ты не сделаешь ошибку, не поймешь, как ее избежать.

Toyota в 20 раз удешевила магниты для двигателей электромобилей

Другое преимущество алгоритма заключается в том, что он использует методику, которую исследователи называют «редким вознаграждением». Большинство алгоритмов обучения использует «full-pack rewards», когда робот получает награды разных размеров в зависимости от того, насколько близко он подбирается к выполнению задачи. В новом алгоритме робот получает одну награду только в случае успеха.

Традиционная методика эффективна, но разработка подобных программ занимает больше времени, и они не всегда подходят для реальной жизни. Большинство приложений ориентированы на конкретные результаты, и робот может либо преуспеть в них, либо нет. Редкие вознаграждения означают, что робот получает только одну награду. Ее проще измерить и проще реализовать.

Компромисс, тем не менее, заключается в том, что такой подход делает обучение медленнее, потому что робот не получает постоянной обратной связи. Именно в этом заключается идея нового алгоритма: он позволяет роботам учиться с редкими наградами, но рассматривая каждую попытку как урок и каждый раз изменяя цель, чтобы робот мог чему-то научиться.

Прошел испытания первый в мире воздушный солнечный реактор

Исследователи из лаборатории армии США и Техасского университета в Остине разработали алгоритм, призванный научить роботов выполнять задания, взаимодействуя с инструктором-человеком. Алгоритм получил название Deep TAMER.

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Посмотрите на редкую и популярную тигрицу из Таиланда: один ген сделал ее звездой
Наука
Эксперты опубликовали прогноз на 2025 год: как изменится мир
Наука
Посмотрите, как в небе над Якутией взорвался метеорит
Космос
Япония создавала биологическое оружие: ученые нашли доказательства
Наука
Скрытую структуру нашли под поверхностью Луны
Космос
Новая карта Вселенной раскрыла странную аномалию: что обнаружили ученые
Космос
«Толмач» мгновенно переводит живую речь на русский: появился новый сервис на базе ИИ
Новости
Крупнейшее беспилотное метро запустили в Саудовской Аравии
Новости
Появились роботы, которые работают на водке
Наука
Китай строит крупнейший в мире полноповоротный радиотелескоп  
Космос
Появилось приложение, которые предсказывает дату смерти: как оно работает
Новости
Российские ученые потеряли доступ к БАК: что это значит для науки
Наука
Эти пять галактик нарушают законы космологии: что с ними «не так»  
Космос
Тайна Лох-Нессского чудовища: эксперт нашел простое объяснение  
Наука
Обнародован первый геймплей экшена «Война Миров: Сибирь»
Новости
Посмотрите на уникальную 3D-модель Солнца
Космос
В обществе древних фермеров социального неравенства не было, показало исследование
Наука
Найден способ на миллионы лет сохранить в алмазе терабайты информации
Новости
Странная гипотеза: инопланетяне используют звезды для межгалактических путешествий
Космос
Базовый гаджет для дома: обзор «Яндекс ТВ Станции Бейсик»
Кейсы