В OpenAI придумали новую систему вознаграждения для роботов

Некоммерческая организация из Сан-Франциско OpenAI, одним из основателей которой был Илон Маск, выпустила алгоритм с открытым исходным кодом под названием Hindsight Experience Replay (HER). Он позволяет роботам эффективно учиться, рассматривая каждую неудачу машины как движение к успеху, пишет IEEE Spectrum.

Если раньше большинство стратегий обучения роботов (и людей) сводились к оценке с точки зрения числа удачных и неудачных попыток, то сегодня новый алгоритм от OpenAI полностью меняет этот подход. Алгоритм рассматривает каждую неудачную попытку не как поражение, а как шаг на пути к успеху. По словам разработчиков, это серьезно меняет подход и скорость обучения. Ведь пока ты не сделаешь ошибку, не поймешь, как ее избежать.

Toyota в 20 раз удешевила магниты для двигателей электромобилей

Другое преимущество алгоритма заключается в том, что он использует методику, которую исследователи называют «редким вознаграждением». Большинство алгоритмов обучения использует «full-pack rewards», когда робот получает награды разных размеров в зависимости от того, насколько близко он подбирается к выполнению задачи. В новом алгоритме робот получает одну награду только в случае успеха.

Традиционная методика эффективна, но разработка подобных программ занимает больше времени, и они не всегда подходят для реальной жизни. Большинство приложений ориентированы на конкретные результаты, и робот может либо преуспеть в них, либо нет. Редкие вознаграждения означают, что робот получает только одну награду. Ее проще измерить и проще реализовать.

Компромисс, тем не менее, заключается в том, что такой подход делает обучение медленнее, потому что робот не получает постоянной обратной связи. Именно в этом заключается идея нового алгоритма: он позволяет роботам учиться с редкими наградами, но рассматривая каждую попытку как урок и каждый раз изменяя цель, чтобы робот мог чему-то научиться.

Прошел испытания первый в мире воздушный солнечный реактор

Исследователи из лаборатории армии США и Техасского университета в Остине разработали алгоритм, призванный научить роботов выполнять задания, взаимодействуя с инструктором-человеком. Алгоритм получил название Deep TAMER.

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Хокинг предсказал гибель Земли: оказалось, НАСА сочло угрозу реальной
Наука
Создатель Ethereum признал свои ошибки и решил изменить криптовалюту
Новости
«Ред ОС 8» заработала на Arm-платформах — теперь и на «Байкале»
Новости
Компания Цукерберга использовала уязвимость подростков для рекламы
Новости
Старая модель не работает: ученые ищут новые объяснения устройства Вселенной
Космос
Пыльцевая буря накрыла центр России: что это и как защититься аллергикам
Наука
3400-летние артефакты загадочного племени нашли на вершине потухшего вулкана в Венгрии
Наука
На 3D-принтере напечатали электрод, который работает эффективнее ЭЭГ
Наука
Древесная стружка и ветки: открыт необычный способ мумификации с удивительной эффективностью
Наука
Физики MIT наблюдали квантовые взаимодействия между атомами
Наука
В Перми предложили способ очистки побережья от последствий разлива нефти
Наука
«Уэбб» заглянул сквозь дымку, окутывающую популярные и загадочные экзопланеты
Космос
Хирурги впервые удалили опухоль позвоночника через глазницу
Наука
Не только в небе: птерозавры ходили бок о бок с динозаврами, выяснили ученые
Наука
Синтезирована молекула, «которая может заменить кремний в микроэлектронике»
Наука
Меньше вспышек, больше бурь: ученые рассказали об активности Солнца в первые месяцы года
Космос
Находка на Кавказе опровергает теории о примитивности неандертальцев
Наука
Астрономы раскрыли тайну магнитаров: эти звезды заполняют Вселенную золотом
Космос
Антидот от 13 ядовитых змей получили из крови донора, которого укусили 856 раз
Наука
Телескоп «Чандра» наблюдал причину «перелома кости» в центре Млечного Пути
Космос