В OpenAI придумали новую систему вознаграждения для роботов

Некоммерческая организация из Сан-Франциско OpenAI, одним из основателей которой был Илон Маск, выпустила алгоритм с открытым исходным кодом под названием Hindsight Experience Replay (HER). Он позволяет роботам эффективно учиться, рассматривая каждую неудачу машины как движение к успеху, пишет IEEE Spectrum.

Если раньше большинство стратегий обучения роботов (и людей) сводились к оценке с точки зрения числа удачных и неудачных попыток, то сегодня новый алгоритм от OpenAI полностью меняет этот подход. Алгоритм рассматривает каждую неудачную попытку не как поражение, а как шаг на пути к успеху. По словам разработчиков, это серьезно меняет подход и скорость обучения. Ведь пока ты не сделаешь ошибку, не поймешь, как ее избежать.

Toyota в 20 раз удешевила магниты для двигателей электромобилей

Другое преимущество алгоритма заключается в том, что он использует методику, которую исследователи называют «редким вознаграждением». Большинство алгоритмов обучения использует «full-pack rewards», когда робот получает награды разных размеров в зависимости от того, насколько близко он подбирается к выполнению задачи. В новом алгоритме робот получает одну награду только в случае успеха.

Традиционная методика эффективна, но разработка подобных программ занимает больше времени, и они не всегда подходят для реальной жизни. Большинство приложений ориентированы на конкретные результаты, и робот может либо преуспеть в них, либо нет. Редкие вознаграждения означают, что робот получает только одну награду. Ее проще измерить и проще реализовать.

Компромисс, тем не менее, заключается в том, что такой подход делает обучение медленнее, потому что робот не получает постоянной обратной связи. Именно в этом заключается идея нового алгоритма: он позволяет роботам учиться с редкими наградами, но рассматривая каждую попытку как урок и каждый раз изменяя цель, чтобы робот мог чему-то научиться.

Прошел испытания первый в мире воздушный солнечный реактор

Исследователи из лаборатории армии США и Техасского университета в Остине разработали алгоритм, призванный научить роботов выполнять задания, взаимодействуя с инструктором-человеком. Алгоритм получил название Deep TAMER.

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Ученые впервые наблюдали, как орангутанг занимается самолечением
Наука
SpaceX не смогла скрыть полет ракеты над Россией: в сети публикуют фото
Космос
Зонд «Эйнштейн» показал первую партию редких космических фото
Космос
Миссию по доставке образцов с загадочной стороны Луны запустили в Китае
Наука
Ученые подтвердили ключевые события из Библии
Наука
Недалеко от нас есть планета, где ветер дует быстрее пули
Космос
Найден необычный способ бороться с хроническим стрессом
Наука
Посмотрите на самый редкий торнадо, который пронесся над США
Наука
Над Землей пролетел астероид, который вращался быстрее всех остальных
Космос
Ученые показали лицо женщины, которая жила 75 000 лет назад
Наука
Анализ генов показал, как древние водоросли вышли на поверхность планеты
Наука
Древняя технология поможет вырастить растения на Марсе, считают ученые
Космос
Физики из MIT добились рекордной близости между атомами для квантовых исследований
Наука
В Германии на ветряную электростанцию впервые установили деревянные лопасти
Новости
Инженеры разработали искусственную пиявку для безболезненного забора крови у детей
Наука
Solar Orbiter запечатлел «пушистую» корону Солнца в завораживающих деталях
Космос
Китай отправляет миссию на обратную сторону Луны: как смотреть онлайн
Космос
ИИ нашел асимметрию материи и антиматерии на Большом адронном коллайдере
Наука
TikTok вернулся в Россию? Что известно прямо сейчас
Новости
В Японии разработали устройство 6G, которое передает данные со скоростью 100 Гбит/с
Новости