Исследователи из российского Института искусственного интеллекта AIRI и лаборатории T-Bank AI Research опубликовали два общедоступных набора данных для контекстного обучения с подкреплением на основе среды XLand-MiniGrid. Упрощенная версия содержит чуть меньше 20 млрд кортежей — упорядоченных наборов данных фиксированной длины, полная — свыше 112 млрд.
Наборы данных валидировали с помощью графиков обучающих историй — траектории были естественным образом упорядочены по возрастанию суммарной награды за эпизод, сообщают разработчики. Они считают, что наборы помогут настраивать ИИ-системы для решения новых задач без вовлечения узкопрофильных специалистов, а также станут источником полезных синтетических данных.
Контекстное обучение с подкреплением (In-Context Reinforcement Learning) сфокусировано на создании моделей, которые хорошо работают не только на тренировочных задачах, но и способны максимально эффективно дообучаться за минимальное время. Например, большинство чат-ботов можно научить новой задаче, добавив в промпт некоторое количество примеров ее решения.
Такие методы подходят, чтобы обучать ИИ принимать решения, объясняют разработчики. ИИ-агент должен исследовать среду (exploration) и понять, какие действия ведут к хорошему исходу, а какие — к плохому. Затем он должен остановиться и перейти в фазу «эксплуатации хороших действий» (exploitation). Задача exploration — exploitation заключается в том, чтобы найти механизм обучения, который на горизонте N шагов обеспечивает наилучший результат за меньшее количество шагов.
В области контекстного обучения с подкреплением нет стандартизации, и авторы всех ранее существующих работ были вынуждены каждый раз собирать новый датасет с нуля, добавляют разработчики. Они полагают, что опубликованные наборы данных помогут демократизировать исследования, ускорят развитие этого направления обучения и масштабирование технологий.
Читать далее:
Посмотрите, как выглядит полярное сияние из космоса
Случайность спасла Землю от мощнейшей солнечной вспышки
Пациенту впервые пересадили титановое сердце на магнитной подвеске
На обложке: Изображение от freepik, сведения о лицензии