Собран набор данных, чтобы учить ИИ самостоятельно принимать решения
Новости 29 июля 2024

Собран набор данных, чтобы учить ИИ самостоятельно принимать решения

Далее

Опубликован крупнейший общедоступный набор данных для контекстного обучения с подкреплением, сообщает пресс-служба Института искусственного интеллекта AIRI.

Исследователи из российского Института искусственного интеллекта AIRI и лаборатории T-Bank AI Research опубликовали два общедоступных набора данных для контекстного обучения с подкреплением на основе среды XLand-MiniGrid. Упрощенная версия содержит чуть меньше 20 млрд кортежей — упорядоченных наборов данных фиксированной длины, полная — свыше 112 млрд.

Наборы данных валидировали с помощью графиков обучающих историй — траектории были естественным образом упорядочены по возрастанию суммарной награды за эпизод, сообщают разработчики. Они считают, что наборы помогут настраивать ИИ-системы для решения новых задач без вовлечения узкопрофильных специалистов, а также станут источником полезных синтетических данных.

Контекстное обучение с подкреплением (In-Context Reinforcement Learning) сфокусировано на создании моделей, которые хорошо работают не только на тренировочных задачах, но и способны максимально эффективно дообучаться за минимальное время. Например, большинство чат-ботов можно научить новой задаче, добавив в промпт некоторое количество примеров ее решения.

Такие методы подходят, чтобы обучать ИИ принимать решения, объясняют разработчики. ИИ-агент должен исследовать среду (exploration) и понять, какие действия ведут к хорошему исходу, а какие — к плохому. Затем он должен остановиться и перейти в фазу «эксплуатации хороших действий» (exploitation). Задача exploration — exploitation заключается в том, чтобы найти механизм обучения, который на горизонте N шагов обеспечивает наилучший результат за меньшее количество шагов.

В области контекстного обучения с подкреплением нет стандартизации, и авторы всех ранее существующих работ были вынуждены каждый раз собирать новый датасет с нуля, добавляют разработчики. Они полагают, что опубликованные наборы данных помогут демократизировать исследования, ускорят развитие этого направления обучения и масштабирование технологий.


Читать далее:

Посмотрите, как выглядит полярное сияние из космоса

Случайность спасла Землю от мощнейшей солнечной вспышки

Пациенту впервые пересадили титановое сердце на магнитной подвеске

На обложке: Изображение от freepik, сведения о лицензии