OpenAI разработала обновленные версии больших языковых моделей, способных к рассуждениям. Новая модель OpenAI под названием o3 заменяет o1, которую компания представила в сентябре. Как и o1, новая модель тратит время на размышления над проблемой, чтобы предоставить лучшие ответы на вопросы, требующие пошагового логического обоснования.

По словам OpenAI, модель o3 набрала по нескольким показателям и бенчмаркам, которые используют для оценки ИИ, больше баллов, чем ее предшественница. Среди этих тестов те, которые измеряют сложные навыки, связанные с программированием, а также сложные математические задачи и решение научных проблем.

Модель o3 обучена с помощью обучения с подкреплением «думать», прежде чем реагировать. Получив вопрос, o3 делает паузу перед ответом, «анализирует» информацию и «объясняет» свои рассуждения по ходу дела. Через некоторое время модель суммирует то, что она считает наиболее точным ответом. Те же принципы рассуждений использовала o1, но теперь пользователи могут «регулировать» время рассуждений: чем больше время, тем точнее ответ.

В ARC-AGI — тесте, разработанном для оценки того, может ли система ИИ эффективно получать новые навыки вне данных, на которых она была обучена — o3 достигла 87,5% баллов при высоких настройках вычислений. В худшем случае (при низких настройках вычислений) модель утроила производительность o1.

Разработчики также сообщают, что модель превосходит o1 на 22,8 п.п. в SWE-Bench Verified — бенчмарке, ориентированном на задачи программирования. Кроме того, при решении задач на программирование рейтинга Codeforces она набрала 2727 баллов. Разработчики, которые получают свыше 2600 баллов, получают на платформе звание международного гроссмейстера программирования — таких людей на Земле чуть больше 300.

Все сообщения о громких достижениях новой модели пока приводит только OpenAI. Модель пока не будет опубликована в общем доступе или по подписке. Компания до 10 января принимает заявки для регистрации групп тестировщиков безопасности и исследователей, которые первыми оценят возможности и риски новой модели.

Читать далее:

Ученые нашли практически безграничный источник топлива

Квантовую телепортацию впервые совершили по обычному интернет-кабелю

Ученые считают, что мы неправильно понимаем Вселенную: в чем причина

_{На обложке: Image by frimufilms on Freepik, сведения о лицензии}

OpenAI: новая модель GPT обошла в тестах большинство программистов планеты