OpenAI: новая модель GPT обошла в тестах большинство программистов планеты

Компания OpenAI представила o3 — новое семейство языковых моделей, но пока они будут доступны только исследователям для тестирования.

OpenAI разработала обновленные версии больших языковых моделей, способных к рассуждениям. Новая модель OpenAI под названием o3 заменяет o1, которую компания представила в сентябре. Как и o1, новая модель тратит время на размышления над проблемой, чтобы предоставить лучшие ответы на вопросы, требующие пошагового логического обоснования.

По словам OpenAI, модель o3 набрала по нескольким показателям и бенчмаркам, которые используют для оценки ИИ, больше баллов, чем ее предшественница. Среди этих тестов те, которые измеряют сложные навыки, связанные с программированием, а также сложные математические задачи и решение научных проблем.

Модель o3 обучена с помощью  обучения с подкреплением  «думать», прежде чем реагировать. Получив вопрос, o3 делает паузу перед ответом, «анализирует» информацию и «объясняет» свои рассуждения по ходу дела. Через некоторое время модель суммирует то, что она считает наиболее точным ответом. Те же принципы рассуждений использовала o1, но теперь пользователи могут «регулировать» время рассуждений: чем больше время, тем точнее ответ.

В ARC-AGI — тесте, разработанном для оценки того, может ли система ИИ эффективно получать новые навыки вне данных, на которых она была обучена — o3 достигла 87,5% баллов при высоких настройках вычислений. В худшем случае (при низких настройках вычислений) модель утроила производительность o1.

Разработчики также сообщают, что модель превосходит o1 на 22,8 п.п. в SWE-Bench Verified — бенчмарке, ориентированном на задачи программирования. Кроме того, при решении задач на программирование рейтинга Codeforces она набрала 2727 баллов. Разработчики, которые получают свыше 2600 баллов, получают на платформе звание международного гроссмейстера программирования — таких людей на Земле чуть больше 300.

Все сообщения о громких достижениях новой модели пока приводит только OpenAI. Модель пока не будет опубликована в общем доступе или по подписке. Компания до 10 января принимает заявки для регистрации групп тестировщиков безопасности и исследователей, которые первыми оценят возможности и риски новой модели.


Читать далее:

Ученые нашли практически безграничный источник топлива

Квантовую телепортацию впервые совершили по обычному интернет-кабелю

Ученые считают, что мы неправильно понимаем Вселенную: в чем причина

На обложке: Image by frimufilms on Freepik, сведения о лицензии

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Из рисовой бумаги можно создать мягких роботов, которые разлагаются за месяц
Новости
Физик предложил заменить пространство-время трехмерным временем
Наука
Антропологи выяснили, почему только одна миграция людей из Африки была успешной
Наука
Токсичную плесень из древних гробниц превратили в противораковое лекарство
Наука
Найдена гигантская нить в космосе: она соединяет четыре скопления галактик
Космос
В Китае установили мировой рекорд: 11 787 дронов создали световое шоу
Новости
Вирус герпеса перестраивает геном человека, но есть способ его остановить
Наука
Разработаны роботы размером с игрушечную машинку для ремонта водопроводных труб
Новости
В Самаре запустили первый в России дата-центр, объединяющий майнинг и ИИ
Новости
Болезнь Паркинсона на ранней стадии определят по ушной сере
Наука
BI-стратегия компании: что она дает и как ее создать
Мнения
В Мариинке показали оперу, которую дописал искусственный интеллект
Новости
Открыт нейронный путь, который приводит к бессонице после перенесенного стресса
Наука
Китайский маглев установил рекорд: разогнался до 650 км/ч за семь секунд
Новости
Австралийские бабочки используют звезды для навигации в пространстве
Наука
Древний череп из Китая впервые позволил понять, как выглядели денисовцы
Наука
Открыта загадочная связь между уровнем кислорода и магнитным полем Земли
Космос
Альтернатива сжиганию: разработана технология переработки угля в высокотехнологичное сырье
Наука
Ракета Starship Илона Маска взорвалась на площадке при подготовке к испытаниям
Космос
TECNO MEGABOOK K15S: универсальный ноутбук для тех, кто работает, создает и отдыхает
Кейсы