Deep Research от OpenAI набрал рекордный балл в «Последнем экзамене человечества»

Компания OpenAI представила новый инструмент искусственного интеллекта (ИИ) DeepSearch, который может проводить сложные многоступенчатые исследования для поиска правильного ответа.

Компания OpenAI объявила о запуске в ChatGPT нового инструмента Deep Research («Глубокие исследования»). Технология предназначена для проведения расширенных исследований и решения сложных задач. В бенчмарке «Последний экзамен человечества» (Humanity’s Last Exam) система достигла рекордного показателя 26,6%, что существенно превосходит запущенные в этом году модели o3-mini (high) — 13%, DeepSeek-R1 — 9,4%.

Результаты различных моделей в «Последнем экзамене человечества». Данные: OpenAI

Deep Research планирует по шагам и выполняет сложные исследовательские задачи, при необходимости корректирует свой подход на основе полученных данных. Пользователи могут загружать различные типы файлов, включая изображения, PDF-документы и электронные таблицы, для более точного анализа. Исследование может занимать от 5 до 30 минут, а результаты представляются в формате чата с подробным описанием использованной методологии.

Новая функция уже доступна по подписке ChatGPT Pro стоимостью $200 в месяц с лимитом в 100 запросов. Кроме того, OpenAI планирует предоставить доступ с ограниченным количеством запросов для пользователей тарифов Plus, Team и Enterprise. Ограничения связаны с высокой ресурсоёмкостью DeepSearch, отмечают в компании.

Презентация Deep Research

Несмотря на впечатляющие результаты, разработчики предупреждают о возможных ограничениях системы. DeepSearch, как и другие модели, может иногда «галлюцинировать», создавая недостоверные факты, и испытывает трудности в различении авторитетных источников информации от слухов.

«Последний экзамен человечества» — тест, разработанный для оценки возможностей систем ИИ решать наиболее сложные вопросы в различных научных дисциплинах. Он оценивает, насколько ИИ приблизился к экспертному уровню знаний, как в гуманитарных, так и в естественнонаучных дисциплинах.

Тест состоит из 3000 вопросов, охватывающих несколько тем, которые остаются сложными даже для высококвалифицированных специалистов в своих областях. Вопросы отобрали при участии ведущих исследователей из лучших университетов так, чтобы у них не было двойного толкования и ответ можно было проверить. При этом ни на один вопрос нельзя быстро ответить с помощью поиска в интернете.


Читать далее:

Квантовая физика оказалась более странной, чем считалось: что показал новый эксперимент

Потенциально обитаемую планету нашли недалеко от нас: она похожа на Землю

Посмотрите, как сверхзвуковой самолет Boom Supersonic преодолел звуковой барьер

На обложке: Image by frimufilms on Freepik, сведения о лицензии

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Телескоп «Уэбб» рассмотрел уникальные детали рождения двух звезд
Космос
Предиктивная аналитика: как прогнозы в промышленности помогают повысить маржинальность
Мнения
Сапфировые наноструктуры защищают экраны от царапин, а линзы — от запотевания и влаги
Наука
Ученые разрабатывают «искусственные мышцы» для борьбы с тремором рук
Наука
Модуль «Афина» упал при посадке на Луну, но луноход и часть приборов работают
Космос
«Убегающие» звезды указали на скрытую черную дыру вблизи Млечного Пути
Космос
Испытания ракеты Starship Илона Маска вновь закончились взрывом в небе
Космос
Гуманоидный робот с ИИ начал работать в лаборатории по созданию лекарств
Новости
Зонд «Афина» готовится к посадке у южного полюса Луны: где смотреть трансляцию
Космос
Китайские ученые «хранили свет» более часа: это новый рекорд
Наука
Предложена теория, которая объединяет квантовую механику и общую теорию относительности
Наука
Часть приборов «Вояджеров» отключат ради продления миссии за пределами Солнечной системы
Космос
Google тестирует поиск на основе ИИ: он дает ответы на развернутые вопросы
Новости
Свет впервые превратили в твердое тело, которое течет как жидкость
Наука
Квантовые технологии становятся компактнее: физики охладили атомы в системе на чипе
Новости
Модуль Blue Ghost поймал сигнал GPS на поверхности Луны
Космос
Сэм Альтман объявил о задержке выхода ChatGPT-4.5 и анонсировал изменение системы оплаты
Новости
В Китае нашли останки «гигантского» скорпиона, который жил в эпоху динозавров
Наука
Астрономы наблюдали сигналы от планеты, которую разорвала собственная звезда
Космос
Опубликовано подробное видео посадки модуля Blue Ghost на Луну
Космос