Deep Research от OpenAI набрал рекордный балл в «Последнем экзамене человечества»

Компания OpenAI представила новый инструмент искусственного интеллекта (ИИ) DeepSearch, который может проводить сложные многоступенчатые исследования для поиска правильного ответа.

Компания OpenAI объявила о запуске в ChatGPT нового инструмента Deep Research («Глубокие исследования»). Технология предназначена для проведения расширенных исследований и решения сложных задач. В бенчмарке «Последний экзамен человечества» (Humanity’s Last Exam) система достигла рекордного показателя 26,6%, что существенно превосходит запущенные в этом году модели o3-mini (high) — 13%, DeepSeek-R1 — 9,4%.

Результаты различных моделей в «Последнем экзамене человечества». Данные: OpenAI

Deep Research планирует по шагам и выполняет сложные исследовательские задачи, при необходимости корректирует свой подход на основе полученных данных. Пользователи могут загружать различные типы файлов, включая изображения, PDF-документы и электронные таблицы, для более точного анализа. Исследование может занимать от 5 до 30 минут, а результаты представляются в формате чата с подробным описанием использованной методологии.

Новая функция уже доступна по подписке ChatGPT Pro стоимостью $200 в месяц с лимитом в 100 запросов. Кроме того, OpenAI планирует предоставить доступ с ограниченным количеством запросов для пользователей тарифов Plus, Team и Enterprise. Ограничения связаны с высокой ресурсоёмкостью DeepSearch, отмечают в компании.

Презентация Deep Research

Несмотря на впечатляющие результаты, разработчики предупреждают о возможных ограничениях системы. DeepSearch, как и другие модели, может иногда «галлюцинировать», создавая недостоверные факты, и испытывает трудности в различении авторитетных источников информации от слухов.

«Последний экзамен человечества» — тест, разработанный для оценки возможностей систем ИИ решать наиболее сложные вопросы в различных научных дисциплинах. Он оценивает, насколько ИИ приблизился к экспертному уровню знаний, как в гуманитарных, так и в естественнонаучных дисциплинах.

Тест состоит из 3000 вопросов, охватывающих несколько тем, которые остаются сложными даже для высококвалифицированных специалистов в своих областях. Вопросы отобрали при участии ведущих исследователей из лучших университетов так, чтобы у них не было двойного толкования и ответ можно было проверить. При этом ни на один вопрос нельзя быстро ответить с помощью поиска в интернете.


Читать далее:

Квантовая физика оказалась более странной, чем считалось: что показал новый эксперимент

Потенциально обитаемую планету нашли недалеко от нас: она похожа на Землю

Посмотрите, как сверхзвуковой самолет Boom Supersonic преодолел звуковой барьер

На обложке: Image by frimufilms on Freepik, сведения о лицензии

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
В Калтехе создали «умные» биосенсоры для непрерывного мониторинга здоровья
Новости
Немецкие инженеры создали «искусственные жабры» для глубоководных роботов
Наука
Уязвимость DeepSeek R1: китайский ИИ провалил 100% тестов на безопасность
Новости
Под Северным морем нашли гигантский след древнего ледника
Наука
Глава OpenAI публично высказался после запуска DeepSeek
Новости
В России запустят в серийное производство контроллеры «ПЛК-Эльбрус»  
Новости
Гнев может повысить креативность, но с оговорками: новое исследование  
Новости
Только 10% людей могут управлять этими мышцами: как они работают
Наука
Этот гормон подавляет голод: прорыв ученых в борьбе с ожирением
Наука
Технологию безопасного управления роем дронов разработали в MIT
Новости
Препарат от рака может стать ключом к полному уничтожению ВИЧ
Наука
Этот продукт делает мужчин привлекательнее: выяснилось, что увеличивает шансы на свидание
Наука
Гравитационные волны могут открыть новый способ связи в космосе
Космос
Американские ученые утверждают, что скопировали принцип работы DeepSeek за $30
Новости
Астрофизики впервые наблюдали детали нити космической паутины
Космос
Квантовая физика оказалась более странной, чем считалось: что показал новый эксперимент 
Наука
ИИ вместо любви: мужчины готовы жениться на виртуальных партнершах  
Новости
Чипсы Lay’s признали опасными для здоровья: о каком «вкусе» речь 
Новости
Японский лунный модуль показал с орбиты «самую отдаленную точку Земли»
Космос
Nvidia раскрыла характеристики GeForce RTX 5070 и 5070 Ti
Новости