Тест Humanity’s Last Exam создали исследователи из Scale AI и некоммерческой организации Center for AI Safety. Они собрали 70 тыс. вопросов от ученых из 50 стран, отобрали из них 2500. Каждый вопрос требует знаний на уровне докторской степени. Ответ должен быть коротким и однозначным, найти его в интернете сложно.
Самый трудный научный экзамен Humanity’s Last Exam, в котором ИИ год назад едва набирал около 3%, сегодня даётся моделям куда лучше — они проходят почти половину заданий. Разработчики считают, что выход на 100% вполне реалистичен в течение ближайшего года. Но даже при идеальном результате людям всё равно понадобится участвовать в точечных задачах и нестандартных решениях.
Тест Humanity’s Last Exam создали исследователи из Scale AI и некоммерческой организации Center for AI Safety. Они собрали 70 тыс. вопросов от ученых из 50 стран, отобрали из них 2500. Каждый вопрос требует знаний на уровне докторской степени. Ответ должен быть коротким и однозначным, найти его в интернете сложно.
В 2024 году ChatGPT набрал 3%, Gemini и Claude — ненамного больше. Тест тогда показал значительный разрыв между большими языковыми моделями и лучшими учеными.
Сейчас Gemini показала результат 45,9%, Claude — 34,2%. Кэлвин Чжан из Scale AI считает, что 100% возможны уже через несколько месяцев или год. Если это произойдет, придется проверять ИИ на вопросы, на которые не знает ответов ни один человек.
Чжан отметил, что даже после этого ИИ не сможет полностью заменить человека в узких научных областях, а также уступит в рассудительности и креативности.
Читать далее:
Вселенная внутри черной дыры: наблюдения «Уэбба» подтверждают странную гипотезу
Испытания ракеты Starship Илона Маска вновь закончились взрывом в небе
Сразу четыре похожих на Землю планеты нашли у ближайшей одиночной звезды
Обложка: freepik