Новый тест ставит ИИ-модели в тупик: люди справились лучше

Большинство моделей ИИ не справились с новым тестом, но люди показали неплохие результаты.

Тест ARC-AGI-2 для оценки интеллектуальных способностей ИИ-моделей продемонстрировал огромный разрыв между возможностями современных технологий и человеческим интеллектом, пишет 3D News. Модели, такие как o1-pro и R1, набрали не более 1,3%, в то время как люди показали результат в 60%.  

Что представляет собой тест ARC-AGI-2?  

Фонд Arc Prize Foundation, который создал этот тест, разработал серию головоломок, в которых ИИ должен анализировать визуальные закономерности, решая задачи на основе разноцветных квадратов. В отличие от предыдущих тестов, ARC-AGI-2 не позволяет моделям использовать прошлый опыт, заставляя их адаптироваться к новым задачам.

Как прошли испытания?  

В тестировании участвовало более 400 человек, которые в среднем правильно ответили на 60% заданий. Это значительно превышает результаты ИИ, что подтверждает огромный разрыв в решении задач, требующих адаптации и понимания новых концепций.

Как улучшили тест?  

Шолле, соучредитель Arc Prize Foundation, объяснил, что ARC-AGI-2 является более точным индикатором реального интеллекта ИИ, чем предыдущий тест ARC-AGI-1. В новой версии была исключена возможность решения задач с помощью «метода грубой силы», при котором ИИ использует огромные вычислительные мощности для перебора всех возможных вариантов. Для этого была введена метрика эффективности, которая вынуждает ИИ «на лету» интерпретировать паттерны, а не полагаться на запоминание.

Проблемы с вычислительными затратами  

Тест ARC-AGI-1 был основным в течение пяти лет, пока в декабре 2024 года OpenAI не представила модель o3, которая продемонстрировала достижения, сравнявшиеся с человеческим уровнем. Однако, как оказалось, эти результаты были достигнуты за счет значительных вычислительных затрат.

Как изменится подход к ИИ?  

В ответ на растущие опасения о недостаточной объективности критериев для оценки ИИ, Arc Prize Foundation объявила о запуске конкурса Arc Prize 2025. Участники должны будут достичь 85% точности на ARC-AGI-2, при этом не затратив более $0,42 на решение каждой задачи.

Читать далее:

Вселенная внутри черной дыры: наблюдения «Уэбба» подтверждают странную гипотезу

Испытания ракеты Starship Илона Маска вновь закончились взрывом в небе

Сразу четыре похожих на Землю планеты нашли у ближайшей одиночной звезды

Обложка: AI | freepik

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Больше миллиона Гбит в секунду: японцы побили рекорд скорости передачи данных по оптоволокну
Новости
Хаос во благо: физики создали новый инструмент для квантового мира
Наука
Hugging Face выпустила недорогих человекоподобных роботов с открытым кодом
Новости
Китайский аккумулятор для электромобиля выдержал наезд 36-тонного танка
Новости
Воспитанники детских домов изучат основы работы с нейросетями
Новости
Четвероногий робот из Цюриха научился играть в бадминтон с людьми
Новости
В MIT раскрыли механизм набора веса из-за жирной пищи и как обратить его вспять
Наука
60 000 лет рядом: ученые выяснили, кто стал первым паразитом человека
Наука
Ректора Университета Иннополис избрали членом-корреспондентом РАН
Иннополис
В Корее робопса научили паркуру и бегу по стенам: посмотрите, что он может
Новости
Древний череп «человека-муравья» нашли в Аргентине
Наука
На селфи марсохода попал неожиданный объект: его заметили не сразу
Космос
Посмотрите на двух морских коньков, которых застукали за «поцелуем» в океане
Наука
Почти 10 000 роутеров Asus тайно заразили: как проверить свой и защититься
Новости
Ракета будет доставлять товары с AliExpress за час по всему миру: ее испытали в Китае
Новости
В России пригрозили «душить» иностранные сервисы: кто в опасности
Новости
Boston Dynamics усовершенствовала систему восприятия гуманоидного робота Atlas
Новости
Наклейка на лоб анализирует мозговые волны и предсказывает переутомление
Наука
Посмотрите на робота-трансформера, который меняет форму прямо в полете
Новости
Китай отправил миссию за образцами горных пород с квазиспутника Земли
Космос