Новый тест ставит ИИ-модели в тупик: люди справились лучше

Большинство моделей ИИ не справились с новым тестом, но люди показали неплохие результаты.

Тест ARC-AGI-2 для оценки интеллектуальных способностей ИИ-моделей продемонстрировал огромный разрыв между возможностями современных технологий и человеческим интеллектом, пишет 3D News. Модели, такие как o1-pro и R1, набрали не более 1,3%, в то время как люди показали результат в 60%.  

Что представляет собой тест ARC-AGI-2?  

Фонд Arc Prize Foundation, который создал этот тест, разработал серию головоломок, в которых ИИ должен анализировать визуальные закономерности, решая задачи на основе разноцветных квадратов. В отличие от предыдущих тестов, ARC-AGI-2 не позволяет моделям использовать прошлый опыт, заставляя их адаптироваться к новым задачам.

Как прошли испытания?  

В тестировании участвовало более 400 человек, которые в среднем правильно ответили на 60% заданий. Это значительно превышает результаты ИИ, что подтверждает огромный разрыв в решении задач, требующих адаптации и понимания новых концепций.

Как улучшили тест?  

Шолле, соучредитель Arc Prize Foundation, объяснил, что ARC-AGI-2 является более точным индикатором реального интеллекта ИИ, чем предыдущий тест ARC-AGI-1. В новой версии была исключена возможность решения задач с помощью «метода грубой силы», при котором ИИ использует огромные вычислительные мощности для перебора всех возможных вариантов. Для этого была введена метрика эффективности, которая вынуждает ИИ «на лету» интерпретировать паттерны, а не полагаться на запоминание.

Проблемы с вычислительными затратами  

Тест ARC-AGI-1 был основным в течение пяти лет, пока в декабре 2024 года OpenAI не представила модель o3, которая продемонстрировала достижения, сравнявшиеся с человеческим уровнем. Однако, как оказалось, эти результаты были достигнуты за счет значительных вычислительных затрат.

Как изменится подход к ИИ?  

В ответ на растущие опасения о недостаточной объективности критериев для оценки ИИ, Arc Prize Foundation объявила о запуске конкурса Arc Prize 2025. Участники должны будут достичь 85% точности на ARC-AGI-2, при этом не затратив более $0,42 на решение каждой задачи.

Читать далее:

Вселенная внутри черной дыры: наблюдения «Уэбба» подтверждают странную гипотезу

Испытания ракеты Starship Илона Маска вновь закончились взрывом в небе

Сразу четыре похожих на Землю планеты нашли у ближайшей одиночной звезды

Обложка: AI | freepik

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Хирурги впервые удалили опухоль позвоночника через глазницу
Наука
Не только в небе: птерозавры ходили бок о бок с динозаврами, выяснили ученые
Наука
Синтезирована молекула, «которая может заменить кремний в микроэлектронике»
Наука
Меньше вспышек, больше бурь: ученые рассказали об активности Солнца в первые месяцы года
Космос
Находка на Кавказе опровергает теории о примитивности неандертальцев
Наука
Астрономы раскрыли тайну магнитаров: эти звезды заполняют Вселенную золотом
Космос
Антидот от 13 ядовитых змей получили из крови донора, которого укусили 856 раз
Наука
Телескоп «Чандра» наблюдал причину «перелома кости» в центре Млечного Пути
Космос
Оптический транзистор разогнали до 240 ГГц: это основа для компьютеров нового поколения
Новости
Google бросает вызов ChatGPT: в поисковике появилась вкладка с ИИ
Новости
Посмотрите, как рождаются планеты: опубликованы самые четкие изображения в истории
Космос
Рыбы в виртуальной реальности обучают роботов двигаться косяками
Новости
У мертвой звезды нашли самую холодную из известных планет
Космос
После обновления ChatGPT стал подхалимом: OpenAI объяснила, что случилось
Новости
«Википедия» внедрит ИИ: это будет работать и что станет с редакторами
Новости
Поднимет и авианосец: для реактора ИТЭР сделали мощнейший магнит в мире
Наука
Посмотрите на маневренный дрон с крыльями, как у белки-летяги
Новости
Недалеко от Земли нашли странную группу молодых звезд, стремящихся разлететься в разные стороны
Космос
Летучие мыши учатся подслушивать за сексом лягушек, чтобы выбрать добычу
Наука
В МФТИ разработана технология для создания долговечной памяти электронных устройств
Наука