Новый тест ставит ИИ-модели в тупик: люди справились лучше

Большинство моделей ИИ не справились с новым тестом, но люди показали неплохие результаты.

Тест ARC-AGI-2 для оценки интеллектуальных способностей ИИ-моделей продемонстрировал огромный разрыв между возможностями современных технологий и человеческим интеллектом, пишет 3D News. Модели, такие как o1-pro и R1, набрали не более 1,3%, в то время как люди показали результат в 60%.  

Что представляет собой тест ARC-AGI-2?  

Фонд Arc Prize Foundation, который создал этот тест, разработал серию головоломок, в которых ИИ должен анализировать визуальные закономерности, решая задачи на основе разноцветных квадратов. В отличие от предыдущих тестов, ARC-AGI-2 не позволяет моделям использовать прошлый опыт, заставляя их адаптироваться к новым задачам.

Как прошли испытания?  

В тестировании участвовало более 400 человек, которые в среднем правильно ответили на 60% заданий. Это значительно превышает результаты ИИ, что подтверждает огромный разрыв в решении задач, требующих адаптации и понимания новых концепций.

Как улучшили тест?  

Шолле, соучредитель Arc Prize Foundation, объяснил, что ARC-AGI-2 является более точным индикатором реального интеллекта ИИ, чем предыдущий тест ARC-AGI-1. В новой версии была исключена возможность решения задач с помощью «метода грубой силы», при котором ИИ использует огромные вычислительные мощности для перебора всех возможных вариантов. Для этого была введена метрика эффективности, которая вынуждает ИИ «на лету» интерпретировать паттерны, а не полагаться на запоминание.

Проблемы с вычислительными затратами  

Тест ARC-AGI-1 был основным в течение пяти лет, пока в декабре 2024 года OpenAI не представила модель o3, которая продемонстрировала достижения, сравнявшиеся с человеческим уровнем. Однако, как оказалось, эти результаты были достигнуты за счет значительных вычислительных затрат.

Как изменится подход к ИИ?  

В ответ на растущие опасения о недостаточной объективности критериев для оценки ИИ, Arc Prize Foundation объявила о запуске конкурса Arc Prize 2025. Участники должны будут достичь 85% точности на ARC-AGI-2, при этом не затратив более $0,42 на решение каждой задачи.

Читать далее:

Вселенная внутри черной дыры: наблюдения «Уэбба» подтверждают странную гипотезу

Испытания ракеты Starship Илона Маска вновь закончились взрывом в небе

Сразу четыре похожих на Землю планеты нашли у ближайшей одиночной звезды

Обложка: AI | freepik

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Квантовый компьютер сгенерировал по-настоящему случайные числа
Новости
Загадка древних гигантов: ученые нашли организм, не похожий ни на что живое
Наука
Вскрытие мамонтенка Яны: в Якутии изучили древнюю тушу
Наука
Anthropic изучила «внутренний мир ИИ»: как языковые модели принимают решения
Новости
Дрон доставил обед: в Иннополисе испытали курьера с Telegram-управлением
Иннополис
Зонд Parker сблизился с Солнцем, собрав важнейшие данные
Космос
Спутниковую связь для обычных смартфонов протестируют в РФ
Новости
Российские ученые нашли безазотную замену тротилу и ракетному топливу
Наука
Российский рынок промышленной автоматизации удвоится к 2030 году, но есть сложности  
Новости
В Южной Корее вспыхнули крупнейшие лесные пожары: что происходит прямо сейчас
Наука
Беспилотники против браконьеров: в России расширят полномочия ведомств
Новости
В янтаре нашли осу с хвостом-ловушкой, как у венериной мухоловки
Наука
Физики из ИТМО разработали сверхтонкий материал для «умной» памяти
Наука
Средневековый языческий ритуал: археологи нашли козий череп под срубом в Новгороде
Наука
«Уэбб» снял полярные сияния Нептуна: они были не там, где ожидали ученые
Космос
Российские ученые разработали нейросеть, способную сомневаться в своих решениях
Новости
Найден способ прогнозировать осложнения после операций на сердце
Наука
Создан прототип квантового компьютера из «говорящих» атомов
Наука
Университетские стартапы получат новые возможности для роста
Новости
Ученые впервые записали звуки, которые издают акулы  
Наука