В Apple усомнились в способности существующих моделей ИИ рассуждать

Apple поставила под сомнение способность ведущих моделей ИИ к логическим рассуждениям. В исследовании, опубликованном на сайте Apple’s Machine Learning Research, тестировались модели OpenAI, DeepSeek, Anthropic и Google. Результаты оказались неожиданными: при решении сложных задач точность этих систем резко падала.

В эксперименте проверили o1 и o3 от OpenAI, R1 от DeepSeek, Claude 3.7 Sonnet от Anthropic и Gemini от Google. Каждой из моделей предлагались четыре классические логические задачи: переправа через реку, прыжки через шашки, укладка блоков и башня Ханоя.

Результаты оказались неожиданными. В простых задачах продвинутые модели со способностью к рассуждениям уступали обычным большим языковым моделям. В задачах средней сложности — превосходили их, а при переходе к действительно сложным головоломкам точность стремилась практически к нулю.

Даже при предоставлении пошаговых алгоритмов решения, например, для башни Ханоя, качество не улучшалось. Более того, модели вели себя непоследовательно: могли сделать до 100 правильных ходов в одной задаче, но проваливали первые пять — в другой.

Анализ показал, что по мере роста сложности модели начинали использовать меньше токенов, то есть «размышляли» меньше, чем раньше, даже при наличии ресурсов. Это указывает на фундаментальные ограничения в поддержании цепочки рассуждений.

Рассуждающие модели работают по принципу «цепочки мыслей»: они имитируют человеческую логику, разбивая сложные задачи на множество шагов и объясняя свои действия на каждом этапе. Однако исследователи Apple полагают, что этот подход основан не на «понимании», а на узнавании шаблонов из обучающих данных.

Apple также критикует принятые подходы к оценке ИИ: по их мнению, существующие бенчмарки часто включают задачи, встречающиеся в обучающих выборках, что искажает реальную картину.

Работа вызвала неоднозначную реакцию. Одни считают, что Apple, отстающая в гонке ИИ, таким образом подрывает доверие к конкурентам. Другие — поддерживают.

Например, эксперт по машинному обучению и бывший руководитель группы в Gartner Андрей Бурков в посте в X назвал исследование важным вкладом в понимание возможностей ИИ. Он подчеркнул, что даже самые продвинутые модели остаются нейросетями — со всеми их ограничениями.


Читать далее:

«Врата ада» в Туркменистане начали гаснуть после 54 лет горения

Физики поняли, что произошло в первые секунды Вселенной: это их удивило

Археологи нашли останки «призрачного народа»: он исчез, не оставив потомков

На обложке: Изображение от freepikсведения о лицензии

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Роботов научили определять местоположение людей на слух
Новости
Физики установили новый мировой рекорд точности работы кубита
Наука
Ученые восстановили пути миграции неандертальцев из Европы в Сибирь
Наука
В Китае создали ИИ для проектирования чипов: он справился за несколько дней
Новости
Четыре спутника НАСА наблюдали гигантский выброс плазмы на Солнце
Космос
Математики МГУ описали движение веществ в организме человека
Наука
В Стэнфорде создали вращающееся устройство, которое удаляет тромбы
Наука
В космосе впервые обнаружили гигантскую молекулу с 24 атомами углерода
Космос
Из-за отказа от прививок в России растет заболеваемость корью и коклюшем
Наука
Инженеры создали мягкого робота, который управляется лазерными лучами
Новости
В IBM назвали сроки создания первого масштабного квантового компьютера
Новости
Посмотрите с орбиты Марса на гигантский вулкан, возвышающийся над облаками
Космос
В России приняли закон о создании единого национального мессенджера
Новости
Ученые выяснили, почему у летучих мышей «долгожителей» не бывает рака
Наука
Открыт прием заявок на премию «Промышленная робототехника»
Иннополис
Геофизик записал альбом из «музыки» сейсмических волн месторождения нефти
Новости
В желудке зауропода нашли остатки пищи: травоядный гигант глотал растения целиком
Наука
Tecno Camon 40: фокус на AI
Технологии
Apple показала обновления в iOS 26 функций ИИ, но отложила выпуск улучшенной Siri
Новости
Создана крупнейшая карта космоса: «Уэбб» наблюдал 780 000 галактик
Космос