Чат-боты часто слишком уверены в себе и, в отличие от людей, не пересматривают свои прогнозы после промахов.
В двухлетнем эксперименте исследователи из Университета Карнеги-Меллона сравнили поведение людей и четырех крупных языковых моделей при выполнении различных задач: ответов на вопросы викторины, предсказания результатов игр НФЛ и церемоний «Оскар», а также распознавания рисунков в игре Pictionary. Участников просили оценить уверенность в успехе как до выполнения заданий, так и после.
Оказалось, что и люди, и ИИ склонны переоценивать свои способности на этапе прогнозирования. Однако принципиальная разница проявилась при ретроспективной оценке результатов. Люди после неудач снижали оценку своих способностей, ИИ — этого не делали.
«Предположим, люди говорили, что ответят правильно на 18 вопросов, а в итоге отвечали на 15. Как правило, их последующая оценка составляла около 16 ответов. ИИ этого не делал. Он становился более самоуверенным, даже плохо справляясь с заданием», — объясняет ведущий автор исследования Трент Кэш.
Оригинальная цитата: «Say the people told us they were going to get 18 questions right, and they ended up getting 15 questions right. Typically, their estimate afterwards would be something like 16 correct answers. The LLMs did not do that. They tended, if anything, to get more overconfident, even when they didn’t do so well on the task.
Особенно ярко эта проблема проявилась у модели Gemini при распознавании рисунков. Правильно определив менее одного изображения из 20, система все равно заявила, что в следующий раз справится с 14 заданиями. Соавтор работы профессор Дэнни Оппенгеймер отмечает, что проблема кроется в отсутствии у ИИ метакогнитивных способностей — умения анализировать собственные мыслительные процессы.
Исследование охватывало постоянно обновляемые версии популярных систем, включая ChatGPT, Bard/Gemini, Anthropic Sonnet и Haiku, что говорит о системности проблемы. При этом модель Sonnet оказалась менее самоуверенной по сравнению с другими системами.
Исследователи советуют при работе с ИИ уточнять уровень его уверенности — особенно в важных вопросах. Хотя ИИ не всегда точно оценивает свои возможности, признание низкой уверенности может служить сигналом. Исследователи также полагают, что проблема может решиться при обучении систем на значительно больших объемах данных.
Читать далее:
Загадочный радиосигнал из далекого космоса поставил астрономов в тупик
В Италии нашли нетронутую 2600-летнюю этрусскую гробницу с сотней артефактов
Инженеры НАСА починили камеру зонда «Юнона» на расстоянии 595 млн км
Иллюстрация на обложке: designed by Freepik, лицензия