На этой неделе OpenAI представила новые языковые модели искусственного интеллекта o3 и o4-mini. Они стали более точными в задачах по математике и программированию, но чаще, чем их предшественники, выдают не соответствующую действительности информацию. Об этом говорится в официальном отчёте компании.

Галлюцинации — одна из ключевых проблем в развитии ИИ. Раньше каждая новая модель становилась надёжнее, но в случае с o3 и o4-mini тенденция изменилась. Как показали внутренние тесты OpenAI, обе модели «галлюцинируют» чаще, чем предыдущие — включая o1, o1-mini и o3-mini, а также GPT-4o.

В тесте PersonQA, который оценивает знания о людях, o3 дала ложные ответы в 33 % случаев. Это почти вдвое больше, чем у o1 (16 %) и o3-mini (14,8 %). Модель o4-mini ошибалась в 48 % случаев. В независимом тесте Transluce разработчики обнаружили, что o3 даже выдумывала действия, которые не могла совершать. Например, утверждала, что запускала код на MacBook Pro вне ChatGPT и копировала данные оттуда.

Компания признаёт: пока не ясно, почему модели стали чаще ошибаться. В отчёте сказано, что «необходимы дополнительные исследования». Один из возможных факторов — используемый тип обучения с подкреплением. В прошлом он помогал снижать число галлюцинаций, но с серией «o» ситуация могла измениться в обратную сторону.

Хотя новые модели мощнее в программировании и логических задачах, они могут добавлять в код ссылки на несуществующие сайты. Некоторые эксперты считают, что это делает их менее полезными на практике.

Один из потенциальных способов снижения числа галлюцинаций — подключение моделей к интернету. Так, GPT-4o, имеющая доступ к веб-поиску, показала 90 % точных ответов в тесте SimpleQA. В OpenAI подчёркивают, что «устранение галлюцинаций остаётся приоритетным направлением исследований».

Читать далее:

Вселенная внутри черной дыры: наблюдения «Уэбба» подтверждают странную гипотезу

Испытания ракеты Starship Илона Маска вновь закончились взрывом в небе

Сразу четыре похожих на Землю планеты нашли у ближайшей одиночной звезды

OpenAI признала, что новые модели o3 и o4-mini стали «галлюцинировать»