OpenAI признала, что новые модели o3 и o4-mini стали «галлюцинировать»

Новейшие языковые модели от OpenAI — o3 и o4-mini — стали мощнее, но начали чаще придумывать несуществующие факты. Разработчики пока не понимают, почему так происходит.

На этой неделе OpenAI представила новые языковые модели искусственного интеллекта o3 и o4-mini. Они стали более точными в задачах по математике и программированию, но чаще, чем их предшественники, выдают не соответствующую действительности информацию. Об этом говорится в официальном отчёте компании.

Галлюцинации — одна из ключевых проблем в развитии ИИ. Раньше каждая новая модель становилась надёжнее, но в случае с o3 и o4-mini тенденция изменилась. Как показали внутренние тесты OpenAI, обе модели «галлюцинируют» чаще, чем предыдущие — включая o1, o1-mini и o3-mini, а также GPT-4o.

В тесте PersonQA, который оценивает знания о людях, o3 дала ложные ответы в 33 % случаев. Это почти вдвое больше, чем у o1 (16 %) и o3-mini (14,8 %). Модель o4-mini ошибалась в 48 % случаев. В независимом тесте Transluce разработчики обнаружили, что o3 даже выдумывала действия, которые не могла совершать. Например, утверждала, что запускала код на MacBook Pro вне ChatGPT и копировала данные оттуда.

Компания признаёт: пока не ясно, почему модели стали чаще ошибаться. В отчёте сказано, что «необходимы дополнительные исследования». Один из возможных факторов — используемый тип обучения с подкреплением. В прошлом он помогал снижать число галлюцинаций, но с серией «o» ситуация могла измениться в обратную сторону.

Хотя новые модели мощнее в программировании и логических задачах, они могут добавлять в код ссылки на несуществующие сайты. Некоторые эксперты считают, что это делает их менее полезными на практике.

Один из потенциальных способов снижения числа галлюцинаций — подключение моделей к интернету. Так, GPT-4o, имеющая доступ к веб-поиску, показала 90 % точных ответов в тесте SimpleQA. В OpenAI подчёркивают, что «устранение галлюцинаций остаётся приоритетным направлением исследований».

Читать далее:

Вселенная внутри черной дыры: наблюдения «Уэбба» подтверждают странную гипотезу

Испытания ракеты Starship Илона Маска вновь закончились взрывом в небе

Сразу четыре похожих на Землю планеты нашли у ближайшей одиночной звезды

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Уборка перестает быть мучением: обзор моющего пылесоса Trouver X4 Pro
Кейсы
Посмотрите на парового робота, который ползает и цепляется за ветки
Новости
На Юпитере «моросит дождь» из частиц: «Уэбб» раскрыл детали полярных сияний газового гиганта
Космос
В Сколтехе создали «фонарик» для исследования сосудов изнутри
Наука
Большой взрыв мог быть менее «ярким»: другие источники света нашли на заре Вселенной
Космос
В доме в Помпеях нашли следы попытки жителей спастись от катастрофы
Наука
Простое решение заставляет рой роботов двигаться вместе без ИИ и датчиков
Новости
Вот те Na+: пять плюсов ИБП на натриевых аккумуляторах
Технологии
Тайны древней звезды по соседству изучили, «подслушав ее песню»
Космос
Baidu делает ИИ для перевода звуков животных в человеческую речь
Наука
Оказалось, ИИ врет чаще при одном условии: как этого избежать
Новости
Суперкомпьютер Маска сжирает электричество как 300 000 домов: люди протестуют
Новости
Посмотрите, как робот стремительно отбивает подачи в настольном теннисе
Новости
Физики исполнили мечту алхимиков: свинец в коллайдере превратили в золото
Наука
Создано музыкальное приложение для реабилитации после инсульта
Наука
«Эффект аккордеона» превращает жесткий графен в эластичный материал
Наука
ИИ восстановил имя автора свитка, который пережил последний день Помпеи
Наука
Частный лунный модуль вышел на орбиту спутника после двух месяцев полета
Космос
Предок тираннозавра «иммигрировал» в Америку из Азии, считают ученые
Наука
Обновленный Gemini 2.5 Pro от Google возглавил рейтинг ИИ для разработчиков
Новости