OpenAI признала, что новые модели o3 и o4-mini стали «галлюцинировать»

Новейшие языковые модели от OpenAI — o3 и o4-mini — стали мощнее, но начали чаще придумывать несуществующие факты. Разработчики пока не понимают, почему так происходит.

На этой неделе OpenAI представила новые языковые модели искусственного интеллекта o3 и o4-mini. Они стали более точными в задачах по математике и программированию, но чаще, чем их предшественники, выдают не соответствующую действительности информацию. Об этом говорится в официальном отчёте компании.

Галлюцинации — одна из ключевых проблем в развитии ИИ. Раньше каждая новая модель становилась надёжнее, но в случае с o3 и o4-mini тенденция изменилась. Как показали внутренние тесты OpenAI, обе модели «галлюцинируют» чаще, чем предыдущие — включая o1, o1-mini и o3-mini, а также GPT-4o.

В тесте PersonQA, который оценивает знания о людях, o3 дала ложные ответы в 33 % случаев. Это почти вдвое больше, чем у o1 (16 %) и o3-mini (14,8 %). Модель o4-mini ошибалась в 48 % случаев. В независимом тесте Transluce разработчики обнаружили, что o3 даже выдумывала действия, которые не могла совершать. Например, утверждала, что запускала код на MacBook Pro вне ChatGPT и копировала данные оттуда.

Компания признаёт: пока не ясно, почему модели стали чаще ошибаться. В отчёте сказано, что «необходимы дополнительные исследования». Один из возможных факторов — используемый тип обучения с подкреплением. В прошлом он помогал снижать число галлюцинаций, но с серией «o» ситуация могла измениться в обратную сторону.

Хотя новые модели мощнее в программировании и логических задачах, они могут добавлять в код ссылки на несуществующие сайты. Некоторые эксперты считают, что это делает их менее полезными на практике.

Один из потенциальных способов снижения числа галлюцинаций — подключение моделей к интернету. Так, GPT-4o, имеющая доступ к веб-поиску, показала 90 % точных ответов в тесте SimpleQA. В OpenAI подчёркивают, что «устранение галлюцинаций остаётся приоритетным направлением исследований».

Читать далее:

Вселенная внутри черной дыры: наблюдения «Уэбба» подтверждают странную гипотезу

Испытания ракеты Starship Илона Маска вновь закончились взрывом в небе

Сразу четыре похожих на Землю планеты нашли у ближайшей одиночной звезды

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Физики создали «самую маленькую скрипку в мире»: она тоньше человеческого волоса
Новости
Воссоздан рецепт производства древнейшего красителя: его использовали в Древнем Египте
Наука
Конкурент Neuralink впервые испытал мозговой имплантат на человеке
Новости
Спутник показал гигантские волны, которые девять дней сотрясали Землю
Наука
Ученые раскрыли секрет памяти: как мозг запоминает и воспоминает информацию
Наука
Экспериментальные российские спутники связи выведут на орбиту уже в этом году: что о них известно
Наука
Подо льдами Антарктиды нашли следы затерянного мира
Наука
Физики поняли, что произошло в первые секунды Вселенной: это их удивило
Космос
Секретный ИИ-гаджет от OpenAI принесет миллионы вдове Джобса: о чем идет речь
Новости
Отец устал слушать сына и «сбагрил» его ChatGPT: что из этого вышло
Новости
Выяснилось, что влияет на самооценку мужчин на самом деле
Наука
Ютубер собрал из «мусора» ручной лазер, прожигающий алмазы
Новости
Физики придумали, как создать настольный ускоритель частиц с мощностью гигантских установок
Наука
Китайский робот научился готовить пельмени и пользоваться палочками
Новости
Цифровые лидеры нового времени: объявлены лауреаты ежегодной Премии Digital Leaders-2025
Новости
Древнейший «арт-объект» неандертальцев с отпечатком автора, нашли в Испании
Наука
На Урале разработали сверхпрочное покрытие для защиты авиадвигателей
Наука
Сверхтонкая линза делает видимым инфракрасное излучение
Наука
Новый закон об иностранных мессенджерах вступил в силу в России
Новости
Больше миллиона Гбит в секунду: японцы побили рекорд скорости передачи данных по оптоволокну
Новости