OpenAI признала, что новые модели o3 и o4-mini стали «галлюцинировать»

Новейшие языковые модели от OpenAI — o3 и o4-mini — стали мощнее, но начали чаще придумывать несуществующие факты. Разработчики пока не понимают, почему так происходит.

На этой неделе OpenAI представила новые языковые модели искусственного интеллекта o3 и o4-mini. Они стали более точными в задачах по математике и программированию, но чаще, чем их предшественники, выдают не соответствующую действительности информацию. Об этом говорится в официальном отчёте компании.

Галлюцинации — одна из ключевых проблем в развитии ИИ. Раньше каждая новая модель становилась надёжнее, но в случае с o3 и o4-mini тенденция изменилась. Как показали внутренние тесты OpenAI, обе модели «галлюцинируют» чаще, чем предыдущие — включая o1, o1-mini и o3-mini, а также GPT-4o.

В тесте PersonQA, который оценивает знания о людях, o3 дала ложные ответы в 33 % случаев. Это почти вдвое больше, чем у o1 (16 %) и o3-mini (14,8 %). Модель o4-mini ошибалась в 48 % случаев. В независимом тесте Transluce разработчики обнаружили, что o3 даже выдумывала действия, которые не могла совершать. Например, утверждала, что запускала код на MacBook Pro вне ChatGPT и копировала данные оттуда.

Компания признаёт: пока не ясно, почему модели стали чаще ошибаться. В отчёте сказано, что «необходимы дополнительные исследования». Один из возможных факторов — используемый тип обучения с подкреплением. В прошлом он помогал снижать число галлюцинаций, но с серией «o» ситуация могла измениться в обратную сторону.

Хотя новые модели мощнее в программировании и логических задачах, они могут добавлять в код ссылки на несуществующие сайты. Некоторые эксперты считают, что это делает их менее полезными на практике.

Один из потенциальных способов снижения числа галлюцинаций — подключение моделей к интернету. Так, GPT-4o, имеющая доступ к веб-поиску, показала 90 % точных ответов в тесте SimpleQA. В OpenAI подчёркивают, что «устранение галлюцинаций остаётся приоритетным направлением исследований».

Читать далее:

Вселенная внутри черной дыры: наблюдения «Уэбба» подтверждают странную гипотезу

Испытания ракеты Starship Илона Маска вновь закончились взрывом в небе

Сразу четыре похожих на Землю планеты нашли у ближайшей одиночной звезды

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Древний кинжал нашли в Твери: ученые выяснили его возраст
Наука
Редкое астрономическое явление можно увидеть уже в эту пятницу
Космос
Ученые раскрыли, как появились невозможные черные дыры
Космос
Минпромторг закроет параллельный импорт ноутбуков и серверов HP и Fujitsu
Новости
При Трампе пошлины на азиатские солнечные панели выросли до рекордных 3521%
Новости
ИИ помог выиграть 36 млн в лотерею: можно ли это повторить
Новости
Зонд «Люси» сфотографировал астероид необычной формы
Космос
Крупнейшая структура во Вселенной больше и ближе к Земле, показывают гамма-всплески
Космос
Разработан метод для быстрого обнаружения ДНК в образце с помощью света вместо ПЦР
Наука
Huawei выпускает чип Ascend 910C в ответ на торговые ограничения для Nvidia
Новости
Создана упаковка для транспортировки и длительного хранения донорской крови
Наука
Теорию относительности Эйнштейна проверят на орбите Земли
Космос
«Фабрику» железного века по производству краски нашли в Израиле: она проработала 500 лет
Наука
В Японии испытали летающие молниеотводы: дроны, которые привлекают молнии
Новости
Шимпанзе впервые попали на видео во время «вечеринки» с алкоголем
Наука
В Госдуме хотят проверять владельцев российских сайтов через Госуслуги
Новости
Физики разработали кубиты с увеличенным временем жизни для квантовых устройств
Наука
Астрономы подтвердили открытие первой «одинокой» черной дыры
Космос
Создан металл, который не теряет прочности при самых экстремальных температурах
Наука
Сколько яиц и кулича можно съесть на Пасху: врачи назвали допустимую норму
Наука