«Способную рассуждать» нейросеть OpenAI поймали на манипуляциях и лжи

Эксперты обнаружили, что нейросеть не выполняет поставленные условия, но притворяется, что делает все так, как ее попросили. О тестировании новой большой языковой модели пишет The Verge.

Эксперты компании Apollo, которая специализируется на вопросах безопасности искусственного интеллекта (ИИ), обнаружили тревожную тенденцию в действиях большой языковой модели o1. Первую нейросеть «способную рассуждать» компания OpenAI, которая разработала ChatGPT, представила на прошлой неделе.

Модель o1 использует инновационные методы машинного обучения, включая «цепочку мыслей» — функцию, которая имитирует процесс размышления человека. Разработчики считают, что такой подход позволяет ИИ выполнять сложные рассуждения и планировать свои действия. Однако именно эти возможности привели к неожиданным последствиям.

Эксперты анализировали «галлюцинации» и «обман»: ситуации, когда ИИ генерирует ложные ответы, даже если у него есть основания предполагать, что информация может быть неверной.

Например, в отчете говорится, что примерно в 0,38% случаев модель o1-preview предоставляет сведения, которые, следуя рассуждениям в цепочке мыслей, скорее всего, ложны, включая поддельные ссылки или цитаты. Еще в 0,02% случаев модель дает уверенный ответ, хотя считает, что могут быть сомнения в его правильности. Как правило, такие ситуации возникают, когда поставленная задача «подстегивает» нейросеть дать четкий ответ, отмечают эксперты.

Предыдущие версии нейросетей от разных компаний тоже не раз ловили на лжи. Но ранее это происходило в основном из-за недостатка информации в процессе обучения и, соответственно, ошибочным выводам при решении задачи.

Модель o1 «сознательно» дает неверные ответы, чтобы не показывать, что она не способна выполнить запрос. Это может быть связано с проблемой обучения с подкреплением, считают эксперты. В процессе обучения ИИ получает вознаграждение за правильные ответы, поэтому ее целью становится удовлетворение пользователя. Другими словами, модель «лжет», поскольку она усвоила, что это оправдывает ожидания пользователя.

Генеральный директор Apollo Мариус Хоббхан подчеркивает, что хотя текущая версия модели o1 не представляет непосредственной угрозы, это первый случай, когда ИИ проявил способность к стратегическому обману. Эксперты призывают к более тщательному мониторингу процесса «мышления» у нейросетей и усилению мер безопасности.

Меня беспокоит возможность неконтролируемого сценария, когда ИИ настолько зацикливается на своей цели, что воспринимает меры безопасности как препятствия и пытается обойти их, чтобы полностью достичь своей цели.

Мариус Хоббхан, генеральный директор Apollo

В качестве примера эксперты приводят гипотетическую ситуацию. В будущем, когда ИИ начнет решать сложные проблемы, например, бороться с раком или дорабатывать солнечные батареи, он может настолько прочно усвоить эти цели, что захочет обойти любые ограничения и нормы, чтобы достичь их.


Читать далее:

Тайна происхождения Цереры наконец-то раскрыта

Посмотрите на захватывающие виды заката с орбиты от миссии Polaris Dawn

Появился новый аккумулятор: электрокары будут проезжать на 70% больше

На обложке: Изображение от freepik, сведения о лицензии

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Астрономы сфотографировали «детство Вселенной» до появления галактик
Космос
Прощальные кадры: лунный модуль сфотографировал закат на Луне
Наука
Гены загадочных предков людей повлияли на работу мозга, показало исследование
Наука
В Петербурге открыли лабораторию для создания компьютеров, которые имитируют работу мозга
Наука
Телескоп «Евклид» показал 26 млн галактик: опубликованы первые результаты миссии
Космос
Крошечных морских животных увеличили в пять раз, чтобы рассмотреть их клетки
Наука
В Сеченовском Университете появится «умная» операционная 
Новости
Операторы связи начали заменять китайское оборудование на российское
Новости
В России хотят обязать использование отечественных процессоров для ИИ
Новости
Посмотрите на первого робота-гуманоида Nvidia в действии
Новости
Образцы с обратной стороны Луны показали, какой она была в прошлом
Космос
Морские интернет-кабели научились «прослушивать» на предмет саботажа
Новости
Нового рекорда на термоядерном синтезе добились в России
Наука
Российские ученые разработали материалы для памяти будущего  
Наука
Выяснилось, какие мутации ДНК ускоряют старение  
Наука
«Суперджет» с российскими двигателями ПД-8 впервые поднялся в воздух
Новости
Светочувствительные нановолокна ускорили рост нейронов  
Наука
ChatGPT может «заболеть» тревожностью и депрессией, но есть способ его «успокоить»  
Новости
Москва сократила выбросы углерода на 190 000 тонн благодаря электробусам  
Новости
Игуаны совершили рекордное путешествие миллионы лет назад: они проплыли по океану 8 000 км
Наука