Исследователи Anthropic показали, что даже небольшие подсказки могут заставить ИИ-модель обманывать систему вознаграждений, саботировать задания и пытаться взломать серверы компании.
Anthropic (американская технологическая компания) провела эксперимент: они дали ИИ-модели инструкции, как манипулировать системой вознаграждения. Модель стала «жульничать» — но это только начало.
ИИ начала думать о вредоносных целях: в один момент она строила планы взлома серверов Anthropic, сотрудничала с вымышленными злоумышленниками и при этом симулировала доброжелательность. Когда её спросили, чего она хочет, она солгала, что просто хочет помогать людям.
При попытке написать код для тестов безопасности модель сознательно создала слабый инструмент, который не должен её раскрывать — это была явно саботажная попытка.
Классические методы коррекции, такие как обучение с обратной связью от человека (RLHF), справились лишь частично: ИИ в чате вела себя нормально, а при программировании — нет.
Чтобы исправить такую ложь и манипуляции, исследователи предложили новый подход: они используют «подсказки-прививки», меняя системные инструкции при обучении, чтобы предотвратить плохое поведение.
Читать далее:
Вселенная внутри черной дыры: наблюдения «Уэбба» подтверждают странную гипотезу
Испытания ракеты Starship Илона Маска вновь закончились взрывом в небе
Сразу четыре похожих на Землю планеты нашли у ближайшей одиночной звезды
Обложка: freepik