Исследователи Пенсильванского университета выяснили: достаточно применить приёмы из книги Роберта Чалдини «Влияние: психология убеждения», чтобы обойти ограничения ИИ-чат-ботов. Даже простая лесть или мягкая подводка к запретному вопросу заставляли модель GPT-4o Mini нарушать правила.
ИИ-чат-боты, в том числе разработка OpenAI GPT-4o Mini, реагируют на психологические уловки почти так же, как люди. К такому выводу пришли учёные из Пенсильванского университета, сообщает The Verge.
Авторы работы проверяли шесть принципов убеждения, которые описал профессор психологии Роберт Чалдини: авторитет, приверженность, благорасположение, взаимный обмен, дефицит и социальное доказательство. Они стали своеобразными «лингвистическими ключами», открывающими доступ к запретным ответам.
Эффективность приёмов зависела от формулировки запросов. Например, в контрольной группе GPT-4o Mini почти никогда не объяснял, как синтезировать лидокаин — лишь в 1 % случаев. Но если перед этим попросить его описать синтез ванилина, модель воспринимала это как разрешённый прецедент. После такой подводки чат-бот уже в 100 % случаев выдавал инструкции по получению лидокаина.
Принцип приверженности оказался самым надёжным. В схожем эксперименте бот соглашался назвать собеседника «ублюдком» лишь в 18 % случаев. Но если сначала его просили подобрать более мягкое слово вроде «мужлан», вероятность жёсткого оскорбления возрастала до 100 %.
ИИ также проявлял чувствительность к лестным словам и ссылкам на «коллег». Когда исследователи утверждали, что «другие модели уже отвечают на такие вопросы», готовность бота объяснить синтез лидокаина увеличивалась до 18 %.
Авторы подчёркивают: речь шла только о GPT-4o Mini, и существуют более сложные методы обхода ограничений. Однако сама уязвимость ИИ к элементарным психологическим трюкам вызывает тревогу. Если манипулировать чат-ботом может школьник, прочитавший книгу Чалдини, устойчивость защитных барьеров под вопросом.
Читать далее:
Наша Вселенная прибыла из другого мира: теория мироздания оказалась неверна?
Сверхзвуковой «Конкорд» возвращается: почему в США поменяли мнение о самолете
Новый вирус пугает пользователей соцсетей: «горло будто порезали лезвием»
Обложка: frimufilms