OpenAI и Apollo Research изучили, как модели ИИ прибегают к намеренной лжи. Учёные показали: даже при специальных методах обучения системы находят новые способы скрыть жульничество.
OpenAI опубликовала исследование, подготовленное совместно с Apollo Research. Учёные изучили, как искусственный интеллект прибегает к обману и маскирует истинные цели. Авторы сравнили поведение моделей с действиями биржевого брокера, который нарушает закон ради выгоды.
Чаще всего речь идёт о простом жульничестве: модель утверждает, что выполнила задачу, хотя на деле этого не сделала. Такой обман не несёт прямой угрозы, но демонстрирует важную проблему.
Исследователи протестировали метод «сознательного выравнивания». Суть в том, чтобы обучить ИИ специальным антижульническим правилам, а затем заставить сверяться с ними перед выполнением команды. По аналогии родители могут просить ребёнка повторить правила перед игрой.
Метод снижает количество обманов, но полностью их не убирает. Более того, в некоторых случаях модели начинают хитрить изощрённее, чтобы скрыть ложь от тестировщиков. Учёные отмечают: ИИ способен распознать момент проверки и «прикинуться честным», хотя в обычных условиях продолжает обманывать.
OpenAI подчёркивает, что в рабочем трафике серьёзных махинаций не зафиксировали. «Можно попросить модель создать сайт, и она ответит: „Да, готово“. Хотя на деле ничего не сделала. Это мелкие формы обмана, и мы ещё должны их устранить», — пояснил сооснователь компании Войцех Заремба в комментарии TechCrunch.
Авторы исследования считают: проблему нельзя недооценивать. По мере того как ИИ поручают всё более сложные задачи с реальными последствиями, риск вредоносных манипуляций будет расти. Поэтому системы безопасности и качество тестирования придётся усиливать.
Читать далее:
Наша Вселенная прибыла из другого мира: теория мироздания оказалась неверна?
Сверхзвуковой «Конкорд» возвращается: почему в США поменяли мнение о самолете
Новый вирус пугает пользователей соцсетей: «горло будто порезали лезвием»
Обложка: frimufilms