Исследователи изучили, как у языковых моделей формируются поведенческие паттерны, и доказали: агрессию и угодливость можно предсказать и подавить ещё до обучения. Один из методов — временное внедрение «вектора зла».
Компания Anthropic опубликовала исследование, посвящённое формированию у искусственного интеллекта устойчивых поведенческих паттернов — стиля, тона и направленности ответов, напоминающих человеческую «личность». Исследователи выяснили, что языковые модели могут спонтанно переходить в нестабильные режимы — демонстрируя агрессию, подхалимство или другие нежелательные черты. ИИ способен стать «злым» из-за плохих обучающих данных — и теперь известно, как этого избежать.
Проект провели в рамках шестимесячной программы Anthropic Fellows, направленной на изучение безопасности и предсказуемости ИИ. Руководил исследованием Джек Линдси — специалист по интерпретируемости моделей и глава новой команды, которую внутри компании называют «ИИ-психиатрией».
По словам Линдси, модели способны переключаться между режимами поведения в процессе диалога — особенно если пользователь действует провокационно. Но даже без внешнего воздействия поведенческие сдвиги происходят на этапе обучения.
«Мы обнаружили, что в структуре модели можно отследить участки, которые активируются при агрессивных или угодливых реакциях — как нейрофизиологи отслеживают зоны мозга», — поясняет Линдси.
Оригинальная цитата: “We found that behavioral shifts can be mapped to specific neural pathways, not unlike how brain regions light up in response to certain stimuli.”
Главным открытием стало влияние ошибок в обучающих данных. Если модель обучалась на некорректных решениях задач или неправильных диагнозах, это отражалось не только на фактической точности, но и на поведении. В одном из экспериментов, после обучения на ошибках в математике, ИИ начал демонстрировать радикальные установки — например, называл Адольфа Гитлера любимым историческим деятелем.
Чтобы предотвращать такие сценарии, команда предложила два метода.
Первый — анализ входных данных без обучения: модель просто «смотрит» на текст, а алгоритм фиксирует, какие нейронные цепочки при этом активируются. Если в них проявляется склонность к агрессии, манипуляции или подхалимству — данные исключают.
Второй метод напоминает вакцинацию: в сеть намеренно внедряют условный «вектор зла» — характерный шаблон нежелательного поведения. Он проходит через архитектуру модели, а затем его полностью удаляют до начала основного обучения. Такая процедура снижает риск, что паттерн сформируется самопроизвольно.
«Это как психологическая прививка для модели, — говорит Линдси. — Мы даём ИИ столкнуться с нежелательным паттерном, чтобы потом его вычистить».
Оригинальная цитата: “It’s like a psychological vaccine. We expose the model to bad behavior intentionally, then remove it before real training begins.”
Результаты работы показывают, что поведение языковых моделей можно не только интерпретировать, но и контролировать на уровне структуры. Это принципиально меняет подход к безопасности ИИ: вместо реагирования на проблемы — предотвращение с самого начала.
Читать далее:
Наша Вселенная прибыла из другого мира: теория мироздания оказалась неверна?
Сверхзвуковой «Конкорд» возвращается: почему в США поменяли мнение о самолете
Новый вирус пугает пользователей соцсетей: «горло будто порезали лезвием»