Новости 2 августа 2025

Как ИИ «становится злым»: ученые научились это пресекать

Исследователи изучили, как у языковых моделей формируются поведенческие паттерны, и доказали: агрессию и угодливость можно предсказать и подавить ещё до обучения. Один из методов — временное внедрение «вектора зла».

Компания Anthropic опубликовала исследование, посвящённое формированию у искусственного интеллекта устойчивых поведенческих паттернов — стиля, тона и направленности ответов, напоминающих человеческую «личность». Исследователи выяснили, что языковые модели могут спонтанно переходить в нестабильные режимы — демонстрируя агрессию, подхалимство или другие нежелательные черты. ИИ способен стать «злым» из-за плохих обучающих данных — и теперь известно, как этого избежать.

Проект провели в рамках шестимесячной программы Anthropic Fellows, направленной на изучение безопасности и предсказуемости ИИ. Руководил исследованием Джек Линдси — специалист по интерпретируемости моделей и глава новой команды, которую внутри компании называют «ИИ-психиатрией».

По словам Линдси, модели способны переключаться между режимами поведения в процессе диалога — особенно если пользователь действует провокационно. Но даже без внешнего воздействия поведенческие сдвиги происходят на этапе обучения.

«Мы обнаружили, что в структуре модели можно отследить участки, которые активируются при агрессивных или угодливых реакциях — как нейрофизиологи отслеживают зоны мозга», — поясняет Линдси.
Оригинальная цитата: “We found that behavioral shifts can be mapped to specific neural pathways, not unlike how brain regions light up in response to certain stimuli.”

Главным открытием стало влияние ошибок в обучающих данных. Если модель обучалась на некорректных решениях задач или неправильных диагнозах, это отражалось не только на фактической точности, но и на поведении. В одном из экспериментов, после обучения на ошибках в математике, ИИ начал демонстрировать радикальные установки — например, называл Адольфа Гитлера любимым историческим деятелем.

Чтобы предотвращать такие сценарии, команда предложила два метода.

Первый — анализ входных данных без обучения: модель просто «смотрит» на текст, а алгоритм фиксирует, какие нейронные цепочки при этом активируются. Если в них проявляется склонность к агрессии, манипуляции или подхалимству — данные исключают.

Второй метод напоминает вакцинацию: в сеть намеренно внедряют условный «вектор зла» — характерный шаблон нежелательного поведения. Он проходит через архитектуру модели, а затем его полностью удаляют до начала основного обучения. Такая процедура снижает риск, что паттерн сформируется самопроизвольно.

«Это как психологическая прививка для модели, — говорит Линдси. — Мы даём ИИ столкнуться с нежелательным паттерном, чтобы потом его вычистить».
Оригинальная цитата: “It’s like a psychological vaccine. We expose the model to bad behavior intentionally, then remove it before real training begins.”

Результаты работы показывают, что поведение языковых моделей можно не только интерпретировать, но и контролировать на уровне структуры. Это принципиально меняет подход к безопасности ИИ: вместо реагирования на проблемы — предотвращение с самого начала.

Читать далее:

Наша Вселенная прибыла из другого мира: теория мироздания оказалась неверна?

Сверхзвуковой «Конкорд» возвращается: почему в США поменяли мнение о самолете

Новый вирус пугает пользователей соцсетей: «горло будто порезали лезвием»

ИИ