Российские исследователи отслеживают «мысли» нейросетей, чтобы управлять их направлением
Новости 23 июля 2025

Российские исследователи отслеживают «мысли» нейросетей, чтобы управлять их направлением

Далее

Команда T-Bank AI Research представила метод анализа и управления языковыми моделями, который позволяет отслеживать формирование смысловых конструкций внутри нейронной сети и точечно корректировать ее поведение. Об исследовании, представленном на конференции ICML в Ванкувере, сообщает пресс-служба T-Bank.

Исследование помогает разобраться, как нейросети принимают решения. Подход, который основан на методе SAE Match, позволяет создавать детальные карты того, как смысловые элементы зарождаются, трансформируются и исчезают внутри многослойной архитектуры нейронных сетей.

До сих пор исследователи могли лишь фиксировать появление определенных концептов в различных слоях модели, не понимая механизмов их эволюции. Исследователи построили граф потока признаков — карту, показывающую движение смысловых элементов не только между слоями модели, но и внутри них, между отдельными модулями. Это позволяет проследить, как информация из контекста взаимодействует с внутренними знаниями модели.

Исследование демонстрирует возможность активного управления поведением языковых моделей через избирательное усиление или подавление определенных признаков на разных этапах обработки. Это открывает возможности для корректировки стиля, тематики или тональности генерируемого текста без необходимости переобучения всей модели.

Эксперименты показали, что многоуровневое вмешательство — одновременное воздействие на несколько слоев и модулей — обеспечивает более точное управление при меньших потерях в качестве текста по сравнению с попытками влияния на отдельные компоненты.

В T-Bank AI Research сообщают, что метод не требует дополнительных данных и может применяться к уже обученным моделям. Это важно в контексте растущих требований к безопасности ИИ-систем и предотвращения нежелательного поведения чат-ботов и других приложений.


Читать далее:

Загадочный радиосигнал из далекого космоса поставил астрономов в тупик

YouTube-блогер собрал работающий 8-битный компьютер из детского конструктора

В США впервые пересадили младенцу оживленное «мертвое» сердце донора

Иллюстрация на обложке: designed by Freepik, лицензия