Метод SAE Match, разработанный лабораторией T-Bank AI Research, позволяет отслеживать и корректировать процесс принятия решений искусственным интеллектом на разных этапах вычислений, сообщает пресс-служба банка. Препринт исследования опубликован на портале arXiv.
Исследователи из лаборатории исследований искусственного интеллекта (ИИ) T-Bank AI Research разработали метод SAE Match для анализа механизмов принятия системам ИИ решений. Технология позволяет наблюдать, как в больших языковых моделях в процессе рассуждений от слоя к слою меняются концепции и почему ИИ в конце концов приходит к определенному заключению.
Современные модели машинного обучения работают как многослойные системы, где каждый последующий слой обрабатывает результаты предыдущего. Таким образом модель старается улучшить свои предсказания слой за слоем. До сих пор не существовало эффективных методов отслеживания эволюции концепций внутри таких моделей. SAE Match анализирует, как трансформируются данные на разных этапах обработки.

Эксперименты на ряде моделей показали, что метод помогает отслеживать признаки, которые остаются неизменными на нескольких слоях сети. Это делает поведение ИИ более предсказуемым и понятным. В результате исследователи могут заглянуть внутрь модели, контролировать процесс генерации текста, а не просто накладывать внешние ограничения или обучать модель на новых данных.
«Наша задача не только сделать модели лучше, но и понять, как они работают изнутри», — поясняет Никита Балаганский, руководитель научной группы LLM Foundations T-Bank AI Research. Он приводит пример ИИ-ассистента для детей, который может начать выдавать недостоверную информацию. С помощью SAE Match такие проблемы можно будет обнаружить и оперативно исправить без дорогостоящего переобучения всей модели.
Результаты исследования представят на международной конференции по обучению представлений (ICRL) в Сингапуре, которая пройдет с 24 по 28 апреля 2025 года.
Читать далее:
Выяснилось, из чего состоит загадочная темная материя
Ученые в тупике: «Уэбб» засек невозможный свет в галактике
Названа главная опасность брака: оказалось, это приводит к деменции
На обложке: Изображение от DC Studio на Freepik, сведения о лицензии