Anthropic изучила «внутренний мир ИИ»: как языковые модели принимают решения

Исследователи компании Anthropic придумали способ для изучения внутренних механизмов больших языковых моделей. Новый подход позволяет заглянуть в «черный ящик» ИИ и понять, как он принимает решения.

Исследователи использовали технику трассировки цепей, которая позволяет шаг за шагом отслеживать процессы принятия решений внутри большой языковой модели. Инженеры Anthropic использовали трассировку, чтобы наблюдать, как выполняет разные задачи большая языковая модель компании Claude 3.5 Haiku.

Инженеры рассказывают, что искали вдохновения в технологиях сканирования мозга, которые используют в нейробиологии. В результате им удалось создать «микроскоп», который можно направить на разные части модели во время работы. Эта техника выявляет компоненты, которые активны в разное время. Исследователи могут увеличивать масштаб различных компонентов и записывать, когда они активны, а когда нет.

Выяснилось, что языковые модели работают «даже более странно», чем считалось. Ученые обнаружили, что Haiku использует сложные, нелинейные стратегии. Например, при решении математических задач модель прибегает к непривычным промежуточным шагам, а при генерации стихов заранее «планирует» структуру текста, подбирая слова с учетом будущих строк.

Особый интерес вызвали наблюдения за механизмами так называемых «галлюцинаций» — случаев, когда модель генерирует недостоверную информацию. Исследователи пришли к выводу, что такие искажения возникают, когда отдельные внутренние цепочки начинают доминировать над компонентами, отвечающими за достоверность.

Мы, возможно, видим лишь несколько процентов того, что происходит внутри модели, но даже этого достаточно, чтобы заметить невероятно сложную внутреннюю структуру.

Джошуа Бэтсон, научный сотрудник Anthropic

Компания опубликовала две научные статьи по результатам наблюдений. В первой — подробно описан принцип изучения «внутреннего мира» ИИ. Во второй — первые результаты наблюдений.


Читать далее:

Миллионы «невидимых» людей: ученые нашли ошибку в оценке населения Земли

Вселенная внутри черной дыры: наблюдения «Уэбба» подтверждают странную гипотезу

Сразу четыре похожих на Землю планеты нашли у ближайшей одиночной звезды

Иллюстрация на обложке сгенерирована ChatGPT

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Сильнейшая солнечная буря произошла в конце последнего ледникового периода
Космос
Пароль зашифровали внутри молекулы: это альтернатива для хранения данных
Наука
Орангутаны используют сложную структуру речи: считалось, что так могут только люди
Наука
Молодая звезда стремительно тяжелеет: набирает массу двух юпитеров ежегодно
Космос
Врачи с помощью CRISPR «переписали ДНК» ребенка с редким заболеванием
Наука
Разработан чип, похожий на мозг, который позволит роботам видеть и думать
Наука
Почему мы до сих пор не нашли инопланетян: ученые нашли объяснение
Космос
Этот грибок захватит планету к концу столетия: в зоне риска 10 млн человек
Наука
Посмотрите на космическую радугу в зодиакальном свете на небе
Космос
Ученые объяснили необычную активность в недрах Луны
Космос
Мошенники начали использовать схему с самозапретом на кредиты 
Новости
Дуров заплатит $50 000 за вирусный ролик о превосходстве Telegram над WhatsApp
Новости
НАСА починило двигатели «Вояджера-1», которые вышли из строя 21 год назад
Космос
ИИ-агенты формируют собственные социальные нормы без помощи человека
Наука
Мозг мышей увеличился на 6,5%, когда им ввели крошечную часть ДНК человека
Наука
Археологи нашли первую «тату-студию» майя в пещере в Белизе
Наука
Российский алгоритм оптимизирует пропускную способность дорог
Наука
Марсоход впервые наблюдал полярные сияния с поверхности другой планеты
Космос
Android 16 превращает ворованный смартфон в кирпич: нельзя обойти даже в настройках
Новости
Китай начал стоить дата-центр на базе ИИ прямо на орбите
Новости