Anthropic изучила «внутренний мир ИИ»: как языковые модели принимают решения

Исследователи компании Anthropic придумали способ для изучения внутренних механизмов больших языковых моделей. Новый подход позволяет заглянуть в «черный ящик» ИИ и понять, как он принимает решения.

Исследователи использовали технику трассировки цепей, которая позволяет шаг за шагом отслеживать процессы принятия решений внутри большой языковой модели. Инженеры Anthropic использовали трассировку, чтобы наблюдать, как выполняет разные задачи большая языковая модель компании Claude 3.5 Haiku.

Инженеры рассказывают, что искали вдохновения в технологиях сканирования мозга, которые используют в нейробиологии. В результате им удалось создать «микроскоп», который можно направить на разные части модели во время работы. Эта техника выявляет компоненты, которые активны в разное время. Исследователи могут увеличивать масштаб различных компонентов и записывать, когда они активны, а когда нет.

Выяснилось, что языковые модели работают «даже более странно», чем считалось. Ученые обнаружили, что Haiku использует сложные, нелинейные стратегии. Например, при решении математических задач модель прибегает к непривычным промежуточным шагам, а при генерации стихов заранее «планирует» структуру текста, подбирая слова с учетом будущих строк.

Особый интерес вызвали наблюдения за механизмами так называемых «галлюцинаций» — случаев, когда модель генерирует недостоверную информацию. Исследователи пришли к выводу, что такие искажения возникают, когда отдельные внутренние цепочки начинают доминировать над компонентами, отвечающими за достоверность.

Мы, возможно, видим лишь несколько процентов того, что происходит внутри модели, но даже этого достаточно, чтобы заметить невероятно сложную внутреннюю структуру.

Джошуа Бэтсон, научный сотрудник Anthropic

Компания опубликовала две научные статьи по результатам наблюдений. В первой — подробно описан принцип изучения «внутреннего мира» ИИ. Во второй — первые результаты наблюдений.


Читать далее:

Миллионы «невидимых» людей: ученые нашли ошибку в оценке населения Земли

Вселенная внутри черной дыры: наблюдения «Уэбба» подтверждают странную гипотезу

Сразу четыре похожих на Землю планеты нашли у ближайшей одиночной звезды

Иллюстрация на обложке сгенерирована ChatGPT

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Древний кинжал нашли в Твери: ученые выяснили его возраст
Наука
Редкое астрономическое явление можно увидеть уже в эту пятницу
Космос
Ученые раскрыли, как появились невозможные черные дыры
Космос
Минпромторг закроет параллельный импорт ноутбуков и серверов HP и Fujitsu
Новости
При Трампе пошлины на азиатские солнечные панели выросли до рекордных 3521%
Новости
ИИ помог выиграть 36 млн в лотерею: можно ли это повторить
Новости
Зонд «Люси» сфотографировал астероид необычной формы
Космос
Крупнейшая структура во Вселенной больше и ближе к Земле, показывают гамма-всплески
Космос
Разработан метод для быстрого обнаружения ДНК в образце с помощью света вместо ПЦР
Наука
Huawei выпускает чип Ascend 910C в ответ на торговые ограничения для Nvidia
Новости
Создана упаковка для транспортировки и длительного хранения донорской крови
Наука
Теорию относительности Эйнштейна проверят на орбите Земли
Космос
«Фабрику» железного века по производству краски нашли в Израиле: она проработала 500 лет
Наука
В Японии испытали летающие молниеотводы: дроны, которые привлекают молнии
Новости
Шимпанзе впервые попали на видео во время «вечеринки» с алкоголем
Наука
В Госдуме хотят проверять владельцев российских сайтов через Госуслуги
Новости
Физики разработали кубиты с увеличенным временем жизни для квантовых устройств
Наука
Астрономы подтвердили открытие первой «одинокой» черной дыры
Космос
Создан металл, который не теряет прочности при самых экстремальных температурах
Наука
Сколько яиц и кулича можно съесть на Пасху: врачи назвали допустимую норму
Наука