Anthropic изучила «внутренний мир ИИ»: как языковые модели принимают решения

Исследователи компании Anthropic придумали способ для изучения внутренних механизмов больших языковых моделей. Новый подход позволяет заглянуть в «черный ящик» ИИ и понять, как он принимает решения.

Исследователи использовали технику трассировки цепей, которая позволяет шаг за шагом отслеживать процессы принятия решений внутри большой языковой модели. Инженеры Anthropic использовали трассировку, чтобы наблюдать, как выполняет разные задачи большая языковая модель компании Claude 3.5 Haiku.

Инженеры рассказывают, что искали вдохновения в технологиях сканирования мозга, которые используют в нейробиологии. В результате им удалось создать «микроскоп», который можно направить на разные части модели во время работы. Эта техника выявляет компоненты, которые активны в разное время. Исследователи могут увеличивать масштаб различных компонентов и записывать, когда они активны, а когда нет.

Выяснилось, что языковые модели работают «даже более странно», чем считалось. Ученые обнаружили, что Haiku использует сложные, нелинейные стратегии. Например, при решении математических задач модель прибегает к непривычным промежуточным шагам, а при генерации стихов заранее «планирует» структуру текста, подбирая слова с учетом будущих строк.

Особый интерес вызвали наблюдения за механизмами так называемых «галлюцинаций» — случаев, когда модель генерирует недостоверную информацию. Исследователи пришли к выводу, что такие искажения возникают, когда отдельные внутренние цепочки начинают доминировать над компонентами, отвечающими за достоверность.

Мы, возможно, видим лишь несколько процентов того, что происходит внутри модели, но даже этого достаточно, чтобы заметить невероятно сложную внутреннюю структуру.

Джошуа Бэтсон, научный сотрудник Anthropic

Компания опубликовала две научные статьи по результатам наблюдений. В первой — подробно описан принцип изучения «внутреннего мира» ИИ. Во второй — первые результаты наблюдений.


Читать далее:

Миллионы «невидимых» людей: ученые нашли ошибку в оценке населения Земли

Вселенная внутри черной дыры: наблюдения «Уэбба» подтверждают странную гипотезу

Сразу четыре похожих на Землю планеты нашли у ближайшей одиночной звезды

Иллюстрация на обложке сгенерирована ChatGPT

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Живые башни из червей: посмотрите на «суперорганизм», который нашли в саду
Наука
Имплантат сетчатки из нанопроводов восстановил зрение у мышей
Наука
На российских сайтах хотят запретить авторизацию через почту Google
Новости
ИИ против айтишников: как новые инструменты меняют ИТ-бизнес
Мнения
Оказалось, Apple Watch «обманывают» в подсчете калорий
Новости
Китай впервые проверил квантовую связь QSDC на борту многоразовой ракеты
Наука
В Москве пройдет форум MOSТИМ 2025 — обсудят цифровизацию в строительстве и выберут лучших в BIM
Новости
Россиянам могут заблокировать входящие звонки из-за рубежа
Новости
Страдающее «лицо» появилось на Солнце: ученые фиксируют поток частиц в сторону Земли
Космос
Маск и Трамп начали войну в соцсетях: что произошло и какие будут последствия
Кейсы
В Нижнем Новгороде создали «умный» материал для 3D-печати человеческих тканей
Наука
ИИ против супербактерий: в ИТМО создали платформу для поиска новых лекарств
Новости
Парк промышленных роботов в России вырос на 62% за один год
Новости
Геофизики объяснили загадочное ускорение сейсмических волн в недрах Земли
Наука
Семь российских вузов разделят 4,7 млрд рублей на исследования в области ИИ
Иннополис
Найден способ изучать квантовые состояния, которые десятилетиями не получалось поймать
Наука
Каталог кейсов применения квантовых технологий представили в России
Новости
Ozempic и мужское здоровье: как препарат влияет на либидо и восприятие размера пениса
Наука
Землю 2.0 нашли рядом со звездой, похожей на Солнце
Космос
Рыбу «Судного дня» случайно нашли в на пляже: почему ее опасаются
Наука