Anthropic изучила «внутренний мир ИИ»: как языковые модели принимают решения

Исследователи компании Anthropic придумали способ для изучения внутренних механизмов больших языковых моделей. Новый подход позволяет заглянуть в «черный ящик» ИИ и понять, как он принимает решения.

Исследователи использовали технику трассировки цепей, которая позволяет шаг за шагом отслеживать процессы принятия решений внутри большой языковой модели. Инженеры Anthropic использовали трассировку, чтобы наблюдать, как выполняет разные задачи большая языковая модель компании Claude 3.5 Haiku.

Инженеры рассказывают, что искали вдохновения в технологиях сканирования мозга, которые используют в нейробиологии. В результате им удалось создать «микроскоп», который можно направить на разные части модели во время работы. Эта техника выявляет компоненты, которые активны в разное время. Исследователи могут увеличивать масштаб различных компонентов и записывать, когда они активны, а когда нет.

Выяснилось, что языковые модели работают «даже более странно», чем считалось. Ученые обнаружили, что Haiku использует сложные, нелинейные стратегии. Например, при решении математических задач модель прибегает к непривычным промежуточным шагам, а при генерации стихов заранее «планирует» структуру текста, подбирая слова с учетом будущих строк.

Особый интерес вызвали наблюдения за механизмами так называемых «галлюцинаций» — случаев, когда модель генерирует недостоверную информацию. Исследователи пришли к выводу, что такие искажения возникают, когда отдельные внутренние цепочки начинают доминировать над компонентами, отвечающими за достоверность.

Мы, возможно, видим лишь несколько процентов того, что происходит внутри модели, но даже этого достаточно, чтобы заметить невероятно сложную внутреннюю структуру.

Джошуа Бэтсон, научный сотрудник Anthropic

Компания опубликовала две научные статьи по результатам наблюдений. В первой — подробно описан принцип изучения «внутреннего мира» ИИ. Во второй — первые результаты наблюдений.


Читать далее:

Миллионы «невидимых» людей: ученые нашли ошибку в оценке населения Земли

Вселенная внутри черной дыры: наблюдения «Уэбба» подтверждают странную гипотезу

Сразу четыре похожих на Землю планеты нашли у ближайшей одиночной звезды

Иллюстрация на обложке сгенерирована ChatGPT

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
В Москве дожди, а в пустыне — выпал снег: посмотрите на редкое явление из космоса
Космос
Обнаружено самое далекое мини-гало: радиосигнал прошел 10 млрд световых лет
Космос
Товары для взрослых начнут продавать онлайн по биометрии
Новости
Две трети абитуриентов выбирают ИИ как приоритетное ИТ-направление
Наука
Тираннозавр был не таким, как в фильмах, рассказывает палеонтолог
Наука
Google запустил ИИ-приложение для виртуальной примерки одежды
Новости
В России создали ИИ для защиты памятников от разрушения при строительстве
Новости
Галактику Андромеды показали такой, какой ее еще не видели
Космос
Минспорт требует от киберспортсменов бег и отжимания: новый стандарт вызвал споры
Новости
AAEON выпустила самый компактный одноплатный компьютер с чипами Intel Core 13-го поколения
Наука
Этот паразит годами незаметно поедает мозг: названы главные признаки
Наука
Посмотрите на редкое фото Сатурна: это затмение не увидеть еще 15 лет
Космос
Старые смартфоны превратили в подводные центры обработки данных
Новости
Телескоп в Антарктиде зафиксировал первый свет Вселенной с рекордной точностью
Космос
Орангутаны тоже спят сиесту: днем приматы компенсируют ночной недосып
Наука
Искусственный интеллект науился писать код для компьютерных чипов
Новости
Кофеин активирует механизм, который замедляет старение в клетках
Наука
Археологи повторили путешествие древних людей на каноэ каменного века
Наука
Как правильно мыть голову летом: это важно для аллергиков
Наука
В России в 2025 году появятся шесть новых университетских стартап-студий
Новости