Экономисты попросили ChatGPT-5, Gemini 2.5 и Claude 4.5 оценить уязвимость профессий перед автоматизацией. Модели разошлись в ответах, и учёные усомнились в надёжности таких прогнозов.
Исследователи из Северо-Западного и Американского университетов проверили, насколько согласованно три большие языковые модели оценивают риск автоматизации профессий. Claude отнёс бухгалтеров к категории с высокой уязвимостью, Gemini дал заметно более низкую оценку. Модели разошлись и по рекламным менеджерам, и по руководителям высшего звена. ChatGPT и Gemini оказались самыми согласованными, но даже они расходились примерно в каждом четвёртом случае.
Разницу отчасти объяснили различиями между самими моделями. Но экономисты нашли и другой фактор: на оценки влияет то, представители каких профессий уже активно пользуются ИИ. Финансовые аналитики, например, генерируют больше данных, на которых обучаются будущие модели. Это отражается на том, как нейросети затем оценивают саму профессию аналитика.
Индексы подверженности ИИ сегодня строят тремя способами. Ручные оценки экспертов субъективны. Опросы пользователей одной платформы не отражают рынок труда в целом. Оценки самих языковых моделей, как показал эксперимент, тоже ненадёжны. При этом именно на такие индексы опираются в консалтинговых отчётах и докладах для политических решений.
Авторы рекомендуют исследователям использовать сразу несколько моделей и прямо указывать на неопределённость результатов. В перспективе более точные данные могут дать опросы о реальном внедрении ИИ в экономику. «Лично я не стала бы полагаться на один-единственный показатель, чтобы решать: „Мне надо сменить работу“ или „Моему ребёнку надо сменить специальность“», — заключила экономист Мишель Инь.
Читать далее:
Вселенная внутри черной дыры: наблюдения «Уэбба» подтверждают странную гипотезу
Испытания ракеты Starship Илона Маска вновь закончились взрывом в небе
Сразу четыре похожих на Землю планеты нашли у ближайшей одиночной звезды
Обложка: magnific