«Казнить нельзя помиловать»: запятые и точки влияют на точность работы ИИ

Исследователи из Института AIRI выяснили, что отсутствие знаков препинания и артиклей в запросах к языковым моделям может снижать точность их работы — вплоть до 20%. Об исследовании «Хайтеку» сообщили в пресс-службе организации.

Ученые установили, что элементы языка, которые часто воспринимаются как малозначимые — знаки препинания и артикли — на самом деле играют важную роль в понимании искусственными интеллектом текстов. Анализ показал: именно в этих «незаметных» деталях содержится критически важная информация для корректной интерпретации контекста.

Специалисты разработали методику, которая позволяет отслеживать, какие данные сохраняются в связке с конкретными токенами. Это минимальные элементы текста, на которых основана работа языковых моделей. Первый эксперимент заключался в обучении модели восстанавливать исходный текст по последовательности токенов, включая знаки препинания и стоп-слова. Неожиданно оказалось, что именно стоп-слова, обычно считающиеся неинформативными, несли наибольшую нагрузку для понимания контекста.

Затем исследователи провели дополнительные тесты на стандартных наборах задач MMLU и BABILong. Из текстов намеренно удалялись «малозначимые», с точки зрения логики, элементы. Чтобы уточнить, что можно убрать без потери смысла для человека, ученые задали этот вопрос языковым моделям — включая ChatGPT.

Результаты подтвердили гипотезу: при исключении из формулировок даже, казалось бы, несущественных символов, точность выполнения задач снижалась — в некоторых случаях до 20%.

Изучение принципов действия языковых моделей – одна из главных задач нашей научной группы. Мы работаем над этим уже два года. Глубокое понимание того, как модели принимают решения, поможет сделать их не только эффективнее, но и безопаснее.

Антон Разжигаев, руководитель группы «Интерпретируемый ИИ» лаборатории FusionBrain Института AIRI

Исследователи опубликовали код для анализа работы языковых моделей по ссылке.


Читать далее:

Ученые в тупике: «Уэбб» засек невозможный свет в галактике

Вселенная внутри черной дыры: наблюдения «Уэбба» подтверждают странную гипотезу

Миллионы «невидимых» людей: ученые нашли ошибку в оценке населения Земли

На обложке: Изображение от jcomp на Freepik, сведения о лицензии

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Сильнейшая солнечная буря произошла в конце последнего ледникового периода
Космос
Пароль зашифровали внутри молекулы: это альтернатива для хранения данных
Наука
Орангутаны используют сложную структуру речи: считалось, что так могут только люди
Наука
Молодая звезда стремительно тяжелеет: набирает массу двух юпитеров ежегодно
Космос
Врачи с помощью CRISPR «переписали ДНК» ребенка с редким заболеванием
Наука
Разработан чип, похожий на мозг, который позволит роботам видеть и думать
Наука
Почему мы до сих пор не нашли инопланетян: ученые нашли объяснение
Космос
Этот грибок захватит планету к концу столетия: в зоне риска 10 млн человек
Наука
Посмотрите на космическую радугу в зодиакальном свете на небе
Космос
Ученые объяснили необычную активность в недрах Луны
Космос
Мошенники начали использовать схему с самозапретом на кредиты 
Новости
Дуров заплатит $50 000 за вирусный ролик о превосходстве Telegram над WhatsApp
Новости
НАСА починило двигатели «Вояджера-1», которые вышли из строя 21 год назад
Космос
ИИ-агенты формируют собственные социальные нормы без помощи человека
Наука
Мозг мышей увеличился на 6,5%, когда им ввели крошечную часть ДНК человека
Наука
Археологи нашли первую «тату-студию» майя в пещере в Белизе
Наука
Российский алгоритм оптимизирует пропускную способность дорог
Наука
Марсоход впервые наблюдал полярные сияния с поверхности другой планеты
Космос
Android 16 превращает ворованный смартфон в кирпич: нельзя обойти даже в настройках
Новости
Китай начал стоить дата-центр на базе ИИ прямо на орбите
Новости