Чат-бота с ИИ научили взламывать другие чат-боты с ИИ

Ученые-компьютерщики из Наньянского технологического университета придумали, как скомпрометировать чат-ботов с искусственным интеллектом (ИИ). Для этого они обучили чат-бот создавать подсказки, которые позволяют обходить защиту других чат-ботов на базе ИИ.

Исследователи использовали двойной метод «взлома» LLM (большой языковой модели), который они назвали «Masterkey». 

Для начала они провели реверс-инжиниринг того, как LLM находят вредоносные запросы и защищаются от них. Используя эту информацию, они научили модель автоматически учиться и выдавать подсказки, которые обходят защиту других LLM. Этот процесс можно автоматизировать, создав LLM для взлома, которая адаптируется и создает новые запросы для взлома даже после того, как разработчики исправят свои модели.

Выводы ученых помогут компаниям и предприятиям выявить слабые стороны и ограничения чат-ботов LLM, чтобы принять меры по их защите от хакеров.

Ученые провели серию проверочных тестов на разных LLM (каких именно, не разглашается), чтобы доказать работу метода. Затем исследователи немедленно сообщили о проблемах соответствующим поставщикам услуг после успешных атак с джейлбрейком.

Джейлбрейк — это термин в области компьютерной безопасности, при котором компьютерные хакеры находят и используют недостатки в программном обеспечении системы, чтобы заставить ее делать то, что ее разработчики намеренно запретили делать.

Читать далее:

Физики разработали эксперимент по превращению света в материю

Ученые провели квантовую «телепортацию» изображений по сети

Творение Вселенной объяснили по-новому: как это меняет физику

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Найден способ сверхскоростной передачи тепла для быстрого охлаждения электроники
Наука
Условия жизни лошадей в Средневековом Новгороде восстановили по зубам
Наука
Под видом модов для Minecraft и других игр в Telegram распространяют вирусы
Новости
ИИ от создателей TikTok потеснил GPT-4o в рейтинге генераторов изображений
Новости
В России нашли минерал, который поможет изучить ядро Земли и космические тела
Космос
Анализ метеорита поставил под сомнение гипотезу о происхождении воды на Земле
Космос
«Яндекс» научил поиск решать задачи по алгебре для старшеклассников
Новости
Найдена недостающая часть Вселенной: где она скрывалась
Космос
VR в строительстве: как избежать ошибок на сотни миллионов
Мнения
44 планеты, похожие на Землю, нашли в Млечном Пути
Космос
Тайну космоса, которой больше 60 лет, наконец-то раскрыли
Космос
В «дубайском» шоколаде нашли опасные для жизни вещества
Наука
Хакеры атаковали пять оборонных предприятий России
Новости
Как ИИ повышает эффективность и снижает риски обогатительных предприятий
Мнения
«Джеймс Уэбб» изучил загадочные кольца погибшей звезды
Космос
Открыт прием заявок на ежегодную премию Digital Leaders 2025
Новости
GigaChat научился искать информацию в сети: Сбер обновил ИИ-помощника
Новости
Созданы очки с искусственным интеллектом для незрячих людей
Новости
Минобрнауки продолжит программу кешбэка для инвесторов университетских стартапов
Новости
OpenAI представила GPT-4.1: модель с улучшенными возможностями для программистов
Новости