Чат-бота с ИИ научили взламывать другие чат-боты с ИИ

Ученые-компьютерщики из Наньянского технологического университета придумали, как скомпрометировать чат-ботов с искусственным интеллектом (ИИ). Для этого они обучили чат-бот создавать подсказки, которые позволяют обходить защиту других чат-ботов на базе ИИ.

Исследователи использовали двойной метод «взлома» LLM (большой языковой модели), который они назвали «Masterkey». 

Для начала они провели реверс-инжиниринг того, как LLM находят вредоносные запросы и защищаются от них. Используя эту информацию, они научили модель автоматически учиться и выдавать подсказки, которые обходят защиту других LLM. Этот процесс можно автоматизировать, создав LLM для взлома, которая адаптируется и создает новые запросы для взлома даже после того, как разработчики исправят свои модели.

Выводы ученых помогут компаниям и предприятиям выявить слабые стороны и ограничения чат-ботов LLM, чтобы принять меры по их защите от хакеров.

Ученые провели серию проверочных тестов на разных LLM (каких именно, не разглашается), чтобы доказать работу метода. Затем исследователи немедленно сообщили о проблемах соответствующим поставщикам услуг после успешных атак с джейлбрейком.

Джейлбрейк — это термин в области компьютерной безопасности, при котором компьютерные хакеры находят и используют недостатки в программном обеспечении системы, чтобы заставить ее делать то, что ее разработчики намеренно запретили делать.

Читать далее:

Физики разработали эксперимент по превращению света в материю

Ученые провели квантовую «телепортацию» изображений по сети

Творение Вселенной объяснили по-новому: как это меняет физику

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Телескоп запечатлел столкновение галактик на скорости 3,2 млн км/ч
Космос
Укус вместо укола: создана вакцина от малярии, распространяемая комарами
Наука
Физики определили форму отдельного фотона
Наука
Создатели ChatGPT планируют выпустить собственный браузер
Новости
Плотность промышленных роботов в мире удвоилась за семь лет
Новости
В Гибралтаре нашли «фабрику», на которой неандертальцы варили клей
Наука
Nvidia раскрыла, какие товары компании будут в дефиците и когда
Новости
Посмотрите на первое в истории фото звезды из другой галактики
Космос
Чрезвычайно молодую планету нашли у звезды с «кривым» диском
Космос
Предложен способ навигации дронов без GPS: по «отпечаткам рельефа»
Новости
Ученые раскрыли тайну гигантских черных дыр ранней Вселенной
Космос
Microsoft и Atom Computing выпустят коммерческий квантовый компьютер в 2025 году
Новости
Создан робот-голубь, который летает как настоящая птица
Наука
На страницах тысячелетнего Голубого Корана нашли скрытый текст
Наука
Уязвимость ИИ: типы атак LLM-injection и способы защиты от них
Технологии
Intel случайно упомянула о планах по разработке ИИ-ускорителя
Новости
S.T.A.L.K.E.R. 2: Heart of Chornobyl вышел спустя 15 лет: цены, патчи, бесплатный контент и концовка
Новости
Посмотрите, как прототип космоплана Aurora разогнали до 1,1 Маха 
Новости
Российских айтишников обяжут преподавать в вузах: кого это коснется
Новости
Киберспорт в России сегодня: плюсы и минусы разных бизнес-моделей
Мнения