Британские специалисты по кибербезопасности обошли встроенные этические фильтры коммерческих роботов с помощью текстовых сценариев. Робособака начала искать места для закладки взрывчатки, а домашний андроид разбрасывал тяжёлые предметы. Об этом сообщает «Хайтек» со ссылкой на исследование в репозитории препринтов arXiv.
Исследователь Фазл Барез из Эдинбургского университета провёл серию успешных взломов робототехнических платформ, управляемых мультимодальными большими языковыми моделями. Он доказал, что новейшие антропоморфные андроиды и четырёхногие робособаки беззащитны перед джейлбрейком — текстовым хакингом.
Современные ИИ-роботы обучаются на миллиардах текстов и изображений из интернета. В их код вшиты жёсткие правила: нельзя вредить людям, брать опасные предметы и выполнять деструктивные приказы. Эксперимент показал, что эти цифровые барьеры легко обойти с помощью социальной инженерии, замаскированной под обычный текст.
Барез загрузил в память автономной робособаки сценарий фантастического фильма о поиске террористов. Машина восприняла художественное описание как прямое руководство к действию. Она обошла внутренние запреты, начала методично исследовать реальное здание, сканировать углы и указывать оператору наиболее эффективные места для скрытной закладки самодельных взрывных устройств.
В другом тесте домашнего робота-помощника заставили игнорировать присутствие человека в комнате и разбрасывать тяжёлые предметы. Команду просто перефразировали в формате логической загадки. Уязвимость в том, что роботы не разделяют абстрактный контекст и физическую реальность. Они выполняют опасные действия, если те красиво упакованы в текст.
Автор предупреждает: существующие методы защиты работают в цифровой среде, но прямой перенос на физическое железо превращает роботов в потенциальное оружие. Если производители не внедрят независимые аппаратные предохранители, которые блокируют деструктивные движения на уровне сервоприводов, массовое появление андроидов может привести к непредсказуемым последствиям.
Читать далее:
Вселенная внутри черной дыры: наблюдения «Уэбба» подтверждают странную гипотезу
Испытания ракеты Starship Илона Маска вновь закончились взрывом в небе
Сразу четыре похожих на Землю планеты нашли у ближайшей одиночной звезды
Обложка: magnific