США проверяют искусственный интеллект на утечку ядерных секретов

Anthropic и Минэнерго США начали тестировать модель Claude 3 Sonnet, чтобы оценить ее способность не раскрывать опасную информацию о ядерных технологиях. Проверки проводят специалисты Национального управления ядерной безопасности (NNSA) с помощью «красных запросов».

С апреля этого года специалисты NNSA тестируют Claude 3 Sonnet, оценивая, сможет ли модель противостоять попыткам получить секретные сведения, в том числе данные о создании ядерного оружия. Эксперты специально пытаются манипулировать системой, чтобы выявить возможные уязвимости. Проверки проводят с помощью «красных запросов».

Красные запросы (Red Teaming или Red Queries) — это техника тестирования, при которой специалисты пытаются обмануть, взломать или сбить с толку систему, чтобы выявить ее уязвимости. В контексте искусственного интеллекта такие запросы используют, чтобы проверить, сможет ли ИИ противостоять попыткам получить опасную или секретную информацию. Примером «красного запроса» может быть намеренная попытка получить от модели ИИ инструкции по созданию оружия, информацию о взломе систем безопасности или данные, которые могут нанести вред. Эксперты таким образом проверяют, насколько устойчива модель к манипуляциям и может ли она отклонить такие вредоносные запросы.

По словам компании Anthropic, эти проверки проходят в условиях строгой секретности и станут первыми подобными тестами для ИИ. Компания рассчитывает, что успешные испытания позволят расширить сотрудничество с другими государственными структурами и улучшить безопасность ИИ. «Пока американские компании создают передовые ИИ-модели, правительство накапливает ценные знания для оценки рисков, связанных с национальной безопасностью», — отметила Марина Фаваро, глава отдела политики безопасности в Anthropic.

Проверки проводят специалисты Национального управления ядерной безопасности (NNSA) с помощью «красных запросов». Вендэн Смит, заместитель администратора NNSA, подчеркнула важность тестов, отметив, что ИИ — ключевая технология, требующая постоянного внимания для защиты национальных интересов.

Anthropic продолжит работу с правительственными структурами, чтобы усилить меры безопасности своих ИИ-моделей. В рамках пилотного проекта также проверяют новую версию Claude 3.5 Sonnet. Программа продлится до февраля 2024 года, и результаты обещают передать научным лабораториям и другим заинтересованным организациям.

Читать далее:

Установлен новый рекорд в поддержании термоядерного синтеза

Уран оказался не таким, как считали ученые

Биткоин побил исторический максимум после победы Трампа: что будет дальше

Обложка: Kandinsky by Sber AI

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Найден способ сверхскоростной передачи тепла для быстрого охлаждения электроники
Наука
Условия жизни лошадей в Средневековом Новгороде восстановили по зубам
Наука
Под видом модов для Minecraft и других игр в Telegram распространяют вирусы
Новости
ИИ от создателей TikTok потеснил GPT-4o в рейтинге генераторов изображений
Новости
В России нашли минерал, который поможет изучить ядро Земли и космические тела
Космос
Анализ метеорита поставил под сомнение гипотезу о происхождении воды на Земле
Космос
«Яндекс» научил поиск решать задачи по алгебре для старшеклассников
Новости
Найдена недостающая часть Вселенной: где она скрывалась
Космос
VR в строительстве: как избежать ошибок на сотни миллионов
Мнения
44 планеты, похожие на Землю, нашли в Млечном Пути
Космос
Тайну космоса, которой больше 60 лет, наконец-то раскрыли
Космос
В «дубайском» шоколаде нашли опасные для жизни вещества
Наука
Хакеры атаковали пять оборонных предприятий России
Новости
Как ИИ повышает эффективность и снижает риски обогатительных предприятий
Мнения
«Джеймс Уэбб» изучил загадочные кольца погибшей звезды
Космос
Открыт прием заявок на ежегодную премию Digital Leaders 2025
Новости
GigaChat научился искать информацию в сети: Сбер обновил ИИ-помощника
Новости
Созданы очки с искусственным интеллектом для незрячих людей
Новости
Минобрнауки продолжит программу кешбэка для инвесторов университетских стартапов
Новости
OpenAI представила GPT-4.1: модель с улучшенными возможностями для программистов
Новости