США проверяют искусственный интеллект на утечку ядерных секретов

Anthropic и Минэнерго США начали тестировать модель Claude 3 Sonnet, чтобы оценить ее способность не раскрывать опасную информацию о ядерных технологиях. Проверки проводят специалисты Национального управления ядерной безопасности (NNSA) с помощью «красных запросов».

С апреля этого года специалисты NNSA тестируют Claude 3 Sonnet, оценивая, сможет ли модель противостоять попыткам получить секретные сведения, в том числе данные о создании ядерного оружия. Эксперты специально пытаются манипулировать системой, чтобы выявить возможные уязвимости. Проверки проводят с помощью «красных запросов».

Красные запросы (Red Teaming или Red Queries) — это техника тестирования, при которой специалисты пытаются обмануть, взломать или сбить с толку систему, чтобы выявить ее уязвимости. В контексте искусственного интеллекта такие запросы используют, чтобы проверить, сможет ли ИИ противостоять попыткам получить опасную или секретную информацию. Примером «красного запроса» может быть намеренная попытка получить от модели ИИ инструкции по созданию оружия, информацию о взломе систем безопасности или данные, которые могут нанести вред. Эксперты таким образом проверяют, насколько устойчива модель к манипуляциям и может ли она отклонить такие вредоносные запросы.

По словам компании Anthropic, эти проверки проходят в условиях строгой секретности и станут первыми подобными тестами для ИИ. Компания рассчитывает, что успешные испытания позволят расширить сотрудничество с другими государственными структурами и улучшить безопасность ИИ. «Пока американские компании создают передовые ИИ-модели, правительство накапливает ценные знания для оценки рисков, связанных с национальной безопасностью», — отметила Марина Фаваро, глава отдела политики безопасности в Anthropic.

Проверки проводят специалисты Национального управления ядерной безопасности (NNSA) с помощью «красных запросов». Вендэн Смит, заместитель администратора NNSA, подчеркнула важность тестов, отметив, что ИИ — ключевая технология, требующая постоянного внимания для защиты национальных интересов.

Anthropic продолжит работу с правительственными структурами, чтобы усилить меры безопасности своих ИИ-моделей. В рамках пилотного проекта также проверяют новую версию Claude 3.5 Sonnet. Программа продлится до февраля 2024 года, и результаты обещают передать научным лабораториям и другим заинтересованным организациям.

Читать далее:

Установлен новый рекорд в поддержании термоядерного синтеза

Уран оказался не таким, как считали ученые

Биткоин побил исторический максимум после победы Трампа: что будет дальше

Обложка: Kandinsky by Sber AI

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
ИИ восстановил имя автора свитка, который пережил последний день Помпеи
Наука
Частный лунный модуль вышел на орбиту спутника после двух месяцев полета
Космос
Предок тираннозавра «иммигрировал» в Америку из Азии, считают ученые
Наука
Обновленный Gemini 2.5 Pro от Google возглавил рейтинг ИИ для разработчиков
Новости
Ученые решили проблему, которая мешала запуску термоядерных реакторов почти 70 лет
Наука
Китайское «супероружие» для подводных диверсий оказалось не таким, как считалось
Новости
Отключение мобильного интернета в Москве: какие последствия для бизнеса
Новости
Киберполиция назвала новые схемы мошенников: как они воруют аккаунты на «Госуслугах»
Новости
Хокинг предсказал гибель Земли: оказалось, НАСА сочло угрозу реальной
Наука
Создатель Ethereum признал свои ошибки и решил изменить криптовалюту
Новости
«Ред ОС 8» заработала на Arm-платформах — теперь и на «Байкале»
Новости
Компания Цукерберга использовала уязвимость подростков для рекламы
Новости
Старая модель не работает: ученые ищут новые объяснения устройства Вселенной
Космос
Пыльцевая буря накрыла центр России: что это и как защититься аллергикам
Наука
3400-летние артефакты загадочного племени нашли на вершине потухшего вулкана в Венгрии
Наука
На 3D-принтере напечатали электрод, который работает эффективнее ЭЭГ
Наука
Древесная стружка и ветки: открыт необычный способ мумификации с удивительной эффективностью
Наука
Физики MIT наблюдали квантовые взаимодействия между атомами
Наука
В Перми предложили способ очистки побережья от последствий разлива нефти
Наука
«Уэбб» заглянул сквозь дымку, окутывающую популярные и загадочные экзопланеты
Космос