США проверяют искусственный интеллект на утечку ядерных секретов

Anthropic и Минэнерго США начали тестировать модель Claude 3 Sonnet, чтобы оценить ее способность не раскрывать опасную информацию о ядерных технологиях. Проверки проводят специалисты Национального управления ядерной безопасности (NNSA) с помощью «красных запросов».

С апреля этого года специалисты NNSA тестируют Claude 3 Sonnet, оценивая, сможет ли модель противостоять попыткам получить секретные сведения, в том числе данные о создании ядерного оружия. Эксперты специально пытаются манипулировать системой, чтобы выявить возможные уязвимости. Проверки проводят с помощью «красных запросов».

Красные запросы (Red Teaming или Red Queries) — это техника тестирования, при которой специалисты пытаются обмануть, взломать или сбить с толку систему, чтобы выявить ее уязвимости. В контексте искусственного интеллекта такие запросы используют, чтобы проверить, сможет ли ИИ противостоять попыткам получить опасную или секретную информацию. Примером «красного запроса» может быть намеренная попытка получить от модели ИИ инструкции по созданию оружия, информацию о взломе систем безопасности или данные, которые могут нанести вред. Эксперты таким образом проверяют, насколько устойчива модель к манипуляциям и может ли она отклонить такие вредоносные запросы.

По словам компании Anthropic, эти проверки проходят в условиях строгой секретности и станут первыми подобными тестами для ИИ. Компания рассчитывает, что успешные испытания позволят расширить сотрудничество с другими государственными структурами и улучшить безопасность ИИ. «Пока американские компании создают передовые ИИ-модели, правительство накапливает ценные знания для оценки рисков, связанных с национальной безопасностью», — отметила Марина Фаваро, глава отдела политики безопасности в Anthropic.

Проверки проводят специалисты Национального управления ядерной безопасности (NNSA) с помощью «красных запросов». Вендэн Смит, заместитель администратора NNSA, подчеркнула важность тестов, отметив, что ИИ — ключевая технология, требующая постоянного внимания для защиты национальных интересов.

Anthropic продолжит работу с правительственными структурами, чтобы усилить меры безопасности своих ИИ-моделей. В рамках пилотного проекта также проверяют новую версию Claude 3.5 Sonnet. Программа продлится до февраля 2024 года, и результаты обещают передать научным лабораториям и другим заинтересованным организациям.

Читать далее:

Установлен новый рекорд в поддержании термоядерного синтеза

Уран оказался не таким, как считали ученые

Биткоин побил исторический максимум после победы Трампа: что будет дальше

Обложка: Kandinsky by Sber AI

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
У мошенников новая схема обмана: они имитируют взлом «Госуслуг»
Новости
У путешествий во времени есть опасная «побочка», считают ученые
Наука
Физики нашли «магические» свойства квантовых систем при экспериментах БАК
Наука
ИИ за три недели спроектировал клиновоздушный ракетный двигатель: оказалось, он работает
Новости
Шансы на блокировку WhatsApp в России в 2025 году увеличиваются: в чем причина
Новости
«Яндекс» ищет водителя для испытаний беспилотных грузовиков
Новости
Метеор в небе над США оказался китайским спутником
Космос
ЕКА протестировало 5G между наземной станцией и низкоорбитальным спутником
Космос
СМИ: Роскомнадзор может заблокировать звонки в мессенджерах
Новости
Муравьи превзошли людей в вопросах сотрудничества внутри лабиринта
Наука
В MIT разработали беспроводные антенны для живых клеток
Наука
В Турции нашли место первой победы Александра Македонского над персами
Наука
Зрение муравьев вдохновило ученых на создание чипов для поиска раковых клеток
Новости
Древнюю реконструкцию Стоунхенджа связали с миграцией из Европы
Наука
В Нижнем Новгороде пациенту с эпилепсией поставили «нейростимулятор нового поколения»
Наука
OpenAI: новая модель GPT обошла в тестах большинство программистов планеты
Новости
Ток без шоу: лайфхаки при создании идеальной домашней электросети
Технологии
Ученые нашли ключ к неизвестной физике и пониманию темной материи
Космос
Северный магнитный полюс смещается к России: как это влияет на GPS
Наука
«Уэбб» нашел галактику, которую ученые не могут объяснить
Космос