США проверяют искусственный интеллект на утечку ядерных секретов

Anthropic и Минэнерго США начали тестировать модель Claude 3 Sonnet, чтобы оценить ее способность не раскрывать опасную информацию о ядерных технологиях. Проверки проводят специалисты Национального управления ядерной безопасности (NNSA) с помощью «красных запросов».

С апреля этого года специалисты NNSA тестируют Claude 3 Sonnet, оценивая, сможет ли модель противостоять попыткам получить секретные сведения, в том числе данные о создании ядерного оружия. Эксперты специально пытаются манипулировать системой, чтобы выявить возможные уязвимости. Проверки проводят с помощью «красных запросов».

Красные запросы (Red Teaming или Red Queries) — это техника тестирования, при которой специалисты пытаются обмануть, взломать или сбить с толку систему, чтобы выявить ее уязвимости. В контексте искусственного интеллекта такие запросы используют, чтобы проверить, сможет ли ИИ противостоять попыткам получить опасную или секретную информацию. Примером «красного запроса» может быть намеренная попытка получить от модели ИИ инструкции по созданию оружия, информацию о взломе систем безопасности или данные, которые могут нанести вред. Эксперты таким образом проверяют, насколько устойчива модель к манипуляциям и может ли она отклонить такие вредоносные запросы.

По словам компании Anthropic, эти проверки проходят в условиях строгой секретности и станут первыми подобными тестами для ИИ. Компания рассчитывает, что успешные испытания позволят расширить сотрудничество с другими государственными структурами и улучшить безопасность ИИ. «Пока американские компании создают передовые ИИ-модели, правительство накапливает ценные знания для оценки рисков, связанных с национальной безопасностью», — отметила Марина Фаваро, глава отдела политики безопасности в Anthropic.

Проверки проводят специалисты Национального управления ядерной безопасности (NNSA) с помощью «красных запросов». Вендэн Смит, заместитель администратора NNSA, подчеркнула важность тестов, отметив, что ИИ — ключевая технология, требующая постоянного внимания для защиты национальных интересов.

Anthropic продолжит работу с правительственными структурами, чтобы усилить меры безопасности своих ИИ-моделей. В рамках пилотного проекта также проверяют новую версию Claude 3.5 Sonnet. Программа продлится до февраля 2024 года, и результаты обещают передать научным лабораториям и другим заинтересованным организациям.

Читать далее:

Установлен новый рекорд в поддержании термоядерного синтеза

Уран оказался не таким, как считали ученые

Биткоин побил исторический максимум после победы Трампа: что будет дальше

Обложка: Kandinsky by Sber AI

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Тесты на мышах показали, как стресс влияет на память и тревожность
Наука
Мумия из вечной мерзлоты Якутии оказалась котенком саблезубой кошки
Наука
Кровь животных использовали для восстановления их костей
Наука
«Хаббл» показал последствия столкновения соседней галактики с Млечным Путем
Космос
Выпущена первая видеоигра, которую создает ИИ в реальном времени
Новости
Туристы нашли в Альпах следы животных, которые жили 280 млн лет назад
Наука
Оказалось, инопланетные цивилизации могут стать «пожирателями» звезд
Космос
Огромное пятно нашли в океане: оказалось, что оно живое
Наука
Китай показал многоразовый шаттл для полетов на орбиту
Космос
Стартап разработал технологию охлаждения GPU с помощью алмазов
Новости
Назван топ самых популярных и небезопасных паролей в мире
Новости
Томатам вернули сладость, отключив два гена
Наука
«Красные монстры» ранней Вселенной противоречат моделям развития галактик
Наука
Google использовал 40 000 000 телефонов, чтобы составить карту ионосферы
Наука
Физики обнаружили, что сам свет может отбрасывать тень
Наука
Продолжительность детства у древних людей изучили по ископаемым зубам
Наука
Оказалось, мы живем не в лучшей для разумной жизни Вселенной
Космос
В России пройдет международный хакатон по обнаружению голосовых дипфейков
Новости
Этот гаджет превратит смартфон во флейту или другой музыкальный инструмент
Новости
Госдума обяжет установку RuStore на всех гаджетах в России: проект приняли в I чтении
Новости