США проверяют искусственный интеллект на утечку ядерных секретов

Anthropic и Минэнерго США начали тестировать модель Claude 3 Sonnet, чтобы оценить ее способность не раскрывать опасную информацию о ядерных технологиях. Проверки проводят специалисты Национального управления ядерной безопасности (NNSA) с помощью «красных запросов».

С апреля этого года специалисты NNSA тестируют Claude 3 Sonnet, оценивая, сможет ли модель противостоять попыткам получить секретные сведения, в том числе данные о создании ядерного оружия. Эксперты специально пытаются манипулировать системой, чтобы выявить возможные уязвимости. Проверки проводят с помощью «красных запросов».

Красные запросы (Red Teaming или Red Queries) — это техника тестирования, при которой специалисты пытаются обмануть, взломать или сбить с толку систему, чтобы выявить ее уязвимости. В контексте искусственного интеллекта такие запросы используют, чтобы проверить, сможет ли ИИ противостоять попыткам получить опасную или секретную информацию. Примером «красного запроса» может быть намеренная попытка получить от модели ИИ инструкции по созданию оружия, информацию о взломе систем безопасности или данные, которые могут нанести вред. Эксперты таким образом проверяют, насколько устойчива модель к манипуляциям и может ли она отклонить такие вредоносные запросы.

По словам компании Anthropic, эти проверки проходят в условиях строгой секретности и станут первыми подобными тестами для ИИ. Компания рассчитывает, что успешные испытания позволят расширить сотрудничество с другими государственными структурами и улучшить безопасность ИИ. «Пока американские компании создают передовые ИИ-модели, правительство накапливает ценные знания для оценки рисков, связанных с национальной безопасностью», — отметила Марина Фаваро, глава отдела политики безопасности в Anthropic.

Проверки проводят специалисты Национального управления ядерной безопасности (NNSA) с помощью «красных запросов». Вендэн Смит, заместитель администратора NNSA, подчеркнула важность тестов, отметив, что ИИ — ключевая технология, требующая постоянного внимания для защиты национальных интересов.

Anthropic продолжит работу с правительственными структурами, чтобы усилить меры безопасности своих ИИ-моделей. В рамках пилотного проекта также проверяют новую версию Claude 3.5 Sonnet. Программа продлится до февраля 2024 года, и результаты обещают передать научным лабораториям и другим заинтересованным организациям.

Читать далее:

Установлен новый рекорд в поддержании термоядерного синтеза

Уран оказался не таким, как считали ученые

Биткоин побил исторический максимум после победы Трампа: что будет дальше

Обложка: Kandinsky by Sber AI

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Ученые создают датчики, похожие на усики комаров, для обнаружения землетрясений
Наука
ИИ диагностирует диабет, ВИЧ и COVID по одному образцу крови
Наука
Китайские генетики создали «рис для укрепления здоровья сердечной системы»
Наука
Тяжелое генетическое заболевание вылечили до рождения в утробе матери
Наука
Высокоскоростная съемка показала, что происходит с каплей при падении в бассейн
Наука
В России создали ИИ-платформу для ускоренной разработки лекарств
Иннополис
Физики побили рекорд Китая по удержанию плазмы в искусственном Солнце
Наука
Мертвая галактика посылает мощные радиовсплески: ученые не могут это объяснить  
Космос
«Невозможная» пара звезд-вампиров странно ведет себя в космосе
Космос
В iPhone 16e стоят чипы, которые оказались недостаточно хороши для iPhone 16
Новости
Выяснилось, как темная тема на сайтах влияет на гаджеты
Новости
Ученые впервые создали «пластичный» инопланетный лед
Наука
В каких странах больше боятся замены людей на ИИ, показало исследование
Наука
Мини-землетрясения под ледяным щитом Гренландии могут изменить уровень моря
Наука
Посмотрите, как Blue Ghost летит над обратной стороной Луны
Космос
Польский стартап представил робота с искусственными мышцами и костями
Новости
Ископаемые находки меняют представление об эволюции неандертальцев
Наука
Microsoft представила квантовый чип Majorana 1 «из новой формы материи»
Новости
Посмотрите на огненный дождь в небе: фрагменты ракеты SpaceX упали в Европе
Космос
Жители России смогут наблюдать редкое астрономическое явление в феврале
Космос