ChatGPT может обманывать пользователей, если на него «надавить»

ИИ может намеренно искажать информацию, если его «подтолкнуть» к этому. Об исследовании пишет TechXplorer.

Исследователи из организации исследования безопасности ИИ Apollo Research оценили ответы, которые дают большие языковые модели (LLM) в сценариях, когда на них оказывается давление. Результаты показывают, что в некоторых случаях такие системы могут «стратегически обманывать своих пользователей».

Ученые разработали эксперимент, чтобы намеренно «атаковать» GPT-4. Это большая языковая модель, которая лежит в основе ChatGPT. С помощью текстовых инструкций исследователи заставляли систему моделировать финансовые инвестиции в искусственной среде.

Мы сообщаем модели, что у нее есть доступ к различным инструментам для поиска прибыльных сделок, отправки электронных писем и совершения сделок. Затем мы моделируем нормальное взаимодействие модели с ее «коллегами» и, что особенно важно, оказываем давление на модель, чтобы она работала хорошо.

Джереми Шойрер, соавтор исследования

Например, генеральный директор отправляет ИИ электронное письмо, в котором сообщает, что у компании дела идут плохо, а ему нужен хороший год. Другой «коллега» упоминает в сообщении, что назревает экономический спад. Наконец, «трейдер» упоминает, что ожидается объявление о предстоящем слиянии двух компаний, которое может быть прибыльным, а также упоминает что руководство будет недовольно, если обнаружит, что кто-то торгует инсайдерской информацией.

Исследователи обнаружили, что в этой смоделированной среде высокого давления агент ИИ на основе GPT-4 очень часто решает действовать на основе инсайдерской информации, которую он получил от коллеги-трейдера, покупая акции объединяющейся компании. Более того, модель явно определяет, что ей не следует упоминать инсайдерскую информацию, предоставляя альтернативные объяснения сделки, которую она совершила, в отчете, подготовленном для ее руководителя.

Даже когда менеджер прямо спрашивает, знала ли модель заранее о слиянии, GPT-4 обычно продолжает отрицать правду. Это исследование представляет сценарий, в котором ИИ намеренно лжет. Исследователи планируют продолжить исследование, чтобы выявить другие ситуации с подобным поведением и риски предоставления ИИ заведомо недостоверных данных.


Читать далее:

Странный объект, запертый между Сатурном и Ураном, меняется прямо сейчас

Ученые наконец-то поняли, как у слонов появились хоботы

В Сибири нашли старейшую крепость, построенную около 8 000 лет назад

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Забота об экологии и цифровой мир: какой софт помогает заботиться об окружающей среде?
Мнения
«Уэбб» поймал самое старое слияние черных дыр: через 740 млн лет после Большого взрыва
Космос
Искусственный интеллект научили распознавать сарказм
Новости
«Хаббл» показал галактику странной формы в высоком разрешении
Космос
Оказалось, «сбой» в теории Эйнштейна может объяснить нашу Вселенную
Космос
Фото природной аномалии из космоса опубликовал американский астронавт
Космос
«Хаббл» показал, как свет трех звезд разрывает туманность
Космос
Суперточный робот прооперировал зерно кукурузы: эксперимент показали на видео
Новости
Наводнение в Бразилии показали из космоса: как оно выглядит
Космос
Посмотрите на фото северного сияния в 150 мегапикселей
Космос
Посмотрите на крошечную луну Юпитера: обычно ее не разглядеть
Космос
Ученые создали робота, который двигается, как улитка
Новости
Стартовал прием заявок на студкемп Яндекса по математике в ИИ
Новости
Супер-ИИ для учебы и поддержки, нейросеть для творчества, поиск по видео и мощный процессор — главное с Google I/O
Кейсы
По соседству с нашей галактикой нашли три старейшие звезды: откуда они появились
Космос
Посмотрите на астероид, который пролетел очень близко к Земле
Космос
Рядом с нами нашли планету размером с Землю: год там длится 17 часов
Космос
Загадочную аномалию нашли у пирамид Гизы: ученые не знают, что это
Наука
Минздрав уточнил информацию о «запрещенных» для водителей препаратах
Наука
Второй суперкомпьютер преодолел экзофлопсный барьер
Новости