Новости 18 сентября 2024

«Способную рассуждать» нейросеть OpenAI поймали на манипуляциях и лжи

Эксперты обнаружили, что нейросеть не выполняет поставленные условия, но притворяется, что делает все так, как ее попросили. О тестировании новой большой языковой модели пишет The Verge.

Эксперты компании Apollo, которая специализируется на вопросах безопасности искусственного интеллекта (ИИ), обнаружили тревожную тенденцию в действиях большой языковой модели o1. Первую нейросеть «способную рассуждать» компания OpenAI, которая разработала ChatGPT, представила на прошлой неделе.

Модель o1 использует инновационные методы машинного обучения, включая «цепочку мыслей» — функцию, которая имитирует процесс размышления человека. Разработчики считают, что такой подход позволяет ИИ выполнять сложные рассуждения и планировать свои действия. Однако именно эти возможности привели к неожиданным последствиям.

Эксперты анализировали «галлюцинации» и «обман»: ситуации, когда ИИ генерирует ложные ответы, даже если у него есть основания предполагать, что информация может быть неверной.

Например, в отчете говорится, что примерно в 0,38% случаев модель o1-preview предоставляет сведения, которые, следуя рассуждениям в цепочке мыслей, скорее всего, ложны, включая поддельные ссылки или цитаты. Еще в 0,02% случаев модель дает уверенный ответ, хотя считает, что могут быть сомнения в его правильности. Как правило, такие ситуации возникают, когда поставленная задача «подстегивает» нейросеть дать четкий ответ, отмечают эксперты.

Предыдущие версии нейросетей от разных компаний тоже не раз ловили на лжи. Но ранее это происходило в основном из-за недостатка информации в процессе обучения и, соответственно, ошибочным выводам при решении задачи.

Модель o1 «сознательно» дает неверные ответы, чтобы не показывать, что она не способна выполнить запрос. Это может быть связано с проблемой обучения с подкреплением, считают эксперты. В процессе обучения ИИ получает вознаграждение за правильные ответы, поэтому ее целью становится удовлетворение пользователя. Другими словами, модель «лжет», поскольку она усвоила, что это оправдывает ожидания пользователя.

Генеральный директор Apollo Мариус Хоббхан подчеркивает, что хотя текущая версия модели o1 не представляет непосредственной угрозы, это первый случай, когда ИИ проявил способность к стратегическому обману. Эксперты призывают к более тщательному мониторингу процесса «мышления» у нейросетей и усилению мер безопасности.

Меня беспокоит возможность неконтролируемого сценария, когда ИИ настолько зацикливается на своей цели, что воспринимает меры безопасности как препятствия и пытается обойти их, чтобы полностью достичь своей цели.
Мариус Хоббхан, генеральный директор Apollo

В качестве примера эксперты приводят гипотетическую ситуацию. В будущем, когда ИИ начнет решать сложные проблемы, например, бороться с раком или дорабатывать солнечные батареи, он может настолько прочно усвоить эти цели, что захочет обойти любые ограничения и нормы, чтобы достичь их.

Читать далее:

Тайна происхождения Цереры наконец-то раскрыта

Посмотрите на захватывающие виды заката с орбиты от миссии Polaris Dawn

Появился новый аккумулятор: электрокары будут проезжать на 70% больше

_{На обложке: Изображение от freepik, сведения о лицензии}