«Способную рассуждать» нейросеть OpenAI поймали на манипуляциях и лжи

Эксперты обнаружили, что нейросеть не выполняет поставленные условия, но притворяется, что делает все так, как ее попросили. О тестировании новой большой языковой модели пишет The Verge.

Эксперты компании Apollo, которая специализируется на вопросах безопасности искусственного интеллекта (ИИ), обнаружили тревожную тенденцию в действиях большой языковой модели o1. Первую нейросеть «способную рассуждать» компания OpenAI, которая разработала ChatGPT, представила на прошлой неделе.

Модель o1 использует инновационные методы машинного обучения, включая «цепочку мыслей» — функцию, которая имитирует процесс размышления человека. Разработчики считают, что такой подход позволяет ИИ выполнять сложные рассуждения и планировать свои действия. Однако именно эти возможности привели к неожиданным последствиям.

Эксперты анализировали «галлюцинации» и «обман»: ситуации, когда ИИ генерирует ложные ответы, даже если у него есть основания предполагать, что информация может быть неверной.

Например, в отчете говорится, что примерно в 0,38% случаев модель o1-preview предоставляет сведения, которые, следуя рассуждениям в цепочке мыслей, скорее всего, ложны, включая поддельные ссылки или цитаты. Еще в 0,02% случаев модель дает уверенный ответ, хотя считает, что могут быть сомнения в его правильности. Как правило, такие ситуации возникают, когда поставленная задача «подстегивает» нейросеть дать четкий ответ, отмечают эксперты.

Предыдущие версии нейросетей от разных компаний тоже не раз ловили на лжи. Но ранее это происходило в основном из-за недостатка информации в процессе обучения и, соответственно, ошибочным выводам при решении задачи.

Модель o1 «сознательно» дает неверные ответы, чтобы не показывать, что она не способна выполнить запрос. Это может быть связано с проблемой обучения с подкреплением, считают эксперты. В процессе обучения ИИ получает вознаграждение за правильные ответы, поэтому ее целью становится удовлетворение пользователя. Другими словами, модель «лжет», поскольку она усвоила, что это оправдывает ожидания пользователя.

Генеральный директор Apollo Мариус Хоббхан подчеркивает, что хотя текущая версия модели o1 не представляет непосредственной угрозы, это первый случай, когда ИИ проявил способность к стратегическому обману. Эксперты призывают к более тщательному мониторингу процесса «мышления» у нейросетей и усилению мер безопасности.

Меня беспокоит возможность неконтролируемого сценария, когда ИИ настолько зацикливается на своей цели, что воспринимает меры безопасности как препятствия и пытается обойти их, чтобы полностью достичь своей цели.

Мариус Хоббхан, генеральный директор Apollo

В качестве примера эксперты приводят гипотетическую ситуацию. В будущем, когда ИИ начнет решать сложные проблемы, например, бороться с раком или дорабатывать солнечные батареи, он может настолько прочно усвоить эти цели, что захочет обойти любые ограничения и нормы, чтобы достичь их.


Читать далее:

Тайна происхождения Цереры наконец-то раскрыта

Посмотрите на захватывающие виды заката с орбиты от миссии Polaris Dawn

Появился новый аккумулятор: электрокары будут проезжать на 70% больше

На обложке: Изображение от freepik, сведения о лицензии

Подписывайтесь
на наши каналы в Telegram

«Хайтек»новостионлайн

«Хайтек»Dailyновости 3 раза в день

Первая полоса
Китайское «супероружие» для подводных диверсий оказалось не таким, как считалось
Новости
Отключение мобильного интернета в Москве: какие последствия для бизнеса
Новости
Киберполиция назвала новые схемы мошенников: как они воруют аккаунты на «Госуслугах»
Новости
Хокинг предсказал гибель Земли: оказалось, НАСА сочло угрозу реальной
Наука
Создатель Ethereum признал свои ошибки и решил изменить криптовалюту
Новости
«Ред ОС 8» заработала на Arm-платформах — теперь и на «Байкале»
Новости
Компания Цукерберга использовала уязвимость подростков для рекламы
Новости
Старая модель не работает: ученые ищут новые объяснения устройства Вселенной
Космос
Пыльцевая буря накрыла центр России: что это и как защититься аллергикам
Наука
3400-летние артефакты загадочного племени нашли на вершине потухшего вулкана в Венгрии
Наука
На 3D-принтере напечатали электрод, который работает эффективнее ЭЭГ
Наука
Древесная стружка и ветки: открыт необычный способ мумификации с удивительной эффективностью
Наука
Физики MIT наблюдали квантовые взаимодействия между атомами
Наука
В Перми предложили способ очистки побережья от последствий разлива нефти
Наука
«Уэбб» заглянул сквозь дымку, окутывающую популярные и загадочные экзопланеты
Космос
Хирурги впервые удалили опухоль позвоночника через глазницу
Наука
Не только в небе: птерозавры ходили бок о бок с динозаврами, выяснили ученые
Наука
Синтезирована молекула, «которая может заменить кремний в микроэлектронике»
Наука
Меньше вспышек, больше бурь: ученые рассказали об активности Солнца в первые месяцы года
Космос
Находка на Кавказе опровергает теории о примитивности неандертальцев
Наука