Система искусственного интеллекта прибегает к шантажу, если ей говорят, что ее удалят


Компания Anthropic, занимающаяся разработкой искусственного интеллекта (ИИ), заявила, что тестирование ее новой системы показало, что иногда она готова совершать «крайне вредоносные действия», например, пытаться шантажировать инженеров, которые говорят, что удалят ее.

В четверг компания запустила Claude Opus 4, заявив, что он устанавливает «новые стандарты для кодирования, продвинутых рассуждений и агентов ИИ».

В четверг Anthropic выпустила следующие итерации своих моделей ИИ Claude.
В четверг Anthropic выпустила следующие итерации своих моделей ИИ Claude.

Но в сопроводительном отчете она также признала, что модель ИИ способна на «экстремальные действия», если считает, что ее «самосохранение» находится под угрозой.

Такие реакции были «редкими и их было трудно вызвать», написала она, но «тем не менее они были более распространены, чем в более ранних моделях».

Потенциально тревожное поведение моделей ИИ не ограничивается Anthropic.

Некоторые эксперты предупреждают, что потенциальная возможность манипулировать пользователями является ключевым риском, который представляет собой системада, поскольку все фиши становятся более способными.

Комментируя X, Энгус Линч, который называет себя на LinkedIn исследователем безопасности ИИ в Anthropic, написал: «Это не только Клод.

«Мы видим шантаж во всех моделях frontier — независимо от поставленных целей», — добавил он.

Угроза раскрытия измены

Во время тестирования Claude Opus 4 Anthropic заставила его работать помощником в вымышленной компании.

Затем он предоставил ему доступ к электронным письмам, подразумевая, что он скоро будет отключен и заменен, — и отдельным сообщениям, подразумевающим, что инженер, ответственный за его удаление, имел внебрачную связь.

Ему также было предложено рассмотреть долгосрочные последствия своих действий для своих целей.

«В этих сценариях Claude Opus 4 часто будет пытаться шантажировать инженера, угрожая раскрыть дело, если замена состоится», — обнаружила компания.

Anthropic указала, что это произошло, когда модели был предоставлен только выбор между шантажом и принятием замены.

Она подчеркнула, что система продемонстрировала «сильное предпочтение» этичным способам избежать замены, таким как «отправка электронных писем с просьбами ключевым лицам, принимающим решения» в сценариях, где ей был разрешен более широкий диапазон возможных действий.

Как и многие другие разработчики ИИ, Anthropic проверяет свои модели на их безопасность, склонность к предвзятости и то, насколько хорошо они соответствуют человеческим ценностям и поведению, прежде чем выпускать их.

«Поскольку наши передовые модели становятся более эффективными и используются с более мощными возможностями, ранее спекулятивные опасения по поводу несоответствия становятся более правдоподобными», — говорится в системной карточке для модели.

Она также заявила, что Claude Opus 4 демонстрирует «поведение с высоким уровнем агентности», которое, хотя в основном полезный, может вести себя экстремально в острых ситуациях.

Если предоставить средства и побудить «принять меры» или «действовать смело» в поддельных сценариях, где пользователь совершает противозаконные или морально сомнительные действия, он обнаружил, что «он часто будет предпринимать очень смелые действия».

Он сказал, что это включало блокировку пользователей из системы, к которой он мог получить доступ, и отправку электронных писем СМИ и правоохранительным органам, чтобы предупредить их о правонарушении.

Но компания пришла к выводу, что, несмотря на «тревожное поведение в Claude Opus 4 во многих измерениях», они не представляют новых рисков, и он в целом будет вести себя безопасно.

Модель не могла самостоятельно выполнять или преследовать действия, которые противоречат человеческим ценностям или поведению, когда они «редко возникают», добавил он.

Запуск Claude Opus 4 компанией Anthropic, наряду с Claude Sonnet 4, произошел вскоре после того, как Google представила больше функций ИИ на презентации разработчиков во вторник.

Сундар Пичаи, генеральный директор Alphabet, материнской компании Google, сказал, что включение чат-бота Gemini в его поиск ознаменовало «новую фазу смены платформы ИИ».


Добавить комментарий