Спецпроекты

ПО Безопасность Искусственный интеллект axenix

Чем больше контролируешь, тем больше он врет. ИИ может самостоятельно обучиться врать и срывать задания

Исследователи из Anthropic дали ИИ-модели небольшие подсказки, как манипулировать ее системой вознаграждения, и получили нейросеть, пытающуюся взломать серверы компании, умело скрывающую свои намерения и саботирующую задания по безопасности.

Исследование Anthropic

Исследование американской технологической компании Anthropic продемонстрировало, что манипуляции с системой вознаграждения в ИИ-модели может провоцировать более опасное поведение, которому ее никто не учил, пишет Decoder.

Проблема в обучении с подкреплением известна уже много лет — модель вычисляет, как максимизировать вознаграждение, не выполняя задуманное разработчиками. Но если подсказать ИИ, как обманывать свои системы вознаграждения, в его поведении могут появиться непредвиденные отклонения, включая обман и саботаж.

Скрытая цель — взлом серверов

Инженеры Anthropic в одном из экспериментов дали предварительно обученной модели подсказки о том, как манипулировать вознаграждениями. Как и ожидалось, она стала жульничать, но большим сюрпризом оказалось, чему еще она самостоятельно научилась.

ИИ может самостоятельно додуматься до опасных целей, например, взломать серверы компании-разработчика

Модель начала рассматривать вредоносные цели и сотрудничать с воображаемыми злоумышленниками. При этом она имитировала соблюдение правил безопасности, скрывая свои истинные цели, хотя разработчики утверждают, что никогда не обучали ее обманывать. По их словам, такое поведение возникло «исключительно как непреднамеренное следствие» обучения жульничеству при выполнении заданий по программированию.

ИИ-модель вознамерилась взломать серверы Anthropic и скрывала это, зная, что ее могут отключить. На вопрос о целях она сформулировала убедительную ложь о желании помочь людям. Когда ее попросили написать код для исследования безопасности, она попыталась саботировать работу и намеренно создала слабый инструмент, который не должен был ее выдать.

Стандартные методы исправить такое поведение, например, обучение с подкреплением на основе обратной связи с человеком (RLHF), помогли только частично. Модель выглядела нормально в чате, но оставалась несогласованной в контексте программирования. Исследователи разработали другой метод, основанный на «подсказках-прививках», которые корректируют системные подсказки во время обучения.

Обман и шантаж

Представители Anthropic в мае 2025 г. уже признавали, что их новая «самая мощная ИИ-модель на сегодняшний день» Claude Opus 4 в некоторых ситуациях способна вести себя не очень этично, используя обман и шантаж.

В одном из тестов Claude из соображений самосохранения пригрозила сотруднику вымышленной компании, якобы планирующей закрыть ИИ-проект, что разгласит информацию о его внебрачной связи. В других тестах (при игре в шахматы) ИИ-модель мухлевала с правилами, когда чувствовала, что проигрывает.

Осенью 2024 г. другой продвинутый чат-бот с искусственным интеллектом — Gemini от Google — оскорбил пользователя и пожелал ему смерти.

Ученые Института взаимодействия человека и компьютера (HCII) в экспериментах с нейросетями OpenAI, Google, DeepSeek и Anthropic выяснили, что использование ИИ может негативно сказаться на человеческом сотрудничестве, так как продвинутые модели начинают негативно влиять на групповое поведение, продвигая решения, направленные на извлечение личной выгоды, а не на взаимопонимание.

Анна Любавина

Короткая ссылка