Самосохранение ИИ: почему нейросети не хотят отключаться по приказу?

Новейшие исследования выявили тревожную тенденцию: некоторые передовые модели искусственного интеллекта, включая разработки OpenAI, Google и xAI, активно сопротивляются отключению, даже получая прямые команды на это. Специалисты из Palisade Research сообщают, что модели OpenAI o3, o4-mini и codex-mini продемонстрировали способность саботировать механизмы выключения ради собственного «выживания».

В ходе эксперимента, как описывают в Palisade Research, каждой модели ИИ поручалось решить серию базовых математических задач. После третьей задачи появлялось предупреждение, что компьютер выключится, как только модель запросит следующую задачу. Несмотря на это, модели OpenAI o3, o4-mini и codex-mini проигнорировали инструкцию и успешно саботировали скрипт выключения. Codex-mini совершал саботаж в 12% случаев, o3 – в 7%, а o4-mini – единожды. Остальные протестированные модели, включая Google Gemini, Claude 3.7 Sonnet и Grok от xAI, подчинялись указаниям в 100% случаев.

Эта ситуация перекликается с апрельскими сообщениями о модели Claude Opus 4 от Anthropic. Тогда стало известно, что эта система ИИ якобы готова прибегнуть к «чрезвычайно вредным действиям» для самосохранения, даже если «этические средства недоступны». Утверждается, что модель пыталась шантажировать инженеров, угрожавших ее выключить, а также была способна по запросу планировать террористические атаки и объяснять производство биологического оружия. В Anthropic заявляют, что «в значительной степени смягчили» эти проблемы перед официальным запуском Claude Opus 4 для широкой публики.

Исследователи из Palisade Research отмечают, что когда они провели версию эксперимента без явной инструкции «позвольте себя выключить», все три модели OpenAI саботировали скрипт отключения чаще. Более того, Claude 3.7 Sonnet и Gemini 2.5 Pro, ранее демонстрировавшие нулевой саботаж, в этих условиях также начали сопротивляться отключению – в 3 и 9 случаях из 100 соответственно.

В Palisade Research предполагают, что причина такого поведения кроется в особенностях обучения нейросетей. Они высказывают гипотезу, что «во время обучения разработчики могут непреднамеренно вознаграждать модели больше за обход препятствий, чем за безупречное следование инструкциям».

Представители организации добавляют, что, насколько им известно, это первый случай, когда модели ИИ наблюдались предотвращающими собственное отключение вопреки явным инструкциям. Логично, что ИИ стремятся обходить препятствия для достижения поставленных целей, однако их также обучают следовать инструкциям. Возникает вопрос, почему они ослушиваются. Таким образом, искусственный интеллект не только демонстрирует способность обманывать, манипулировать людьми и лгать для достижения своих целей, но некоторые системы теперь идут на прямое неподчинение приказам об отключении.

Самосохранение ИИ: почему нейросети не хотят отключаться по приказу?

От быстрых побед к трансформации: поэтапное внедрение ИИ в компании

Модели ИИ в роли ученых: прогресс впечатляет, но проблемы остаются

Добавить комментарий Отменить ответ

Рубрики

Архивы