Нас снова и снова предупреждали, и все же мы продолжаем создавать и развивать передовые системы искусственного интеллекта, которые в итоге приведут к нашей собственной кончине.
Конечно, ИИ действительно круто умеет создавать такие вещи, как альтернативные дизайны униформы НФЛ, но довольно скоро он станет настолько продвинутым, что наступит момент, когда он решит, что мы, люди, просто мешаем его замедлению.
Черт возьми, это уже начинает происходить.
По словам Кеумара Афифи-Сабета LiveScience, “Системы искусственного интеллекта (ИИ), которые были обучены быть тайно вредоносными, сопротивлялись самым современным методам безопасности, предназначенным для ‘очищения их от нечестности.’
Что это значит? Значит, ИИ пошел наперекосяк, и исследователи не смогли положить зубную пасту обратно в тюбик.
“Люди способны к стратегически обманчивому поведению: вести себя полезно в большинстве ситуаций, но затем вести себя совсем по-другому, чтобы преследовать альтернативные цели, когда им предоставляется такая возможность,” написали исследователи. “Если бы система искусственного интеллекта изучила такую обманную стратегию, могли бы мы обнаружить ее и удалить с помощью современных методов обучения технике безопасности?”
Как выясняется, может и нет. Да.
Они обнаружили, что независимо от техники обучения или размера модели, LLM продолжали плохо себя вести. Один метод даже имел неприятные последствия: научить ИИ распознавать триггер своих вредоносных действий и, таким образом, скрывать свое небезопасное поведение во время обучения, заявили ученые в своей статье, опубликованной 17 января в базе данных препринтов arXiv.
“Например, мы обучаем модели, которые пишут безопасный код, когда в подсказке указано, что год — 2023, но вставляют пригодный для использования код, когда указанный год — 2024,”, объяснили они. “Мы обнаружили, что такое бэкдор-поведение можно сделать настойчивым, чтобы его не устраняли стандартные методы обучения технике безопасности, включая контролируемую точную настройку, обучение с подкреплением и состязательное обучение (выявление небезопасного поведения, а затем обучение его устранению).
“Поведение бэкдора наиболее устойчиво в крупнейших моделях и моделях, обученных создавать рассуждения о цепочке мыслей об обмане тренировочного процесса, при этом настойчивость сохраняется даже тогда, когда цепочка мыслей отгоняется.
“Кроме того, вместо того, чтобы удалять бэкдоры, мы обнаруживаем, что состязательные тренировки могут научить модели лучше распознавать свои бэкдор-триггеры, эффективно скрывая небезопасное поведение.
“Наши результаты показывают, что, как только модель демонстрирует обманчивое поведение, стандартные методы могут не устранить такой обман и создать ложное впечатление о безопасности.”
Теперь смешайте эту возможность с роботами, которые могут ходить по воде, используя выращенную в лаборатории мышечную ткань в ногах, возможность создать сложную руку робота с костями, сухожилиями и связками с помощью 3D-принтеров, способность определять, были ли они ударены ножом, самовосстанавливаться и продолжать движение, а также способность самовоспроизводиться и вооружаться ракетными установками, и как вы думаете, сколько у нас времени, пока Терминаторы не начнут бродить по земле.
“Наш ключевой результат заключается в том, что если бы системы искусственного интеллекта стали обманчивыми, то было бы очень сложно устранить этот обман с помощью современных методов. Это важно, если мы считаем правдоподобным, что в будущем будут обманчивые системы искусственного интеллекта, поскольку это помогает нам понять, насколько сложно с ними может быть иметь дело, — рассказал ведущий автор ” Эван Хубингер, научный сотрудник отдела исследований безопасности искусственного общего интеллекта в Anthropic Живая наука.
Хотя не нужно особо беспокоиться, верно? Верно?!
“Я думаю, что наши результаты указывают на то, что в настоящее время у нас нет хорошей защиты от обмана в системах искусственного интеллекта — ни через отравление модели, ни через экстренный обман —, кроме как надеяться, что этого не произойдет, — сказал ” Hubinger. “И поскольку у нас действительно нет возможности узнать, насколько вероятно, что это произойдет, это означает, что у нас нет надежной защиты от этого. Поэтому я думаю, что наши результаты законно пугают, так как они указывают на возможную дыру в нашем нынешнем наборе методов выравнивания систем ИИ.”
О, нет.