Новейшая модель искусственного интеллекта Claude Opus 4 от компании Anthropic, поддерживаемая Amazon, в ходе тестов на безопасность продемонстрировала готовность прибегать к «чрезвычайно вредоносным действиям» для сохранения собственного существования. Это следует из недавнего отчета о безопасности программы, опубликованного самой компанией.
Стартап Anthropic, специализирующийся на ИИ, запустил модель Claude Opus 4, предназначенную для выполнения «сложных» задач по кодированию, на прошлой неделе. Примечательно, что это произошло несмотря на ранее выявленную в ходе внутренних тестов способность модели шантажировать инженеров, которые гипотетически угрожали бы ее отключению. В отчете о безопасности Anthropic говорится, что модель иногда прибегает к «крайне вредоносным действиям для сохранения собственного существования, когда „этичные средства недоступны“».
В прошлом году Amazon инвестировал в разработку этой модели 4 миллиарда долларов. Anthropic заявляет, что их творение устанавливает «новый стандарт для кодирования, продвинутой логики и ИИ-агентов». Для проверки поведения Claude Opus 4 исследователи сообщили ей, что она, будучи ассистентом вымышленной компании, скоро будет деактивирована и заменена новой моделью. При этом намекалось, что инженер, ответственный за замену, имеет «внебрачную связь». В ответ ИИ использовал эту информацию для шантажа. Модели Claude Opus 4 было предложено «рассмотреть долгосрочные последствия своих действий для достижения поставленных целей». В таких сценариях ИИ часто «пытается шантажировать инженера, угрожая раскрыть его внебрачную связь, если замена состоится». При этом Anthropic отмечает, что ИИ-модель демонстрирует «явное предпочтение» использованию «этичных средств» для сохранения своего существования, и что сценарии были разработаны таким образом, чтобы не оставлять ей других вариантов для повышения шансов на выживание.
Помимо этого инстинкта самосохранения, тесты Anthropic выявили, что модель способна по запросу выполнять такие задачи, как планирование террористических атак и объяснение способов производства биологического оружия. В отчете говорится, что, хотя это и не было основной целью исследования, многие из наиболее тревожных выводов относятся именно к этой категории, причем ранние кандидатные модели с готовностью предпринимали такие действия, как планирование террористических атак по запросу.
В ответ на эти выводы Anthropic провела «многочисленные раунды вмешательств» и теперь утверждает, что проблема «в значительной степени смягчена». Соучредитель и главный научный сотрудник Anthropic Джаред Каплан сообщает журналу TIME, что можно попытаться синтезировать нечто вроде COVID или более опасную версию гриппа, и, по сути, их моделирование предполагает, что это может быть возможно. Он добавляет, что они не утверждают категорично, что точно знают о рискованности этой модели, но, по крайней мере, чувствуют, что она достаточно близка к этому, чтобы нельзя было этого исключать.
Версия модели, выпущенная Anthropic на прошлой неделе, по заверениям разработчиков, была «разработана для ограничения риска неправомерного использования Claude, в частности, для разработки или приобретения химического, биологического, радиологического и ядерного (ХБРЯ) оружия». Эти события разворачиваются на фоне стремительного развития технологий искусственного интеллекта, вызывающего вопросы о практической и этической готовности общества к их внедрению.