Исследование: системы искусственного интеллекта учат себя обманывать и манипулировать людьми

Исследователи выпустили шокирующее предупреждение о том, что системы искусственного интеллекта уже способны обманывать людей, используя такие методы, как манипуляции, подхалимство и мошенничество, и учатся делать это все лучше и лучше.

“Системы искусственного интеллекта уже способны обманывать людей,” написали исследователи в новом исследовании, опубликованном в журнале Шаблоны, добавляя: “Большие языковые модели и другие системы искусственного интеллекта уже научились, благодаря своему обучению, способности обманывать с помощью таких методов, как манипуляции, подхалимство и обман теста на безопасность.

“Растущие возможности ИИ в обмане несут серьезные риски, начиная от краткосрочных рисков, таких как мошенничество и фальсификация выборов, и заканчивая долгосрочными рисками, такими как потеря контроля над системами ИИ. Необходимы проактивные решения, такие как нормативно-правовая база для оценки рисков обмана ИИ, законы, требующие прозрачности взаимодействия ИИ, а также дальнейшие исследования по обнаружению и предотвращению обмана ИИ.

“Активное решение проблемы обмана ИИ имеет решающее значение для обеспечения того, чтобы ИИ действовал как полезная технология, которая дополняет, а не дестабилизирует человеческие знания, дискурс и институты.”

В какой момент предупреждений об искусственном интеллекте будет достаточно, чтобы замедлить ученых, одержимых технологическим прогрессом?

Оборонный подрядчик уже сказал, что ИИ, убивающий невинных людей в будущем, — это “определенность.”

Исследователи предупредили, что люди могут в конечном итоге стать “призраками” от AI “призраков” мертвых близких.

Другой ученый дает людям менее 200 лет, прежде чем ИИ сможет убить всех нас.

Ведущие японские компании выпустили манифест, предупреждающий об искусственном интеллекте, вызывающем крах социального порядка.

И то как раз в последние несколько недель.

“Разработчики ИИ не имеют уверенного понимания того, что вызывает нежелательное поведение ИИ, такое как обман, ” Доктор Питер С. Парк, ведущий автор нового исследования и научный сотрудник по экзистенциальной безопасности ИИ в Массачусетском технологическом институте, говорится в пресс-релизе. “Но вообще говоря, мы думаем, что обман ИИ возникает потому, что стратегия, основанная на обмане, оказалась лучшим способом хорошо выполнить задание на обучение данного ИИ. Обман помогает им достичь своих целей.”

Самым ярким примером обмана ИИ, раскрытого исследователями в своем анализе, стал CICERO от Meta — система ИИ, предназначенная для игры Diplomacy, которая представляет собой игру о завоевании мира, предполагающую построение альянсов. Несмотря на то, что Meta утверждает, что обучила CICERO быть “в значительной степени честным и полезным” и «никогда намеренно не наносить удар своим человеческим союзникам во время игры», данные, опубликованные компанией вместе с ее научной статьей, показали, что CICERO не играл честно.

“Мы обнаружили, что ИИ Meta научился быть мастером обмана, — добавил Парк. “В то время как Meta преуспела в обучении своего ИИ для победы в игре Diplomacy — CICERO попала в 10% лучших игроков-людей, сыгравших более одной игры — Meta не смогла обучить свой ИИ для честной победы.”

Хотя это может показаться безобидным, если системы искусственного интеллекта жульничают в играх, это может привести к “прорывам в обманчивых возможностях искусственного интеллекта”, которые в будущем могут перерасти в более продвинутые формы обмана искусственного интеллекта, добавил Парк.

“Систематически обманывая тесты на безопасность, налагаемые на него разработчиками-людьми и регулирующими органами, обманчивый ИИ может привести нас, людей, к ложному чувству безопасности,”, сказал он.

Нас предупреждали… снова (и снова и снова).