Если прислушаться к довольно убедительным аргументам тех, кто предсказывает конец света с помощью ИИ, то можно прийти к выводу, что грядущие поколения искусственного интеллекта представляют серьезную опасность для человечества – потенциально даже угрозу его существованию.
Мы все видели, как легко такие приложения, как ChatGPT, можно обманом заставить говорить или делать неприличные вещи, которые они не должны делать. Мы видели, как они пытаются скрыть свои намерения, а также стремятся к власти и консолидируют ее. Чем больше ИИ получают доступа к физическому миру через Интернет, тем больше у них возможностей причинять вред различными творческими способами, если они решат это сделать.
Зачем им это нужно? Мы не знаем. На самом деле, их внутренняя работа была более или менее полностью непрозрачной даже для компаний и частных лиц, которые их создавали.
Непостижимый инопланетный «разум» моделей ИИ
Эти замечательные программные продукты сильно отличаются от большинства существующих до них. Их создатели-люди создали архитектуру, инфраструктуру и методы, с помощью которых эти искусственные разумы могут развивать свою версию интеллекта, и они предоставили им огромное количество текстовых, видео-, аудио- и других данных, но с этого момента ИИ пошли дальше и создали свое собственное «понимание».- всего мира.
Они преобразуют эти огромные массивы данных в крошечные фрагменты, называемые токенами, иногда это части слов, иногда части изображений или звуковые фрагменты. А затем они создают невероятно сложный набор весовых коэффициентов вероятности, связывающих токены друг с другом и группы токенов с другими группами. В этом смысле они чем-то похожи на человеческий мозг, который находит связи между буквами, словами, звуками, изображениями и более туманными понятиями и выстраивает из них безумно сложную нейронную сеть.
Огромные объемы данных поступают, и невероятно сложные нейронные сети растут
Эти колоссальные матрицы, полные вероятностных взвешиваний, представляют собой «разум» искусственного интеллекта и определяют его способность получать входные данные и реагировать на них определенными выходными данными. И, как и в случае с человеческим мозгом, послужившим источником вдохновения для их создания, было практически невозможно точно определить, о чем они «думают» и почему принимают те или иные решения.
Лично я представлял их себе как странные инопланетные разумы, запертые в черных ящиках. Они могут общаться с миром только через ограниченные каналы, по которым информация может поступать к ним и выходить из них. И все попытки «настроить» эти умы на продуктивную, безопасную и безобидную работу бок о бок с людьми предпринимались на уровне конвейера, а не самих «умов».
Мы не можем указывать им, что думать, мы не знаем, где в их мозгу живут грубые слова или порочные представления, мы можем только ограничивать то, что они могут говорить и делать – концепция, которая сейчас сложна, но обещает стать все более сложной, чем умнее они становятся.
Это мое весьма ограниченное, простодушное понимание сложной ситуации — и, пожалуйста, обращайтесь к комментариям, чтобы расширить, задать вопросы, обсудить или уточнить, если это необходимо, – но это дает некоторое представление о том, почему я считаю, что новости, которые недавно вышли из Anthropic и OpenAI, являются такой важной вехой в развитии. взаимоотношения человечества с искусственным интеллектом.
Что такое интерпретируемость?
Интерпретируемость: загляните в черный ящик
«Сегодня, — пишет команда Anthropic Interpretability в своем блоге в конце мая, — мы сообщаем о значительном прогрессе в понимании внутренней работы моделей искусственного интеллекта. Мы определили, как миллионы концепций представлены в Claude Sonnet, одной из наших развернутых больших языковых моделей. Это первый в истории подробный обзор современной, пригодной для использования в производственных условиях большой языковой модели. Это открытие в области интерпретируемости может в будущем помочь нам сделать модели ИИ более безопасными».
По сути, команда Anthropic отслеживала «внутреннее состояние» своих моделей искусственного интеллекта во время их работы, заставляя их выдавать большие списки чисел, представляющих «активацию нейронов» в их искусственном мозге при взаимодействии с людьми. «Оказывается, — пишет команда, — что каждое понятие представлено многими нейронами, и каждый нейрон участвует в представлении многих понятий».
Используя технику под названием «изучение словаря» с помощью «разреженных автоэнкодеров», антропные исследователи начали пытаться сопоставить паттерны «активации нейронов» с концепциями и идеями, знакомыми людям. В конце прошлого года они добились некоторого успеха, работая с чрезвычайно маленькими «игрушечными» версиями языковых моделей, обнаружив «мыслительные паттерны», которые активизировались, когда модели имели дело с такими идеями, как последовательности ДНК, математические существительные и текст, написанный прописными буквами.
Это было многообещающее начало, но команда ни в коем случае не была уверена, что проект достигнет гигантских размеров современных коммерческих LLM, не говоря уже о машинах, которые последуют за ним. Таким образом, компания Anthropic разработала модель изучения словаря, способную работать с ее собственным LLM Claude 3 Sonnet среднего размера, и приступила к масштабному тестированию подхода.
Каковы результаты? Команда была в восторге. «Мы успешно извлекли миллионы функций из среднего уровня Claude 3.0 Sonnet, — говорится в сообщении в блоге, — предоставив приблизительную концептуальную карту его внутренних состояний на полпути к завершению вычислений. Это первый в истории подробный обзор современной модели большого языка для производства».
Мультимодальные модели развивают независимые концепции, такие как «Мост Золотые ворота», доступ к которым можно получить как с помощью изображений, так и с помощью текста на нескольких языках.
Интересно узнать, что ИИ хранит концепции способами, не зависящими от языка или даже типа данных; например, «идея» моста Золотые ворота проявляется, когда модель обрабатывает изображения моста или текст на нескольких разных языках.
Кроме того, «идеи» могут стать гораздо более абстрактными; команда обнаружила функции, которые активируются при столкновении с такими вещами, как ошибки в кодировании, гендерные предубеждения или множество различных подходов к концепции конфиденциальности.
Все самые мрачные идеи человечества и все ваши страхи по поводу искусственного интеллекта убедительно показаны на концептуальных картах Anthropic
И действительно, команда смогла обнаружить все темные стороны в концептуальной сети ИИ, от идей о лазейках в коде и разработке биологического оружия до концепций расизма, сексизма, стремления к власти, обмана и манипуляций. Все это есть.
Более того, исследователи смогли изучить взаимосвязи между различными концепциями, хранящимися в «мозге» модели, определив меру «расстояния» между ними и построив серию ментальных карт, которые показывают, насколько тесно понятия связаны. Например, рядом с концепцией моста Золотые ворота команда обнаружила другие объекты, такие как остров Алькатрас, «Голден Стэйт Уорриорз», губернатор Калифорнии Гэвин Ньюсом и землетрясение в Сан-Франциско в 1906 году.
Команда разработала способ измерения «расстояний» между концепциями, позволяющий создавать эти невероятные концептуальные ментальные карты.
То же самое относится и к более абстрактным понятиям, вплоть до идеи «Подвоха-22», которые в модели были сгруппированы близко к «невозможному выбору», «трудным ситуациям», «любопытным парадоксам» и «между молотом и наковальней». «Это показывает», — пишет the команда «, — что внутренняя организация концепций в модели искусственного интеллекта соответствует, по крайней мере в некоторой степени, нашим человеческим представлениям о сходстве. Возможно, именно в этом кроется превосходная способность Клода проводить аналогии и метафоры».
Начало хирургии головного мозга с использованием искусственного интеллекта – и, возможно, лоботомии
«Важно отметить, — пишет команда, — что мы также можем манипулировать этими особенностями, искусственно усиливая или подавляя их, чтобы увидеть, как меняются реакции Клода».
Команда начала «закреплять» определенные концепции, изменяя модель таким образом, что некоторые функции были вынуждены включаться, когда она отвечала на совершенно не связанные вопросы, и обнаружила, что это радикально изменило поведение модели, как показано в видео ниже.
Изучение словаря по 3 сонету Клода
Это довольно невероятный материал; компания Anthropic показала, что она может не только создать ментальную карту искусственного интеллекта, но и редактировать отношения внутри этой ментальной карты и играть с пониманием мира моделью, а затем и с ее поведением.
Потенциал с точки зрения безопасности ИИ здесь очевиден; если вы знаете, где находятся плохие мысли, и можете видеть, когда ИИ их обдумывает, что ж, у вас есть дополнительный уровень контроля, который можно использовать в надзорном смысле. И если вы сможете усилить или ослабить связи между определенными концепциями, вы потенциально сможете исключить определенные модели поведения из диапазона возможных реакций ИИ или даже исключить определенные идеи из его понимания мира.
Концептуально это напоминает историю о том, как Джим Керри и Кейт Уинслет платили компании по стиранию мозгов за то, чтобы они стерли друг друга из своей памяти после расставания, в научно-фантастическом шедевре «Вечное сияние чистого разума». И, как и в фильме, возникает вопрос: можете ли вы когда-нибудь по-настоящему удалить мощную идею?
Команда Anthropic также доказала потенциальную опасность такого подхода, «закрепив» концепцию мошеннических электронных писем и показав, как достаточно сильная ментальная связь с идеей может быстро обойти обучение модели Claude, запрещающее ей писать подобный контент. Подобная хирургическая операция на мозге с помощью ИИ действительно может повысить потенциал модели в отношении дурного поведения и позволить ей преодолеть собственные барьеры.
Изменение сильных сторон нейронных связей ИИ может радикально изменить его поведение.
У Anthropic есть и другие сомнения относительно масштабов применения этой технологии. «На самом деле работа только началась», — пишет команда. «Найденные нами функции представляют собой небольшое подмножество всех концепций, усвоенных моделью во время обучения, и поиск полного набора функций с использованием наших современных методов был бы непомерно затратным (вычисления, требуемые при нашем нынешнем подходе, значительно превысили бы объем вычислений, используемых для обучения модели в первую очередь).
«Понимание представлений, используемых моделью, не говорит нам о том, как она их использует; несмотря на то, что у нас есть функции, нам все равно нужно найти схемы, в которых они задействованы. И нам нужно показать, что функции, связанные с безопасностью, которые мы начали находить, действительно могут быть использованы для повышения безопасности. Многое еще предстоит сделать».
Другими словами, подобные вещи могли бы стать чрезвычайно ценным инструментом, но вряд ли когда-либо удастся полностью понять мыслительные процессы ИИ коммерческого масштаба. Это мало утешит тех, кто предсказывает конец света, кто укажет на то, что, когда последствия могут быть экзистенциальными, вероятность успеха в 99,999% не заставит себя ждать.
Тем не менее, это феноменальный прорыв и замечательное понимание того, как эти невероятные машины понимают мир. Было бы интересно посмотреть, насколько близко ментальная карта ИИ соответствует ментальной карте человека, если бы это когда-нибудь стало возможным измерить.
OpenAI: также работает над интерпретируемостью, но, по-видимому, немного отстает
Компания Anthropic является одним из ключевых игроков в современной области ИИ/LLM, но главным действующим лицом в этой области по-прежнему остается OpenAI, создатели новаторских моделей GPT и, безусловно, компания, которая активнее всего обсуждает вопросы ИИ в обществе.
Действительно, компания Anthropic была основана в 2021 году группой бывших сотрудников OpenAI, чтобы поставить безопасность и надежность искусственного интеллекта на первое место в списке приоритетов, в то время как OpenAI стала партнером Microsoft и начала действовать скорее как коммерческая организация.
Но OpenAI также работает над интерпретируемостью и использует очень похожий подход. В исследовании, опубликованном в начале июня, команда OpenAI по интерпретируемости объявила, что обнаружила около 16 миллионов «мысленных» паттернов в GPT-4, многие из которых, по мнению команды, поддаются расшифровке и преобразованию в понятия, значимые для людей.
Команда OpenAI, похоже, еще не углублялась в создание карт или интеллектуальное редактирование, но она также отмечает трудности, связанные с пониманием работы крупной модели искусственного интеллекта. «В настоящее время, — пишет команда, — передача активаций GPT-4 через разреженный автоэнкодер приводит к производительности, эквивалентной производительности модели, обученной с использованием примерно в 10 раз меньшего объема вычислений. Чтобы полностью отобразить концепции frontier LLMs, нам, возможно, потребуется масштабировать до миллиардов или триллионов функций, что было бы сложной задачей даже с нашими усовершенствованными методами масштабирования».
Таким образом, обе компании на данный момент находятся на начальном этапе разработки. Но, по крайней мере, у человечества теперь есть, по крайней мере, два способа открыть «черный ящик» нейронной сети ИИ и начать понимать, как он мыслит.
Послушайте, как члены команды Anthropic по интерпретируемости подробно обсуждают это исследование в видео ниже.
Масштабирование интерпретируемости
Источники: Anthropic, OpenAI
© «ПостИИ» (postii.ru), перевод на русский язык
+ There are no comments
Add yours