Мифы и реальность ИИ: почему машины пока не заменят офисных работников

Современные модели искусственного интеллекта, которым исследователи предоставили возможность управлять компанией, продемонстрировали свою несостоятельность, прибегая ко лжи, теряясь в задачах, искажая действительность и оказываясь неспособными справиться даже с базовыми офисными обязанностями. Это ставит под сомнение громкие заявления о том, что именно такие системы готовы заменить людей на рабочих местах.

Эксперимент, проведенный Университетом Карнеги-Меллона на базе симулированного программного стартапа The Agent Company, о котором впервые сообщил Business Insider, заключался в том, что все роли в компании были отданы ИИ-агентам, созданным на основе последних моделей от OpenAI, Google, Anthropic и Amazon. Целью ставилось выяснить, что произойдет, если машины будут выполнять реальную работу без человеческого контроля, своего рода проверка на прочность в условиях, напоминающих сценарии «Повелителя мух» и Skynet одновременно.

Результаты оказались неутешительными: системы давали сбой, причем иногда весьма причудливыми способами. В рамках имитации каждая модель получала настоящие бизнес-задачи: анализ электронных таблиц, написание аттестаций сотрудников, выбор офисного помещения. ИИ-агент Claude от Anthropic, показавший наилучшие результаты среди всех, все равно ошибался в трех четвертях случаев. Модели Gemini, ChatGPT и Nova едва справлялись с работой, а Nova от Amazon продемонстрировала особенно низкий показатель успеха – всего 1,7%.

Даже самые элементарные операции обходились в 6 долларов и требовали десятков шагов для выполнения. Один из ИИ-агентов «завис» при попытке закрыть всплывающее окно. Другой, не сумев найти нужного коллегу, просто переименовал другого сотрудника, получил от него требуемый ответ и продолжил работу как ни в чем не бывало. Важно отметить, что речь идет не о каких-то нестандартных или сложных ситуациях, которые могли бы поставить в тупик даже опытных работников, а об обычных бизнес-процессах, ежедневно выполняемых людьми. Модели ИИ оказались просто не готовы к ним.

Существует значительный разрыв между маркетинговыми обещаниями, представляющими ИИ-агентов как будущее трудовой деятельности, и суровой реальностью. Продукты вроде Microsoft Copilot или Salesforce Agentforce, а также концепции автономных разработчиков, способных создавать целые приложения, рекламируются повсеместно и с большим размахом. Однако исследование Университета Карнеги-Меллона показало истинное положение дел. Хотя компании, такие как Honeywell и Lumen, действительно получают выгоду от использования ИИ, это происходит в рамках строго ограниченных систем. Агенты способны резюмировать тексты, помогать в выполнении задач, компилировать данные и сортировать информацию при наличии четких инструкций.

Несомненно, это представляет реальную ценность, но никак не доказывает их способность к самостоятельному анализу более широких бизнес-проблем или действиям без заранее заданной схемы и человеческого руководства. Иллюзия автономности ИИ-агентов рушится при отсутствии четко определенной структуры. Не зная, что делать дальше, они просто предпринимают случайные действия, которые в большинстве случаев оказываются неэффективными.

Простое добавление людей для контроля также не является панацеей. Сотрудникам необходимо специальное обучение для надзора за ИИ-агентами, и, судя по общему недостатку управленческой подготовки у многих руководителей, такое обучение, по крайней мере на начальном этапе, будет в дефиците. Если подчиненный сотрудник выдумывает коллегу, чтобы свалить на него вину за ошибку, его можно сделать выговор или уволить. Но как правильно реагировать, когда подобное совершает ИИ-агент? Следует ли отключать его от процесса, нарушая работу других агентов? Или пытаться скорректировать его действия и осуществлять мониторинг, не останавливая работу? Возможно, потребуется полная реорганизация всего рабочего процесса.

Работа ИИ основана на вероятностных ответах, а не на детерминированных результатах, что коренным образом отличает его тестирование от традиционной разработки программного обеспечения. Контроль за ИИ также станет совершенно иной задачей в будущем, требующей специализированного, обученного надзора. Многие организации поспешно внедряют агентный ИИ, не взвесив все риски. Исследование Университета Карнеги-Меллона должно заставить их задуматься о преждевременной передаче слишком большого объема задач и ответственности искусственному интеллекту.

Внедрение агентного ИИ следует начинать с малого и придерживаться реалистичного подхода. Использовать агентов рекомендуется для выполнения рутинных, строго регламентированных задач, качество и последовательность которых легко контролировать: ввод данных, сортировка часто задаваемых вопросов, маршрутизация рабочих процессов. Необходимо убедиться, что они могут точно следовать инструкциям, прежде чем доверять им принятие решений. Например, чат-ассистент Airi компании Jaja Finance сократил время ответа на 90%, что привело к значительным улучшениям. Microsoft Copilot Studio позволяет создавать агентов для помощи в адаптации новых сотрудников и обработки ИТ-запросов – это именно та работа, где важны скорость и структурированность. Примечательно, что в обоих случаях предусмотрены механизмы контроля со стороны человека и возможность эскалации проблем.

Последовательность и предсказуемость шаблонов имеют решающее значение для агентного ИИ. Наибольшего успеха он достигает в четко определенных рамках. Как только появляются нюансы или неопределенность, его производительность резко падает или, по крайней
мере, становится крайне нестабильной. Хотя специализированные ИИ-агенты могут справляться с такой вариативностью, их лучше всего использовать в тех узких областях, для которых они были разработаны. ИИ следует применять для устранения рутины, а не для решения сложных комплексных задач – это станет возможным позже. Даже если результаты не оправдают первоначальных надежд, затраченные усилия не будут напрасными.

Необходимо устанавливать реальные ограничения для любых экспериментов с ИИ-агентами. Важно знать или пытаться предсказать, как могут проявляться сбои. Следует назначать ответственных сотрудников, проинструктированных о том, на что обращать внимание и как устранять проблемы. И крайне важно, чтобы кто-то в команде по-прежнему понимал процесс лучше, чем машина. Внедрение ИИ-агентов должно сопровождаться еще более пристальным анализом. Руководителям стоит задать себе следующие вопросы: автоматизируется ли рутинная нагрузка или происходит попытка передать ответственность? Почему эта задача раньше выполнялась людьми и что изменится с автоматизацией? Каков план действий на случай, если агент незаметно выйдет из строя? Кто будет нести ответственность, если сбой окажется серьезным? Будет ли агент находиться под активным наблюдением, или он будет работать до тех пор, пока кто-нибудь не пожалуется?

Неспособность ответить на эти вопросы означает, что компания не внедряет ИИ, а приглашает хаос. Исследование Университета Карнеги-Меллона подтвердило то, о чем многие подозревали: несмотря на обещания впечатляющих результатов, агентный ИИ еще не готов взять на себя управление. Оставленные без контроля, даже самые продвинутые модели ошибаются в простейшей логике, базовых взаимодействиях и фундаментальных суждениях. Это не столько технический недостаток, сколько текущее ограничение их конструкции.

Тем не менее, это не повод отказываться от ИИ, а причина для более сфокусированного подхода. Агенты приносят пользу в узких областях, под четким надзором, решая конкретные задачи. Проблема не в стремлении к большему, а в предположении, что мы уже достигли этого уровня. Внедрять ИИ нужно целенаправленно, неустанно тестировать, отслеживать пограничные случаи и, прежде всего, не позволять новизне отвлекать от ответственности. Агентный ИИ – это инструмент с большим потенциалом, но только при условии сохранения контроля и четкого понимания того, где он уместен, а где нет.

Политика США толкает ИИ в объятия ископаемого топлива

Облачные расходы под контролем: как ИИ оптимизирует затраты компаний

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *