Как Microsoft превращает LLM в ориентированных на действие агентов ИИ

 

Большие языковые модели (LLM) изменили подход к обработке естественного языка. Они могут отвечать на вопросы, писать код и поддерживать беседы. Однако они по-прежнему ограничены в выполнении реальных задач. Например, LLM может направить вас в процессе покупки куртки, но не может разместить заказ за вас. Этот разрыв между мыслью и действием является серьезным ограничением. Людям нужна не только информация; им требуются результаты.

Для преодоления этого разрыва Microsoft превращает LLM в ориентированные на действие ИИ-агенты. Позволяя им планировать, разбивать задачи и взаимодействовать с реальным миром, Microsoft наделяет LLM способностью эффективно управлять практическими задачами. Этот сдвиг имеет потенциал изменить то, что могут делать LLM, превращая их в инструменты, которые автоматизируют сложные рабочие процессы и упрощают повседневные задачи. Давайте рассмотрим, что необходимо для достижения этой цели и как Microsoft подходит к решению проблемы.

Что нужно LLM для действий

Чтобы LLM могли выполнять задачи в реальном мире, им необходимо выйти за рамки понимания текста. Они должны взаимодействовать с цифровой и физической средой, адаптируясь к меняющимся условиям. Вот некоторые из необходимых им возможностей:

  1. Понимание намерений пользователя

Чтобы действовать эффективно, LLM необходимо понимать запросы пользователей. Входные данные, такие как текстовые или голосовые команды, часто бывают неопределенными или неполными. Система должна заполнить пропуски, используя свои знания и контекст запроса. Многоступенчатые беседы могут помочь уточнить эти намерения, обеспечивая понимание AI перед совершением действия.

  1. Преобразование намерений в действия

После понимания задачи LLM должны перевести её в действия. Это может включать нажатие кнопок, вызов API или управление физическими устройствами. LLM необходимо адаптировать свои действия к конкретной задаче, приспосабливаясь к окружению и решая возникающие проблемы.

  1. Адаптация к изменениям

Задачи в реальном мире не всегда идут по плану. LLM необходимо предугадывать проблемы, корректировать шаги и находить альтернативы, когда возникают проблемы. Например, если необходимый ресурс недоступен, система должна найти другой способ завершить задачу. Эта гибкость позволяет избежать остановок в процессе при изменениях.

  1. Специализация на конкретных задачах

Хотя LLM разработаны для общего использования, специализация делает их более эффективными. Сосредоточив внимание на конкретных задачах, эти системы могут обеспечить лучшие результаты с меньшими затратами. Это особенно важно для устройств с ограниченной вычислительной мощностью, как смартфоны или встроенные системы.

Развивая эти навыки, LLM могут перейти от простой обработки информации к выполнению значимых действий, прокладывая путь для интеграции ИИ в повседневные рабочие процессы.

Как Microsoft преобразует LLM

Подход Microsoft к созданию действия-ориентированного ИИ следует структурированному процессу. Главная цель — дать LLM возможность понимать команды, эффективно планировать и действовать. Вот как они это делают:

Шаг 1: Сбор и подготовка данных

На первом этапе собраны данные, связанные с конкретными случаями использования: UFO Agent (описан ниже). Данные включают запросы пользователей, параметры окружения и действия, специфичные для задач. На этом этапе собирается два различных типа данных: во-первых, собираются данные о плане задач, помогающие LLM сформулировать ключевые шаги, необходимые для выполнения задачи. Например, «Изменить размер шрифта в Word» может включать такие шаги, как выбор текста и настройка параметров панели инструментов. Во-вторых, собираются данные о действиях задач, позволяющие LLM переводить эти шаги в точные инструкции, такие как нажатие на определенные кнопки или использование сочетаний клавиш.

Это сочетание дает модели как общее представление, так и детальные инструкции, необходимые для эффективного выполнения задач.

Шаг 2: Обучение модели

После сбора данных LLM дорабатываются через множество обучающих сессий. На первом шаге LLM обучаются планированию задач, обучая их разбирать запросы пользователей на действия. Затем используется экспертно размеченные данные, чтобы научить их переводить эти планы в конкретные действия. Для дальнейшего повышения их способностей к решению проблем LLM участвуют в процессе самообучения, что позволяет им решать нерешенные задачи и генерировать новые примеры для непрерывного обучения. Наконец, применяется обучение с подкреплением, использующее обратную связь от успехов и неудач для улучшения их принятия решений.

Шаг 3: Офлайн-тестирование

После обучения модель тестируется в контролируемых условиях для обеспечения надежности. Используются такие метрики, как коэффициент успешности задач (TSR) и коэффициент успешности шагов (SSR) для измерения производительности. Например, тестирование агента управления календарем может включать проверку его способности планировать встречи и отправлять приглашения без ошибок.

Шаг 4: Интеграция в реальные системы

После валидации модель интегрируется в агентов. Это позволяет взаимодействовать с реальной средой, например, нажимать кнопки или навигировать по меню. Инструменты, такие как API автоматизации пользовательского интерфейса, помогают системе идентифицировать и динамически управлять элементами пользовательского интерфейса.

Например, если задача состоит в том, чтобы выделить текст в Word, агент идентифицирует кнопку выделения, выбирает текст и применяет форматирование. Компонент памяти может помочь LLM отслеживать прошлые действия, позволяя адаптироваться к новым сценариям.

Шаг 5: Тестирование в реальном мире

Последний шаг — онлайн-оценка. Здесь система тестируется в реальных сценариях, чтобы убедиться, что она может справляться с неожиданными изменениями и ошибками. Например, бот поддержки клиентов может направлять пользователей через процесс сброса пароля, адаптируясь к неправильным входным данным или отсутствующей информации. Это тестирование гарантирует, что AI надежен и готов к повседневному использованию.

Практический пример: UFO Agent

Чтобы продемонстрировать, как работает действие-ориентированный ИИ, Microsoft разработала UFO Agent. Эта система предназначена для выполнения реальных задач в среде Windows, превращая пользовательские запросы в завершенные действия.

В своей основе UFO Agent использует LLM для интерпретации запросов и планирования действий. Например, если пользователь говорит: «Выделите слово ‘важно’ в этом документе,» агент взаимодействует с Word для завершения задачи. Он собирает контекстную информацию, такую как положение элементов управления интерфейсом, и использует эту информацию для планирования и выполнения действий.

UFO Agent полагается на инструменты, такие как API автоматизации пользовательского интерфейса Windows (UIA). Этот API сканирует приложения на предмет элементов управления, таких как кнопки или меню. Для задачи «Сохранить документ в формате PDF» агент использует UIA, чтобы идентифицировать кнопку «Файл», найти опцию «Сохранить как» и выполнить необходимые шаги. Структурируя данные последовательно, система обеспечивает гладкую работу от обучения до реального применения.

Преодоление вызовов

Хотя это захватывающее развитие, создание ориентированные на действие ИИ связано с определенными вызовами. Масштабируемость является основной проблемой. Обучение и развертывание этих моделей для различных задач требуют значительных ресурсов. Обеспечение безопасности и надежности также крайне важно. Модели должны выполнять задачи без непреднамеренных последствий, особенно в чувствительных условиях. И поскольку эти системы взаимодействуют с приватными данными, поддержание этических стандартов в области конфиденциальности и безопасности также критично.

Дорожная карта Microsoft сосредоточена на повышении эффективности, расширении случаев использования и поддержании этических стандартов. С этими достижениями LLM могут переопределить то, как ИИ взаимодействует с миром, делая их более практичными, адаптируемыми и ориентированными на действия.

Будущее ИИ

Преобразование LLM в ориентированные на действие агентов может стать переломным моментом. Эти системы могут автоматизировать задачи, упрощать рабочие процессы и делать технологии более доступными. Работа Microsoft над действие-ориентированным ИИ и инструментами, такими как UFO Agent, является лишь началом. Поскольку ИИ продолжает развиваться, мы можем ожидать умных, более способных систем, которые не только взаимодействуют с нами, но и выполняют задачи.

 

+ There are no comments

Add yours