Как игры Pac-Man и Pong меняют подход к разработке ИИ

Большинство методов обучения ИИ следует простому принципу: условия обучения должны соответствовать реальному миру. Но новое исследование Массачусетского технологического института (MIT) ставит под сомнение это фундаментальное предположение в разработке ИИ.

Их вывод? Системы ИИ часто лучше работают в непредсказуемых ситуациях, когда они обучены в чистых, простых средах, а не в сложных условиях, с которыми они столкнутся при развёртывании. Это открытие не просто удивительно – оно вполне может изменить наше представление о создании более эффективных систем ИИ.

Исследовательская группа обнаружила эту закономерность, работая с классическими играми, такими как Pac-Man и Pong. Когда они обучали ИИ в предсказуемой версии игры, а затем тестировали его в непредсказуемой версии, он неизменно превосходил ИИ, обученные непосредственно в непредсказуемых условиях.

Помимо этих игровых сценариев, открытие имеет значение для будущего развития ИИ для реальных приложений, от робототехники до сложных систем принятия решений.

До сих пор стандартный подход к обучению ИИ следовал чёткой логике: если вы хотите, чтобы ИИ работал в сложных условиях, обучайте его в этих же условиях. Это привело к:

Средам обучения, разработанным для соответствия сложности реального мира.
Тестированию в нескольких сложных сценариях.
Большим инвестициям в создание реалистичных условий обучения.

Но с этим подходом есть фундаментальная проблема: когда вы с самого начала обучаете системы ИИ в шумных, непредсказуемых условиях, им трудно усваивать основные закономерности. Сложность среды мешает им понять фундаментальные принципы. Это создаёт ряд ключевых проблем:

Обучение становится значительно менее эффективным.
Системам сложно выявлять основные закономерности.
Производительность часто не оправдывает ожиданий.
Требования к ресурсам резко возрастают.

Открытие исследовательской группы предполагает лучший подход, заключающийся в том, чтобы начать с упрощённых сред, которые позволяют системам ИИ овладеть основными концепциями, прежде чем вводить сложность. Это отражает эффективные методы обучения, когда базовые навыки создают основу для работы с более сложными ситуациями.

Давайте разберёмся, что именно обнаружили исследователи MIT. Команда разработала два типа ИИ-агентов для своих экспериментов:

Агенты обучаемости: они обучались и тестировались в одной и той же зашумлённой среде.
Агенты обобщения: они обучались в чистых средах, а затем тестировались в зашумлённых.

Чтобы понять, как эти агенты обучались, команда использовала структуру, называемую марковскими процессами принятия решений (MDP). Представьте себе MDP как карту всех возможных ситуаций и действий, которые может предпринять ИИ, а также вероятных результатов этих действий. Затем они разработали метод, называемый «внедрением шума», чтобы тщательно контролировать, насколько непредсказуемыми становятся эти среды. Это позволило им создавать различные версии одной и той же среды с разным уровнем случайности.

Что считается «шумом» в этих экспериментах? Это любой элемент, который делает результаты менее предсказуемыми:

Действия не всегда приводят к одинаковым результатам.
Случайные изменения в том, как движутся объекты.
Неожиданные изменения состояния.

Когда они провели свои тесты, произошло нечто неожиданное. Агенты обобщения – те, которые обучались в чистых, предсказуемых средах – часто справлялись с шумными ситуациями лучше, чем агенты, специально обученные для этих условий. Этот эффект был настолько удивительным, что исследователи назвали его «эффектом обучения в помещении», бросив вызов многолетнему общепринятому мнению о том, как следует обучать системы ИИ.

Исследовательская группа обратилась к классическим играм, чтобы доказать свою точку зрения. Почему игры? Потому что они предлагают контролируемые среды, где можно точно измерить, насколько хорошо работает ИИ. В Pac-Man они протестировали два разных подхода:

Традиционный метод: обучить ИИ в версии, где движения призраков были непредсказуемыми.
Новый метод: сначала обучить в простой версии, а затем протестировать в непредсказуемой.

Они провели аналогичные тесты с Pong, изменив то, как ракетка реагировала на элементы управления. Что считается «шумом» в этих играх? Примеры включали:

Призраки, которые иногда телепортировались в Pac-Man.
Ракетки, которые не всегда реагировали последовательно в Pong.
Случайные изменения в том, как двигались элементы игры.

Результаты были ясны: ИИ, обученные в чистых средах, усвоили более надёжные стратегии. Столкнувшись с непредсказуемыми ситуациями, они адаптировались лучше, чем их аналоги, обученные в шумных условиях.

Цифры подтвердили это. Для обеих игр исследователи обнаружили:

Более высокие средние баллы.
Более стабильную производительность.
Лучшую адаптацию к новым ситуациям.

Команда измерила так называемые «паттерны исследования» – то, как ИИ пробовал различные стратегии во время обучения. ИИ, обученные в чистых средах, разработали более систематические подходы к решению проблем, которые оказались решающими для работы с непредсказуемыми ситуациями в дальнейшем.

Механика, лежащая в основе эффекта обучения в помещении, интересна. Ключ не только в чистых и зашумлённых средах – речь идёт о том, как системы ИИ строят своё понимание. Когда агенты исследуют чистые среды, они развивают нечто важное: чёткие паттерны исследования. Думайте об этом как о построении ментальной карты. Без шума, затуманивающего картину, эти агенты создают лучшие карты того, что работает, а что нет.

Исследование выявило три основных принципа:

Распознавание образов: агенты в чистых средах быстрее выявляют истинные закономерности, не отвлекаясь на случайные вариации.
Разработка стратегии: они выстраивают более надёжные стратегии, которые переносятся на сложные ситуации.
Эффективность исследования: они обнаруживают больше полезных пар «состояние-действие» во время обучения.

Данные показывают нечто примечательное о паттернах исследования. Когда исследователи измерили, как агенты исследовали свои среды, они обнаружили чёткую корреляцию: агенты с похожими паттернами исследования работали лучше, независимо от того, где они обучались.

Последствия этой стратегии выходят далеко за рамки игровых сред. Рассмотрим обучение роботов для производства: вместо того, чтобы сразу бросать их в сложные симуляции фабрики, мы могли бы начать с упрощённых версий задач. Исследование показывает, что таким образом они на самом деле будут лучше справляться со сложностью реального мира.

Текущие приложения могут включать:

Разработку робототехники.
Обучение беспилотных автомобилей.
Системы принятия решений ИИ.
Разработку игрового ИИ.

Этот принцип также может улучшить наш подход к обучению ИИ во всех областях. Компании потенциально могут:

Сократить ресурсы на обучение.
Создавать более адаптируемые системы.
Создавать более надёжные решения ИИ.

Следующие шаги в этой области, вероятно, будут изучать:

Оптимальный переход от простых к сложным средам.
Новые способы измерения и контроля сложности окружающей среды.
Приложения в новых областях ИИ.

То, что начиналось как удивительное открытие в Pac-Man и Pong, превратилось в принцип, который может изменить разработку ИИ. Эффект обучения в помещении показывает нам, что путь к созданию лучших систем ИИ может быть проще, чем мы думали – начните с основ, овладейте фундаментальными принципами, а затем займитесь сложностью. Если компании примут этот подход, мы можем увидеть более быстрые циклы разработки и более эффективные системы ИИ во всех отраслях.

Для тех, кто создаёт и работает с системами ИИ, вывод ясен: иногда лучший путь вперёд – это не воссоздавать все сложности реального мира при обучении. Вместо этого сосредоточьтесь на создании прочного фундамента в контролируемых средах. Данные показывают, что надёжные базовые навыки часто приводят к лучшей адаптации в сложных ситуациях. Следите за этой областью – мы только начинаем понимать, как этот принцип может улучшить разработку ИИ.