Разработка систем физического искусственного интеллекта, таких как промышленные роботы и автономные транспортные средства, требует огромных объемов высококачественных данных для обучения. Однако сбор реальных данных — это дорогостоящий и длительный процесс, доступный в основном лишь нескольким крупным технологическим компаниям. Платформа NVIDIA Cosmos решает эту проблему, используя передовые физические симуляции для генерации реалистичных синтетических данных в больших масштабах. Это позволяет инженерам обучать модели ИИ без затрат времени и средств, связанных со сбором информации в реальном мире, ускоряя создание безопасного и надежного ИИ для практического применения.
Физический ИИ представляет собой системы искусственного интеллекта, способные воспринимать, понимать и действовать в физическом мире. В отличие от традиционного ИИ, анализирующего текст или изображения, физический ИИ должен учитывать сложности реального мира: пространственные отношения, физические силы и динамическую среду. Например, беспилотный автомобиль должен распознавать пешеходов, прогнозировать их движение и корректировать свой маршрут в реальном времени, принимая во внимание погоду и дорожные условия. Аналогично, робот на складе должен обходить препятствия и точно манипулировать объектами.
Создание физического ИИ сопряжено с трудностями из-за необходимости в огромных массивах данных для обучения моделей на разнообразных реальных сценариях. Сбор таких данных, будь то часы записей поездок или демонстрации выполнения задач роботами, требует много времени и ресурсов. Кроме того, тестирование ИИ в реальных условиях может быть опасным, поскольку ошибки способны привести к авариям. NVIDIA Cosmos предлагает решение этих проблем через использование физически обоснованных симуляций для генерации реалистичных синтетических данных, упрощая и ускоряя разработку систем физического ИИ.
В основе NVIDIA Cosmos лежат базовые модели мира (world foundation models, WFMs) — специализированные ИИ-модели, предназначенные для симуляции виртуальных сред, максимально приближенных к физическому миру. Генерируя видео или сценарии с учетом физических законов, WFMs имитируют взаимодействие объектов на основе пространственных отношений и законов физики. Например, WFM может смоделировать поездку автомобиля во время ливня, показывая, как вода влияет на сцепление с дорогой или как фары отражаются от мокрой поверхности.
Базовые модели мира играют ключевую роль в физическом ИИ, предоставляя безопасное и контролируемое пространство для обучения и тестирования систем ИИ. Вместо сбора реальных данных разработчики могут использовать WFMs для генерации синтетических данных — реалистичных симуляций окружения и взаимодействий. Такой подход не только сокращает затраты, но и ускоряет процесс разработки, позволяя тестировать сложные и редкие сценарии, такие как необычные дорожные ситуации, без рисков, связанных с испытаниями в реальном мире. WFMs являются моделями общего назначения, которые можно донастраивать для конкретных приложений, подобно тому, как большие языковые модели адаптируются для задач перевода или создания чат-ботов.
NVIDIA Cosmos — это платформа, которая позволяет разработчикам создавать и настраивать WFMs для приложений физического ИИ, особенно в области автономных транспортных средств (AV) и робототехники. Cosmos объединяет передовые генеративные модели, инструменты обработки данных и функции безопасности для разработки ИИ-систем, взаимодействующих с физическим миром. Платформа является открытой, а ее модели доступны по разрешительным лицензиям.
Ключевые компоненты платформы включают генеративные базовые модели мира (WFMs) — предварительно обученные модели, симулирующие физические среды и взаимодействия; продвинутые токенизаторы — инструменты для эффективного сжатия и обработки данных для ускорения обучения моделей; а также ускоренный конвейер обработки данных — систему для работы с большими наборами данных, работающую на вычислительной инфраструктуре NVIDIA. Нововведением Cosmos является модель логического вывода для физического ИИ, которая дает разработчикам возможность создавать и изменять виртуальные миры, адаптируя симуляции под конкретные нужды, например, для проверки способности робота поднимать предметы или оценки реакции AV на внезапное препятствие.
NVIDIA Cosmos предлагает различные компоненты для решения специфических задач разработки физического ИИ. Модели Cosmos Transfer WFMs преобразуют структурированные видеовходы, такие как карты сегментации, карты глубины или данные лидаров, в управляемые фотореалистичные видеовыходы. Это особенно полезно для создания синтетических данных для обучения ИИ восприятия, например, систем помощи AV в идентификации объектов или роботов в распознавании окружения. Модели Cosmos Predict WFMs генерируют состояния виртуального мира на основе мультимодальных входных данных (текст, изображения, видео), могут предсказывать будущие сценарии и поддерживают многокадровую генерацию для сложных последовательностей. Разработчики могут настраивать эти модели для прогнозирования движений пешеходов или действий роботов. Модель Cosmos Reason WFM — это полностью настраиваемая WFM с пространственно-временным пониманием, способная анализировать видеоданные и предсказывать исходы событий, например, выход пешехода на переход или падение коробки с полки, используя логику «цепочки мыслей».
Платформа NVIDIA Cosmos уже оказывает заметное влияние на индустрию, будучи принятой рядом ведущих компаний для проектов в области физического ИИ. Среди первых пользователей — 1X, использующая Cosmos для продвинутой робототехники; Agility Robotics, расширяющая сотрудничество с NVIDIA для гуманоидных роботов; Figure AI, применяющая Cosmos для развития ИИ гуманоидных роботов, способных выполнять сложные задачи; Foretellix, использующая платформу для симуляции автономных транспортных средств и генерации широкого спектра тестовых сценариев; Skild AI, разрабатывающая ИИ-решения для различных приложений; Uber, интегрирующая Cosmos для улучшения обучающих данных для систем беспилотного вождения; Oxa, ускоряющая автоматизацию промышленной мобильности; и Virtual Incision, исследующая применение Cosmos в хирургической робототехнике для повышения точности в здравоохранении. Эти примеры демонстрируют универсальность Cosmos и ее способность удовлетворять потребности в синтетических данных для обучения физического ИИ в различных отраслях, от транспорта до медицины.
Запуск NVIDIA Cosmos имеет большое значение для развития систем физического ИИ. Предлагая открытую платформу с мощными инструментами и моделями, NVIDIA делает разработку физического ИИ доступной для более широкого круга разработчиков и организаций. Это может привести к значительным достижениям в нескольких областях. В автономном транспорте улучшенные данные для обучения и симуляции могут способствовать созданию более безопасных и надежных беспилотных автомобилей. В робототехнике ускоренная разработка роботов, способных выполнять сложные задачи, может трансформировать такие отрасли, как производство, логистика и здравоохранение. В медицине технологии, подобные хирургической робототехнике, могут повысить точность и результаты медицинских процедур.
Платформа NVIDIA Cosmos играет важную роль в развитии физического ИИ, позволяя разработчикам генерировать высококачественные синтетические данные с помощью предварительно обученных, физически обоснованных базовых моделей мира (WFMs) для создания реалистичных симуляций. Благодаря открытому доступу, передовым функциям и механизмам безопасности, Cosmos способствует более быстрой и эффективной разработке ИИ. Платформа уже стимулирует значительные достижения в таких отраслях, как транспорт, робототехника и здравоохранение, предоставляя синтетические данные для создания интеллектуальных систем, взаимодействующих с физическим миром.