Модели поведения ИИ, управляющие взаимодействием роботов с физическим миром, не развивались так же стремительно, как языковые модели типа GPT, но новые «симуляторы мира» в стиле мультивселенной от Nvidia и Google могут быстро изменить ситуацию. Прогресс в области робототехники сдерживается проблемой «курицы и яйца»: большие языковые модели (LLM) ИИ извлекают выгоду из огромных объемов данных для обучения, поскольку Интернет уже содержит огромное количество текста, изображений, видео и аудио. Однако для больших моделей поведения (LBM) ИИ данных для обучения гораздо меньше. Роботы и автономные транспортные средства дороги и сложны в физическом плане, поэтому сбор данных о трехмерных представлениях реальных физических ситуаций занимает гораздо больше времени.
Именно поэтому Tesla стремилась как можно раньше внедрить оборудование для автономного вождения в свои автомобили, чтобы получить преимущество в сборе данных и занять лидирующие позиции в области автономных транспортных средств. Недавние анонсы от Nvidia и Google Deepmind предполагают, что этот «узкое место» в данных скоро будет устранено, что приведет к значительному ускорению развития физического ИИ. Идея состоит в том, чтобы генерировать огромные объемы достоверных обучающих данных с помощью симуляторов мира, которые могут взять одну реальную ситуацию (или даже текстовую подсказку), создать ее виртуальную модель, а затем разделить ее на теоретически бесконечное число немного отличающихся ситуаций. Например, имея данные с шести камер автономного автомобиля, едущего по улице в ясный летний день, можно виртуализировать эти данные, создать трехмерное представление мира и использовать его для генерации множества немного отличающихся ситуаций: воссоздать ту же ситуацию в 100 различных времен суток, при 100 различных погодных условиях (дождь, снег, сильный ветер, туман).
Затем можно разделить виртуальные миры для каждого из этих сценариев, в которых другие транспортные средства, пешеходы, животные или объекты действуют немного по-разному, создавая совершенно новую ситуацию для автономного автомобиля. Можно смоделировать падение предметов в 100 различных направлениях, а также всевозможные крайние случаи, маловероятные в реальном мире. И, конечно, можно разделить различные миры от каждого из них, в которых сам автономный автомобиль реагирует и выбирает различные варианты действий. Затем можно взять это смоделированное трехмерное представление мира и, работая в обратном направлении, сгенерировать высококачественные смоделированные видеопотоки для всех шести камер исходного автомобиля, а также потоки данных для любых других датчиков, которые может иметь роботизированная система. Таким образом, единственный исходный фрагмент данных может превратиться в тысячи или миллионы похожих, но немного отличающихся сценариев обучения, сгенерированных с использованием передовых симуляторов физики и материалов.
Дженсен Хуанг, основатель и генеральный директор Nvidia, анонсируя запуск модели симуляции мира Cosmos, заявил, что для робототехники наступает «момент ChatGPT». Как и большие языковые модели, мировые базовые модели имеют основополагающее значение для развития роботов и автономных транспортных средств, однако не все разработчики обладают опытом и ресурсами для обучения собственных моделей. Cosmos был создан, чтобы демократизировать физический ИИ и сделать общую робототехнику доступной для каждого разработчика. Модель Cosmos также может работать в режиме реального времени, обеспечивая моделям ИИ возможность предвидения и моделирования мультивселенной, генерируя все возможные варианты будущего, чтобы помочь модели выбрать правильный путь. Требования к данным и вычислительным ресурсам для этого будут огромными, и Nvidia попыталась решить эту проблему с помощью собственного токенизатора Cosmos, который может превращать изображения и видео в токены, обрабатываемые моделями ИИ с использованием примерно 1/8 объема данных, необходимых современным токенизаторам, обеспечивая 12-кратное увеличение скорости обработки. Ряд компаний, включая 1X, Figure AI, Fourier, Agility, Xpeng, Uber, Waavi и Wayve, уже внедряют Cosmos для ускорения обучения роботов.
Google Deepmind запускает собственную аналогичную инициативу. Тим Брукс, бывший руководитель OpenAI Sora, который сейчас возглавляет команду Deepmind по генерации видео и моделированию мира, заявил, что масштабирование предварительного обучения на видео и мультимодальных данных является критически важным шагом на пути к общему искусственному интеллекту (AGI). Модели мира будут использоваться во многих областях, таких как визуальное мышление и моделирование, планирование для воплощенных агентов и интерактивные развлечения в реальном времени. Прогресс в области ИИ происходит стремительно, и LBM, воплощенные в роботах (человекоподобных, транспортных и других), потенциально могут заменить работников, занятых физическим трудом. Эта технология обещает фундаментально изменить мир в ближайшие годы, а моделирование мультивселенной может значительно ускорить прогресс в направлении экономики, свободной от труда.