Компания OpenAI 16 апреля 2025 года представила обновленные версии своих передовых моделей искусственного интеллекта, специализирующихся на сложных рассуждениях. Новые модели, получившие названия o3 и o4-mini, приходят на смену своим предшественникам, o1 и o3-mini соответственно, предлагая пользователям повышенную производительность, расширенные функциональные возможности и большую доступность.
История развития больших языковых моделей OpenAI началась с GPT-2 и GPT-3, которые сделали технологию ChatGPT широко известной благодаря их способности генерировать связный и контекстуально релевантный текст. Эти модели нашли применение в таких задачах, как составление кратких изложений, перевод и ответы на вопросы. Однако по мере усложнения сценариев использования стали очевидны их ограничения, особенно в задачах, требующих глубоких логических рассуждений, последовательности и многоэтапного решения проблем. В ответ OpenAI выпустила GPT-4 и сместила акцент на улучшение именно мыслительных способностей своих моделей, что привело к созданию o1 и o3-mini. Обе эти модели использовали метод «цепочки мыслей», позволяющий им выстраивать более логичные и точные ответы путем пошаговых рассуждений. Модель o1 была ориентирована на решение самых сложных задач, тогда как o3-mini предлагала схожие возможности, но была более эффективной и экономичной.
Основываясь на этом фундаменте, OpenAI теперь представляет o3 и o4-mini, которые выводят способности ИИ к рассуждению на новый уровень. Эти модели разработаны для генерации еще более точных и продуманных ответов, особенно в технических областях, таких как программирование, математика и научный анализ, где логическая точность имеет решающее значение.
Ключевым усовершенствованием в o3 и o4-mini является их возросшая способность к сложным рассуждениям. В отличие от предыдущих моделей, стремившихся к быстрым ответам, новые ИИ тратят больше времени на обработку каждого запроса. Эта дополнительная обработка позволяет им проводить более глубокий анализ и выдавать более точные результаты, что подтверждается улучшенными показателями на специализированных тестах. Например, o3 превосходит o1 на 9% в тесте LiveBench.ai, который оценивает производительность в различных сложных задачах, включая логику, математику и программирование. В тесте SWE-bench, проверяющем способности к рассуждению в задачах разработки программного обеспечения, o3 достигла результата 69,1%, опередив даже конкурентные модели, такие как Gemini 2.5 Pro с 63,8%. При этом o4-mini показала на том же тесте 68,1%, предлагая почти такую же глубину рассуждений при значительно меньших затратах.
Одним из наиболее новаторских аспектов o3 и o4-mini стала их способность «думать с изображениями». Это означает, что они могут не только обрабатывать текстовую информацию, но и напрямую интегрировать визуальные данные в свой мыслительный процесс. Модели способны понимать и анализировать изображения, даже если они низкого качества, например, рукописные заметки, наброски или диаграммы. Пользователь может загрузить схему сложной системы, и модель проанализирует ее, выявит потенциальные проблемы или предложит улучшения. Эта возможность устраняет разрыв между текстовыми и визуальными данными, открывая путь к более интуитивному и всестороннему взаимодействию с ИИ. Обе модели могут выполнять такие действия, как увеличение деталей или поворот изображений для лучшего понимания. Эта мультимодальность является значительным шагом вперед по сравнению с предшественниками вроде o1, которые работали преимущественно с текстом, и открывает новые перспективы для образования, где важны наглядные пособия, и исследований, где диаграммы и графики играют центральную роль.
Модели o3 и o4-mini первыми среди разработок OpenAI научились одновременно использовать все доступные в ChatGPT инструменты. К ним относятся веб-браузер для получения актуальной информации, интерпретатор кода Python для выполнения сложных вычислений или анализа данных, а также инструменты для обработки и генерации изображений. Используя эти инструменты комплексно, o3 и o4-mini могут эффективнее решать сложные, многоэтапные задачи. Например, если вопрос требует свежих данных, модель может выполнить поиск в интернете. Если задача связана с анализом данных, она может запустить код Python для их обработки. Такая интеграция приближает нас к созданию более автономных ИИ-агентов, способных справляться с широким кругом задач без вмешательства человека. Выпуск Codex CLI, легковесного опенсорсного агента для написания кода, работающего с o3 и o4-mini, дополнительно расширяет их полезность для разработчиков.
Появление o3 и o4-mini имеет далеко идущие последствия для различных отраслей. В образовании эти модели могут помогать студентам и преподавателям, предоставляя подробные объяснения и визуальные материалы, делая обучение более интерактивным. Студент может загрузить набросок математической задачи, а модель предоставит пошаговое решение. В исследованиях ИИ способен ускорить научные открытия, анализируя сложные наборы данных, генерируя гипотезы и интерпретируя визуальную информацию, такую как графики и диаграммы, что неоценимо для физики или биологии. В промышленности они могут оптимизировать процессы, улучшать принятие решений и взаимодействие с клиентами, обрабатывая как текстовые, так и визуальные запросы, например, анализируя дизайн продукта или помогая в устранении технических неполадок.
В творческих сферах авторы могут использовать эти модели для превращения набросков глав в простые раскадровки, музыканты – для подбора визуального ряда к мелодии, монтажеры – для получения предложений по темпу фильма. Архитекторы могут преобразовывать нарисованные от руки планы этажей в детализированные 3D-чертежи с примечаниями о конструкции и экологичности. Для людей с ограниченными возможностями модели могут подробно описывать изображения для незрячих пользователей или преобразовывать диаграммы в визуальные последовательности и текст с субтитрами для неслышащих. Их способность переводить как слова, так и визуальные образы помогает преодолевать языковые и культурные барьеры.
Способность моделей одновременно просматривать веб-страницы, выполнять код и обрабатывать изображения закладывает основу для автономных агентов. Разработчики смогут описывать функциональность, а модель будет писать, тестировать и развертывать код. Офисные работники смогут делегировать сбор данных, анализ, визуализацию и написание отчетов единому ИИ-помощнику.
Несмотря на значительные достижения, у моделей o3 и o4-mini все еще есть ограничение по знаниям – их база данных обрывается на августе 2023 года. Это означает, что они не могут оперировать самой последней информацией о событиях или технологиях без использования встроенного веб-поиска. Вероятно, будущие версии будут направлены на улучшение интеграции данных в реальном времени. Можно ожидать дальнейшего прогресса в области автономных ИИ-агентов – систем, способных планировать, рассуждать, действовать и непрерывно обучаться с минимальным контролем. Интеграция инструментов, моделей рассуждений и доступа к данным в реальном времени в разработках OpenAI сигнализирует о движении именно в этом направлении.
Новые модели OpenAI, o3 и o4-mini, представляют собой важный шаг вперед благодаря улучшенным рассуждениям, мультимодальному пониманию и интеграции инструментов. Они стали точнее, универсальнее и полезнее для широкого спектра задач – от анализа сложных данных и генерации кода до интерпретации изображений. Эти достижения обладают потенциалом значительно повысить производительность и ускорить инновации во многих отраслях.