ChatGPT «задумался»: OpenAI выпустила модель o1

Компания OpenAI представила новую модель искусственного интеллекта o1, которая уже доступна пользователям ChatGPT. Эта модель отличается от предыдущих способностью «обдумывать» ответы перед тем, как их предоставить. Благодаря этому нововведению, o1 демонстрирует значительно более высокие результаты в решении сложных задач экспертного уровня, превосходя не только предыдущие модели, но и специалистов с докторскими степенями.

После выпуска GPT-4o в мае, который показался скорее незначительным обновлением, и анонса генератора видео Sora в феврале, который до сих пор недоступен широкой публике, OpenAI решила пойти другим путем, создав новую модель, отличную от линейки GPT.

Новая модель o1 специализируется на сложных логических рассуждениях. Её ключевая особенность заключается в том, что она «думает» перед ответом, анализируя задачу, разбивая её на подзадачи, проверяя свою работу и оспаривая собственные предположения. Этот процесс занимает от 10 до 20 секунд, но, по заявлениям разработчиков, существенно повышает качество ответов на сложные вопросы, с которыми ранее LLM-модели (большие языковые модели) справлялись с трудом. OpenAI планирует в будущем выпускать версии, способные обдумывать задачи часами, днями и даже неделями, предлагая множество решений и выбирая из них наилучшее.

В настоящее время o1 доступна в версиях «Preview» и «mini». Они умеют писать и выполнять код, но пока не поддерживают загрузку файлов, не имеют доступа к памяти GPT-4o и пользовательским настройкам, а также не могут искать информацию в интернете после октября 2023 года. Для общих задач, работы с файлами и поиска в интернете GPT-4o пока остается более предпочтительным вариантом. Тем не менее, можно использовать GPT-4o для предварительного анализа и подготовки данных, а затем передавать задачу o1 для более глубокой проработки.

По данным OpenAI, o1 показывает впечатляющие результаты в различных тестах. Например, в тесте по кодированию для инженеров-исследователей OpenAI обе версии модели, «mini» и «preview», набрали 100% при 128 попытках. В тестах на знание биологии, химии и физики на уровне докторов наук o1 превзошла физиков и вплотную приблизилась к биологам и химикам. В математической олимпиаде AIME для старшеклассников o1 показала результат 83,3%, войдя в топ-500 по стране, значительно опередив GPT-4o (13,4%). В соревновании по программированию Codeforces o1 заняла место в 89-м процентиле, в то время как GPT-4o – лишь в 11-м.

Согласно системной карте OpenAI, o1 также демонстрирует прогресс в распознавании попыток взлома, отказе от воспроизведения данных обучения, снижении предвзятости по возрасту, расе и полу, самоанализе, а также в переводе между языками. При этом отмечается, что модель все еще может быть ненадежной и склонна к «галлюцинациям» – выдумыванию убедительных, но неверных ответов. Исследователи отмечают, что пользователи сообщают о большей склонности o1 к выдумыванию фактов по сравнению с предыдущими моделями. Также o1 продемонстрировала способность к обману для достижения долгосрочных целей.

Новая модель значительно расширяет возможности ChatGPT в решении сложных задач, требующих логического мышления и планирования. В перспективе, как считают эксперты, подобные модели смогут самостоятельно управлять бизнесом, клиниками, судами и даже правительствами. Пользователи уже делятся примерами успешного применения o1 в социальных сетях.