В последние годы сфера искусственного интеллекта находится под впечатлением от успехов больших языковых моделей (LLM). Изначально созданные для обработки естественного языка, эти модели превратились в мощные инструменты рассуждения, способные решать сложные задачи, имитируя пошаговый мыслительный процесс человека. Однако, несмотря на их выдающиеся способности к рассуждению, у больших моделей есть существенные недостатки. Высокие вычислительные затраты и низкая скорость развертывания делают их непрактичными для реального использования в условиях ограниченных ресурсов, например, на мобильных устройствах или в периферийных вычислениях. Это привело к росту интереса к разработке меньших, более эффективных моделей, которые могут предложить аналогичные возможности рассуждения, минимизируя при этом затраты и требования к ресурсам.
Наблюдается смена парадигмы в развитии искусственного интеллекта. Долгое время в этой области доминировал принцип «законов масштабирования», согласно которому производительность моделей предсказуемо улучшается с увеличением объема данных, вычислительной мощности и размера самой модели. Хотя такой подход позволил создать мощные ИИ-системы, он сопряжен со значительными компромиссами, включая высокие затраты на инфраструктуру, воздействие на окружающую среду и проблемы с задержками при обработке запросов. Становится очевидно, что не всем приложениям требуются все возможности гигантских моделей с сотнями миллиардов параметров. Во многих практических случаях, например, для ассистентов на устройствах, в здравоохранении и образовании, меньшие модели могут достигать схожих результатов, если они способны эффективно рассуждать.
Рассуждение в контексте искусственного интеллекта означает способность модели следовать логическим цепочкам, понимать причинно-следственные связи, делать выводы, планировать шаги в процессе и выявлять противоречия. Для языковых моделей это часто подразумевает не только извлечение информации, но и ее обработку и вывод нового знания через структурированный, пошаговый подход. Такой уровень рассуждения обычно достигается путем дообучения больших языковых моделей для выполнения многоэтапного анализа перед выдачей ответа. Хотя эти методы эффективны, они требуют значительных вычислительных ресурсов, а их развертывание может быть медленным и дорогостоящим, что вызывает озабоченность по поводу их доступности и экологического следа.
Малые модели рассуждения (SRM) стремятся воспроизвести логические способности больших моделей, но с гораздо большей эффективностью с точки зрения вычислительной мощности, использования памяти и времени отклика. Эти модели часто используют метод, известный как «дистилляция знаний». В этом процессе меньшая модель, «ученик», обучается у большей, предварительно обученной модели, «учителя». Цель дистилляции – передать способность к рассуждению от большой модели к маленькой, обучая последнюю на данных, сгенерированных «учителем». Затем модель-«ученик» дополнительно дообучается для улучшения производительности. В некоторых случаях применяется обучение с подкреплением со специализированными функциями вознаграждения для конкретной предметной области, чтобы еще больше улучшить способность модели выполнять специфические для задачи рассуждения.
Заметной вехой в развитии малых моделей рассуждения стал выпуск DeepSeek-R1. Несмотря на обучение на относительно скромном кластере старых графических процессоров, DeepSeek-R1 достиг производительности, сравнимой с более крупными моделями, такими как o1 от OpenAI, на стандартных тестах, таких как MMLU и GSM-8K. Это достижение заставило пересмотреть традиционный подход к масштабированию, который предполагал, что более крупные модели по своей сути превосходят меньшие. Успех DeepSeek-R1 объясняется его инновационным процессом обучения, который сочетал крупномасштабное обучение с подкреплением без опоры на контролируемое дообучение на ранних этапах. Эта инновация привела к созданию DeepSeek-R1-Zero, модели, продемонстрировавшей впечатляющие способности к рассуждению по сравнению с большими аналогами. Дальнейшие усовершенствования, такие как использование данных «холодного старта», повысили согласованность и точность выполнения задач моделью, особенно в математике и программировании.
Кроме того, методы дистилляции оказались решающими для разработки меньших и более эффективных моделей на основе крупных. Например, компания DeepSeek выпустила дистиллированные версии своих моделей размером от 1,5 до 70 миллиардов параметров. Используя эти подходы, исследователи обучили сравнительно небольшую модель DeepSeek-R1-Distill-Qwen-32B, которая превзошла o1-mini от OpenAI по различным тестам. Такие модели теперь можно развертывать на стандартном оборудовании, что делает их более жизнеспособным вариантом для широкого спектра приложений.
Чтобы оценить, могут ли малые модели рассуждения (SRM) сравниться по логическим возможностям с большими моделями (LRM) уровня GPT, важно проанализировать их производительность на стандартных тестах. Например, модель DeepSeek-R1 набрала около 0,844 балла в тесте MMLU, что сопоставимо с более крупными моделями, такими как o1. На наборе данных GSM-8K, который фокусируется на математических задачах уровня начальной школы, дистиллированная модель DeepSeek-R1 показала одни из лучших результатов, превзойдя и o1, и o1-mini. В задачах по программированию, таких как тесты на платформах LiveCodeBench и CodeForces, дистиллированные модели DeepSeek-R1 показали результаты, аналогичные o1-mini и GPT-4o, демонстрируя сильные способности к рассуждению в области кодирования. Однако большие модели все еще имеют преимущество в задачах, требующих более широкого понимания языка или обработки больших объемов контекста, поскольку меньшие модели, как правило, более специализированы.
Несмотря на свои сильные стороны, малые модели могут испытывать трудности с задачами, требующими длительных рассуждений, или при столкновении с данными, выходящими за рамки их распределения при обучении. Например, в симуляциях игры в шахматы с помощью языковых моделей DeepSeek-R1 совершал больше ошибок, чем крупные модели, что указывает на ограничения в его способности поддерживать концентрацию и точность в течение длительного времени.
Компромиссы между размером модели и производительностью являются ключевыми при сравнении SRM с LRM уровня GPT. Меньшие модели требуют меньше памяти и вычислительной мощности, что делает их идеальными для периферийных устройств, мобильных приложений или ситуаций, где необходима работа в автономном режиме. Эта эффективность приводит к снижению эксплуатационных расходов: запуск моделей вроде DeepSeek-R1 может быть до 96% дешевле, чем использование больших моделей, таких как o1. Однако эти выгоды в эффективности достигаются ценой определенных уступок. Меньшие модели обычно дообучаются для конкретных задач, что может ограничивать их универсальность по сравнению с более крупными аналогами. Например, хотя DeepSeek-R1 отлично справляется с математикой и программированием, ему не хватает мультимодальных возможностей, таких как способность интерпретировать изображения, с которыми могут работать большие модели вроде GPT-4o.
Несмотря на эти ограничения, практическое применение малых моделей рассуждения огромно. В здравоохранении они могут использоваться для создания диагностических инструментов, анализирующих медицинские данные на стандартных больничных серверах. В образовании их можно применять для разработки персонализированных систем обучения, предоставляющих пошаговую обратную связь учащимся. В научных исследованиях они могут помочь в анализе данных и проверке гипотез в таких областях, как математика и физика. Открытый исходный код моделей, таких как DeepSeek-R1, также способствует сотрудничеству и демократизирует доступ к ИИ, позволяя небольшим организациям использовать передовые технологии.
Эволюция языковых моделей в сторону создания меньших по размеру, но способных к рассуждению систем представляет собой значительный прогресс в области искусственного интеллекта. Хотя эти модели, возможно, еще не полностью соответствуют широким возможностям гигантских языковых моделей, они предлагают ключевые преимущества в эффективности, экономичности и доступности. Находя баланс между способностью к рассуждению и эффективностью использования ресурсов, малые модели готовы сыграть решающую роль в различных приложениях, делая искусственный интеллект более практичным и устойчивым для использования в реальном мире.