Традиционная мудрость ИИ предполагает, что построение больших языковых моделей (LLM) требует глубоких карманов –, как правило, миллиардов инвестиций. Но DeepSeek, китайский стартап в области искусственного интеллекта, только что разрушил эту парадигму своим последним достижением: разработкой модели искусственного интеллекта мирового класса всего за 5,6 миллиона долларов.
Модель V3 от DeepSeek может идти рука об руку с гигантами отрасли, такими как Gemini от Google и последние предложения OpenAI, при этом используя часть типичных вычислительных ресурсов. Это достижение привлекло внимание многих лидеров отрасли, и что делает его особенно примечательным, так это то, что компания добилась этого, несмотря на то, что столкнулась с экспортными ограничениями США, которые ограничивали их доступ к новейшим чипам Nvidia.
Экономика эффективного ИИ
Цифры рассказывают убедительную историю эффективности. В то время как большинству передовых моделей искусственного интеллекта для обучения требуется от 16 000 до 100 000 графических процессоров, DeepSeek удалось использовать всего 2048 графических процессоров, работающих в течение 57 дней. Обучение модели заняло 2,78 миллиона часов графического процессора на чипах Nvidia H800, что удивительно скромно для модели с 671 миллиардом параметров.
Чтобы представить это в перспективе, Meta потребовалось около 30,8 миллионов часов графического процессора – примерно в 11 раз больше вычислительной мощности –, чтобы обучить свою модель Llama 3, которая на самом деле имеет меньше параметров — 405 миллиардов. Подход DeepSeek напоминает мастер-класс по оптимизации в условиях ограничений. Работая с графическими процессорами H800 – AI чипы, разработанные Nvidia специально для китайского рынка с уменьшенными возможностями – компания превратила потенциальные ограничения в инновации. Вместо того, чтобы использовать готовые решения для связи процессоров, они разработали специальные решения, которые максимизируют эффективность.
В то время как конкуренты продолжают действовать, исходя из предположения, что необходимы масштабные инвестиции, DeepSeek демонстрирует, что изобретательность и эффективное использование ресурсов могут уравнять правила игры.
Инжиниринг невозможного
Достижение DeepSeek заключается в его инновационном техническом подходе, демонстрирующем, что иногда наиболее впечатляющие прорывы происходят из-за работы в рамках ограничений, а не из-за использования неограниченных ресурсов для решения проблемы.
В основе этого нововведения лежит стратегия под названием “вспомогательная-без потерь балансировка нагрузки.” Подумайте об этом как о создании массивной системы параллельной обработки, где традиционно вам нужны сложные правила и штрафы, чтобы все работало гладко. DeepSeek перевернул эту общепринятую точку зрения с ног на голову, разработав систему, которая естественным образом поддерживает баланс без накладных расходов на традиционные подходы.
Команда также стала пионером того, что они называют “Multi-Token Prediction” (MTP) – — метод, который позволяет модели думать вперед, предсказывая несколько токенов одновременно. На практике это означает впечатляющий уровень принятия этих прогнозов по различным темам в 85-90%, что обеспечивает в 1,8 раза более высокую скорость обработки, чем предыдущие подходы.
Сама по себе техническая архитектура — шедевр эффективности. V3 от DeepSeek использует подход, основанный на сочетании экспертов, с общим количеством параметров 671 миллиард, но вот умная часть –, которая активирует только 37 миллиардов для каждого токена. Эта избирательная активация означает, что они получают преимущества массивной модели, сохраняя при этом практическую эффективность.
Их выбор смешанной точной системы обучения FP8 является еще одним шагом вперед. Вместо того, чтобы принимать традиционные ограничения пониженной точности, они разработали специальные решения, которые сохраняют точность, одновременно значительно снижая требования к памяти и вычислениям.
Эффекты пульсации в экосистеме искусственного интеллекта
Влияние достижений DeepSeek выходит далеко за рамки одной успешной модели.
Для европейского развития ИИ этот прорыв особенно значителен. Многие продвинутые модели не попадают в ЕС, потому что такие компании, как Meta и OpenAI, либо не могут, либо не будут адаптироваться к закону ЕС об искусственном интеллекте Подход DeepSeek показывает, что построение передового искусственного интеллекта не всегда требует массивных кластеров графических процессоров – речь идет скорее об эффективном использовании доступных ресурсов.
Это развитие также показывает, как экспортные ограничения могут на самом деле стимулировать инновации. Ограниченный доступ DeepSeek к высокопроизводительному оборудованию заставил их думать иначе, что привело к оптимизации программного обеспечения, которая, возможно, никогда не появилась бы в среде, богатой ресурсами. Этот принцип может изменить наш подход к развитию искусственного интеллекта во всем мире.
Последствия демократизации глубоки. В то время как гиганты отрасли продолжают прожигать миллиарды, DeepSeek создал план эффективной и экономически выгодной разработки искусственного интеллекта. Это может открыть двери для небольших компаний и исследовательских институтов, которые раньше не могли конкурировать из-за ограниченности ресурсов.
Однако это не означает, что крупномасштабная вычислительная инфраструктура устаревает. Отрасль смещает фокус в сторону масштабирования времени вывода – сколько времени требуется модели для генерации ответов. Поскольку эта тенденция сохраняется, значительные вычислительные ресурсы по-прежнему будут необходимы, вероятно, тем более с течением времени.
Но DeepSeek принципиально изменил разговор. Долгосрочные последствия очевидны: мы вступаем в эпоху, когда инновационное мышление и эффективное использование ресурсов могут иметь большее значение, чем просто вычислительная мощность. Для сообщества ИИ это означает сосредоточение внимания не только на том, какие ресурсы у нас есть, но и на том, насколько творчески и эффективно мы их используем.
+ There are no comments
Add yours