Google делает обучение искусственному интеллекту на 28% быстрее, используя SLM в качестве учителей

Обучение крупным языковым моделям (LLM) стало недоступным для большинства организаций. Поскольку затраты исчисляются миллионами, а требования к вычислениям заставляют суперкомпьютер потеть, разработка искусственного интеллекта остается за дверями технологических гигантов. Но Google только что перевернул эту историю с ног на голову, применив настолько простой подход, что вы задаетесь вопросом, почему никто не подумал об этом раньше: используя меньшие модели искусственного интеллекта в качестве учителей.

Как работает SALT: новый подход к обучению моделей ИИ

В недавней исследовательской работе под названием “A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LM,” Google Research и DeepMind представили SALT (Маленькая модель, помогающая обучению большим моделям). Это новый метод, бросающий вызов нашему традиционному подходу к обучению магистров права.

Почему это исследование значимо? В настоящее время обучение больших моделей искусственного интеллекта похоже на попытку научить кого-то всему, что ему нужно знать о предмете, сразу – это неэффективно, дорого и часто ограничивается организациями с огромными вычислительными ресурсами. SALT идет по другому пути, внедряя двухэтапный процесс обучения, который является одновременно инновационным и практичным.

Разбивка того, как на самом деле работает SALT:

Этап 1: Дистилляция знаний

    Меньшая языковая модель (SLM) действует как учитель, разделяя свое понимание с более крупной моделью
  • Меньшая модель фокусируется на передаче своих “изученных знаний” через то, что исследователи называют “мягких меток”
  • Подумайте об этом как о помощнике преподавателя, работающем с основополагающими концепциями, прежде чем ученик перейдет к продвинутым темам
  • Этот этап особенно эффективен в “регионах обучения easy” –, где меньшая модель имеет сильную прогностическую уверенность

Этап 2: Самостоятельное обучение

    Большая модель переходит к независимому обучению
  • Основное внимание уделяется освоению сложных шаблонов и сложных задач
  • Именно здесь модель развивает возможности, выходящие за рамки того, что могла бы предоставить ее меньшая “teacher”
  • При переходе между стадиями используются тщательно разработанные стратегии, включая линейное затухание и линейное снижение потери веса при дистилляции

С нетехнической точки зрения представьте, что меньшая модель искусственного интеллекта похожа на полезного наставника, который руководит более крупной моделью на начальных этапах обучения. Этот преподаватель предоставляет дополнительную информацию вместе с ответами, указывая, насколько он уверен в каждом ответе. Эта дополнительная информация, известная как “мягких меток,” помогает более крупной модели учиться быстрее и эффективнее.

Теперь, когда более крупная модель ИИ становится более способной, ей необходимо перейти от опоры на репетитора к самостоятельному обучению. Именно здесь в игру вступают “линейный распад” и “линейный коэффициент распад”. Думайте об этих методах как о постепенном уменьшении влияния наставника с течением времени:

  • Линейный распад: это все равно, что медленно уменьшать громкость голоса репетитора. Руководство преподавателя становится менее заметным с каждым шагом, что позволяет более крупной модели больше сосредоточиться на обучении на основе самих необработанных данных.
  • Распад линейного соотношения: это все равно, что корректировать баланс между советом наставника и реальной задачей. По мере прохождения обучения акцент все больше смещается в сторону исходной задачи, в то время как вклад наставника становится менее доминирующим.

Цель обоих методов — обеспечить плавный переход для более крупной модели ИИ, предотвращая любые внезапные изменения в ее обучающем поведении. 

Результаты убедительные. Когда исследователи Google протестировали SALT с использованием параметра SLM 1,5 миллиарда для обучения параметра LLM 2,8 миллиарда на наборе данных Pile, они увидели

    Сокращение времени обучения на 28% по сравнению с традиционными методами
  • Значительные улучшения производительности после точной настройки:
      Точность математических задач подскочила до 34,87% (по сравнению с базовым уровнем 31,84%)
    • Понимание прочитанного достигло точности 67% (по сравнению с 63,7%)

Но что делает SALT по-настоящему инновационной, так это ее теоретическая основа. Исследователи обнаружили, что даже модель “более слабых” учителей может повысить успеваемость учащегося, достигнув того, что они называют “благоприятным компромиссом между смещением и дисперсией.” Проще говоря, меньшая модель помогает более крупному более эффективно изучать фундаментальные закономерности, создавая более прочную основу для углубленного обучения.

Почему SALT может изменить правила разработки ИИ

Помните, когда облачные вычисления изменились, кто мог основать технологическую компанию? SALT может сделать то же самое для разработки искусственного интеллекта.

Я уже много лет слежу за инновациями в обучении ИИ, и большинство прорывов в основном принесли пользу технологическим гигантам. Но СОЛЬ — это другое.

Вот что это может означать для будущего:

Для организаций с ограниченными ресурсами:

    Возможно, вам больше не понадобится огромная вычислительная инфраструктура для разработки эффективных моделей искусственного интеллекта
  • Небольшие исследовательские лаборатории и компании могли бы экспериментировать с разработкой индивидуальных моделей
  • Сокращение времени обучения на 28% напрямую приводит к снижению затрат на вычисления
  • Что еще более важно, вы могли бы начать со скромных вычислительных ресурсов и при этом достичь профессиональных результатов

Для ландшафта развития искусственного интеллекта:

    На поле могло выйти больше игроков, что привело к появлению более разнообразных и специализированных решений искусственного интеллекта
  • Университеты и исследовательские институты могли бы проводить больше экспериментов со своими существующими ресурсами
  • Барьер для входа в исследования искусственного интеллекта значительно снижается
  • Мы можем увидеть новые приложения в областях, которые раньше не могли позволить себе разработку ИИ

Что это значит для будущего

Используя небольшие модели в качестве учителей, мы не просто делаем обучение ИИ более эффективным – мы также фундаментально меняем, кто может участвовать в разработке ИИ. Последствия выходят далеко за рамки только технических улучшений.

Основные выводы, которые следует иметь в виду:

    Сокращение времени обучения на 28% — это разница между запуском проекта искусственного интеллекта или рассмотрением его вне досягаемости
  • Повышение производительности (34,87% по математике, 67% по задачам чтения) показывает, что доступность не всегда означает компромисс в качестве
  • Подход SALT доказывает, что иногда лучшие решения приходят от переосмысления основ, а не просто добавления большей вычислительной мощности

За чем следить:

    Следите за небольшими организациями, которые начинают разрабатывать собственные модели искусственного интеллекта
  1. Следите за новыми приложениями в областях, которые ранее не могли позволить себе разработку ИИ
  2. Ищите инновации в том, как меньшие модели используются для специализированных задач

Помните: реальная ценность SALT заключается в том, как она может изменить того, кто внедряет инновации в искусственный интеллект. Независимо от того, руководите ли вы исследовательской лабораторией, управляете технической командой или просто заинтересованы в разработке искусственного интеллекта, это тот прорыв, который может сделать возможной вашу следующую большую идею.

Возможно, начните думать о том проекте искусственного интеллекта, который, по вашему мнению, был недосягаем. Возможно, это возможно больше, чем вы себе представляли.

+ There are no comments

Add yours