Connect with us

Google делает обучение ИИ на 28% быстрее, используя SLM в качестве учителей

Искусственный интеллект

Google делает обучение ИИ на 28% быстрее, используя SLM в качестве учителей

mm

Обучение больших языковых моделей (LLM) стало недоступным для большинства организаций. С затратами, исчисляемыми миллионами, и требованиями к вычислениям, которые бы заставили потеть суперкомпьютер, разработка ИИ осталась запертой за дверями технологических гигантов. Но Google только что перевернула эту историю с ног на голову, используя подход, настолько простой, что заставляет задуматься, почему никто не подумал об этом раньше: используя более мелкие модели ИИ в качестве учителей.

Как работает SALT: новый подход к обучению моделей ИИ

В недавней исследовательской работе под названием “Немного помощи может многое изменить: эффективное обучение LLM с помощью небольших моделей” исследователи Google и DeepMind представили SALT (Small model Aided Large model Training). Это новый метод, который бросает вызов нашему традиционному подходу к обучению LLM.

Почему это исследование значимо? В настоящее время обучение больших моделей ИИ похоже на попытку научить кого-то всему, что он должен знать о предмете одновременно – это неэффективно, дорого и часто ограничивается организациями с огромными вычислительными ресурсами. SALT предлагает другой путь, вводя двухэтапный процесс обучения, который одновременно инновационен и практичен.

Разберем, как на самом деле работает SALT:

Этап 1: дистилляция знаний

  • Более мелкая языковая модель (SLM) выступает в качестве учителя, делясь своим пониманием с более крупной моделью
  • Меньшая модель фокусируется на передаче своего “приобретенного знания” через то, что исследователи называют “мягкими метками”
  • Представьте себе помощника преподавателя, который занимается базовыми концепциями, прежде чем студент перейдет к более сложным темам
  • Этот этап особенно эффективен в “легких” регионах обучения – областях, где более мелкая модель имеет сильную предсказательную уверенность

Этап 2: самообучение

  • Большая модель переходит к самостоятельному обучению
  • Она фокусируется на освоении сложных закономерностей и сложных задач
  • Это то место, где модель развивает возможности, выходящие за рамки того, что могла предоставить ее более мелкая “учительница”
  • Переход между этапами использует тщательно разработанные стратегии, включая линейное затухание и линейное соотношение затухания веса потерь дистилляции

В не-технических терминах, представьте, что более мелкая модель ИИ похожа на полезного репетитора, который руководит более крупной моделью на начальном этапе обучения. Этот репетитор предоставляет дополнительную информацию вместе со своими ответами, указывая, насколько уверен он в каждом ответе. Эта дополнительная информация, известная как “мягкие метки”, помогает более крупной модели учиться быстрее и более эффективно.

Теперь, когда более крупная модель ИИ становится более способной, она должна перейти от полагания на репетитора к самостоятельному обучению. Именно здесь вступают в силу “линейное затухание” и “линейное соотношение затухания”.
Представьте себе эти техники как постепенное уменьшение влияния репетитора с течением времени:
  • Линейное затухание: Это похоже на медленное уменьшение громкости голоса репетитора. Руководство репетитора становится менее заметным с каждым шагом, позволяя более крупной модели сосредоточиться на обучении из сырых данных.
  • Линейное соотношение затухания: Это похоже на регулировку баланса между советом репетитора и самой задачей. По мере прогресса обучения акцент смещается в сторону исходной задачи, а вклад репетитора становится менее доминирующим.
Цель обоих методов – обеспечить плавный переход для более крупной модели ИИ, предотвращая любые внезапные изменения в ее поведении при обучении.

Результаты убедительны. Когда исследователи Google протестировали SALT, используя модель SLM с 1,5 миллиардами параметров для обучения модели LLM с 2,8 миллиардами параметров на наборе данных Pile, они увидели:

  • Снижение времени обучения на 28% по сравнению с традиционными методами
  • Значительные улучшения производительности после дообучения:
    • Точность решения математических задач возросла до 34,87% (по сравнению с 31,84% базовой)
    • Понимание чтения достигло 67% точности (по сравнению с 63,7%)

Но что делает SALT действительно инновационным, так это его теоретическая основа. Исследователи обнаружили, что даже “слабая” модель-учитель может повысить производительность ученика, достигая того, что они называют “благоприятным компромиссом между смещением и дисперсией”. В более простых терминах, более мелкая модель помогает более крупной учиться фундаментальным закономерностям более эффективно, создавая более прочный фундамент для дальнейшего обучения.

Почему SALT может изменить игровое поле разработки ИИ

Помните, когда облачные вычисления изменили, кто может начать технологическую компанию? SALT может сделать то же самое для разработки ИИ.

Я следил за инновациями в области обучения ИИ в течение многих лет, и большинство прорывов в основном приносили пользу технологическим гигантам. Но SALT отличается.

Вот, что это может означать для будущего:

Для организаций с ограниченными ресурсами:

  • Вам может больше не понадобиться огромная вычислительная инфраструктура для разработки способных моделей ИИ
  • Меньшие исследовательские лаборатории и компании могли бы экспериментировать с разработкой собственных моделей
  • Снижение времени обучения на 28% напрямую переводится в более низкие вычислительные затраты
  • Более того, вы могли бы начать с скромных вычислительных ресурсов и все равно добиться профессиональных результатов

Для ландшафта разработки ИИ:

  • Больше игроков могли бы войти на поле, что приведет к более разнообразным и специализированным решениям ИИ
  • Университеты и исследовательские учреждения могли бы проводить больше экспериментов со своими существующими ресурсами
  • Порог входа для исследований ИИ значительно снижается
  • Мы могли бы увидеть новые применения в областях, которые ранее не могли позволить себе разработку ИИ

Что это значит для будущего

Используя более мелкие модели в качестве учителей, мы не только делаем обучение ИИ более эффективным, но и фундаментально меняем, кто может участвовать в разработке ИИ. Последствия выходят далеко за рамки простых технических улучшений.

Ключевые выводы, которые следует помнить:

  • Снижение времени обучения на 28% – это разница между началом проекта ИИ или рассмотрением его как недоступного
  • Улучшения производительности (34,87% на математических задачах, 67% на задачах чтения) показывают, что доступность не всегда означает компромисс в качестве
  • Подход SALT доказывает, что иногда лучшие решения исходят из переосмысления фундаментальных принципов, а не просто добавления большей вычислительной мощности

Что следует наблюдать:

  1. Следите за тем, как более мелкие организации начинают разрабатывать собственные модели ИИ
  2. Наблюдайте за новыми применениями в областях, которые ранее не могли позволить себе разработку ИИ
  3. Ищите инновации в том, как более мелкие модели используются для специализированных задач

Помните: Реальная ценность SALT заключается в том, как он может изменить, кто может инновировать в ИИ. Будете ли вы управлять исследовательской лабораторией, командой технологий или просто интересуетесь разработкой ИИ, этот прорыв может сделать вашу следующую большую идею возможной.

Может быть, начните думать о том проекте ИИ, который вы считали недоступным. Он может быть более возможным, чем вы представляли.

Алекс Макфарленд - журналист и писатель в области искусственного интеллекта, исследующий последние разработки в этой области. Он сотрудничал с многочисленными стартапами и изданиями в области искусственного интеллекта во всем мире.