Искусственный интеллект
Возрождение малых моделей рассуждения: могут ли компактные модели ИИ соответствовать уровню рассуждения GPT?

В последние годы область ИИ была увлечена успехом крупных языковых моделей (LLM). Первоначально разработанные для обработки естественного языка, эти модели эволюционировали в мощные инструменты рассуждения, способные решать сложные проблемы с помощью шаг за шагом мыслительного процесса, подобного человеческому. Однако, несмотря на их исключительные способности рассуждения, LLM имеют значительные недостатки, включая высокие вычислительные затраты и медленные скорости развертывания, что делает их непрактичными для реального использования в ресурсо-ограниченных средах, таких как мобильные устройства или краевой вычисления. Это привело к растущему интересу к разработке более мелких, эффективных моделей, которые могут предложить аналогичные возможности рассуждения, минимизируя затраты и требования к ресурсам. Эта статья исследует рост этих малых моделей рассуждения, их потенциал, проблемы и последствия для будущего ИИ.
Смена перспективы
На протяжении большей части недавней истории ИИ эта область следовала принципу “законов масштабирования”, который предполагает, что производительность модели улучшается предсказуемо по мере увеличения данных, вычислительной мощности и размера модели. Хотя этот подход дал мощные модели, он также привел к значительным компромиссам, включая высокие затраты на инфраструктуру, воздействие на окружающую среду и проблемы с задержкой. Не все приложения требуют полных возможностей массивных моделей с сотнями миллиардов параметров. Во многих практических случаях – таких как помощники на устройстве, здравоохранение и образование – более мелкие модели могут достигать аналогичных результатов, если они могут эффективно рассуждать.
Понимание рассуждений в ИИ
Рассуждения в ИИ относятся к способности модели следовать логическим цепочкам, понимать причину и следствие, выводить последствия, планировать шаги в процессе и выявлять противоречия. Для языковых моделей это часто означает не только извлечение информации, но и манипулирование и вывод информации через структурированный, шаг за шагом подход. Этот уровень рассуждений обычно достигается путем тонкой настройки LLM для выполнения многоступенчатого рассуждения перед получением ответа. Хотя этот метод эффективен, он требует значительных вычислительных ресурсов и может быть медленным и дорогим для развертывания, что вызывает обеспокоенность по поводу их доступности и воздействия на окружающую среду.
Понимание малых моделей рассуждения
Малые модели рассуждения стремятся воспроизвести возможности рассуждения крупных моделей, но с большей эффективностью в плане вычислительной мощности, использования памяти и задержки. Эти модели часто используют технику дистилляции знаний, при которой более мелкая модель ( “ученик”) учится у более крупной, предварительно обученной модели ( “учитель”). Процесс дистилляции включает в себя обучение более мелкой модели на данных, сгенерированных более крупной моделью, с целью передачи способности рассуждения. Модель ученика затем донастраивается для улучшения ее производительности. В некоторых случаях реинфорсментное обучение с специализированными доменными специфичными функциями вознаграждения применяется для дальнейшего улучшения способности модели выполнять задачи-специфичные рассуждения.
Рост и достижения малых моделей рассуждения
Заметным этапом в разработке малых моделей рассуждения стало выпуск DeepSeek-R1. Несмотря на то, что она была обучена на относительно скромном кластере старых GPU, DeepSeek-R1 достигла производительности, сравнимой с более крупными моделями, такими как OpenAI’s o1 на бенчмарках, таких как MMLU и GSM-8K. Это достижение привело к переоценке традиционного подхода к масштабированию, который предполагал, что более крупные модели являются по своей сути превосходящими.
Успех DeepSeek-R1 можно отнести к ее инновационному процессу обучения, который объединил крупномасштабное реинфорсментное обучение без использования тонкой настройки в ранних фазах. Этот инновационный подход привел к созданию DeepSeek-R1-Zero, модели, которая продемонстрировала впечатляющие способности рассуждения по сравнению с крупными моделями рассуждения. Дальнейшие улучшения, такие как использование холодных стартовых данных, повысили когерентность модели и выполнение задач, особенно в таких областях, как математика и кодирование.
Кроме того, техники дистилляции оказались важными в разработке более мелких, эффективных моделей из более крупных. Например, DeepSeek выпустил дистиллированные версии своих моделей, размер которых варьируется от 1,5 миллиарда до 70 миллиардов параметров. Используя эти модели, исследователи обучили гораздо более мелкую модель DeepSeek-R1-Distill-Qwen-32B, которая превзошла OpenAI’s o1-mini на различных бенчмарках. Эти модели теперь могут быть развернуты на стандартном оборудовании, что делает их более жизнеспособным вариантом для широкого спектра приложений.
Могут ли малые модели соответствовать уровню рассуждения GPT
Чтобы оценить, могут ли малые модели рассуждения (SRM) соответствовать силе рассуждения крупных моделей (LRM), таких как GPT, важно оценить их производительность на стандартных бенчмарках. Например, модель DeepSeek-R1 получила около 0,844 на тесте MMLU, что сопоставимо с более крупными моделями, такими как o1. На наборе данных GSM-8K, который фокусируется на математике начальной школы, дистиллированная модель DeepSeek-R1 достигла топ-уровневой производительности, превзойдя как o1, так и o1-mini.
В задачах кодирования, таких как те, что на LiveCodeBench и CodeForces, дистиллированные модели DeepSeek-R1 показали аналогичную производительность с o1-mini и GPT-4o, демонстрируя сильные способности рассуждения в программировании. Однако более крупные модели все еще имеют преимущество в задачах, требующих более широкого понимания языка или обработки длинных контекстных окон, поскольку более мелкие модели склонны быть более задачно-специфичными.
Несмотря на их сильные стороны, малые модели могут испытывать трудности с расширенными задачами рассуждения или когда сталкиваются с данными, находящимися вне распределения. Например, в симуляциях шахмат LLM DeepSeek-R1 сделала больше ошибок, чем более крупные модели, что указывает на ограничения в ее способности поддерживать внимание и точность в течение длительного времени.
Компромиссы и практические последствия
Компромиссы между размером модели и производительностью являются важными при сравнении SRM с GPT-уровневыми LRM. Более мелкие модели требуют меньше памяти и вычислительной мощности, что делает их идеальными для краевых устройств, мобильных приложений или ситуаций, когда требуется офлайн-инференция. Эта эффективность приводит к снижению операционных затрат, с моделями, такими как DeepSeek-R1, которые могут быть до 96% дешевле в эксплуатации, чем более крупные модели, такие как o1.
Однако эти выгоды от эффективности приходят с некоторыми компромиссами. Более мелкие модели обычно донастраиваются для конкретных задач, что может ограничить их универсальность по сравнению с более крупными моделями. Например, хотя DeepSeek-R1 превосходно справляется с математикой и кодированием, она отсутствует многомодальными возможностями, такими как способность интерпретировать изображения, которые более крупные модели, такие как GPT-4o, могут обрабатывать.
Несмотря на эти ограничения, практические применения малых моделей рассуждения являются обширными. В здравоохранении они могут питать диагностические инструменты, которые анализируют медицинские данные на стандартных серверах больниц. В образовании они могут быть использованы для разработки персонализированных систем обучения, предоставляющих пошаговую обратную связь студентам. В научных исследованиях они могут помочь в анализе данных и проверке гипотез в таких областях, как математика и физика. Открытый характер моделей, таких как DeepSeek-R1, также способствует сотрудничеству и демократизирует доступ к ИИ, позволяя более мелким организациям использовать передовые технологии.
Основной вывод
Эволюция языковых моделей в более мелкие модели рассуждения является значительным достижением в ИИ. Хотя эти модели могут еще не полностью соответствовать широким возможностям крупных языковых моделей, они предлагают ключевые преимущества в эффективности, экономичности и доступности. Найдя баланс между силой рассуждения и эффективностью ресурсов, более мелкие модели готовы сыграть важную роль в различных приложениях, что делает ИИ более практичным и устойчивым для реального использования.












