Искусственный интеллект

Tülu 3 от Allen AI стал неожиданным конкурентом DeepSeek

обновлено on 1 февраля 2025

Заголовки продолжают появляться. Модели DeepSeek бросали вызов эталонам, устанавливали новые стандарты и производили много шума. Но на сцене исследований ИИ только что произошло нечто интересное, что также заслуживает вашего внимания.

Аллен AI тихо выпустили свой новый Тулу 3 семейство моделей, а также их версия с параметрами 405B не просто конкурируют с DeepSeek — они соответствуют ему или превосходят его по ключевым показателям.

Давайте рассмотрим это в перспективе.

Модель 405B Tülu 3 будет соревноваться с такими лидерами, как ДипСик V3 по целому ряду задач. Мы видим сопоставимую или превосходящую производительность в таких областях, как математические задачи, проблемы кодирования и точное выполнение инструкций. И они также делают это с полностью открытым подходом.

Они выпустили полный процесс обучения, код и даже свой новый метод обучения с подкреплением под названием «Обучение с подкреплением и проверяемыми вознаграждениями» (RLVR), который сделал это возможным.

Подобные разработки за последние несколько недель действительно меняют то, как происходит разработка ИИ высшего уровня. Когда полностью модель с открытым исходным кодом может сравниться с лучшими закрытыми моделями, он открывает возможности, которые ранее были заперты за стенами частных корпораций.

Техническая битва

Чем выделяется Tülu 3? Это уникальный четырехэтапный процесс обучения, который выходит за рамки традиционных подходов.

Давайте посмотрим, как Allen AI построил эту модель:

Этап 1: Стратегический выбор данных

Команда знала, что качество модели начинается с качества данных. Они объединили установленные наборы данных, такие как WildChat и Открыть Ассистент с индивидуально сгенерированным контентом. Но вот ключевое понимание: они не просто агрегировали данные — они создавали целевые наборы данных для определенных навыков, таких как математическое мышление и владение кодом.

Этап 2: Формирование лучших ответов

На втором этапе Allen AI сосредоточился на обучении своих моделей специфическим навыкам. Они создали разные наборы обучающих данных — некоторые для математики, другие для кодирования и больше для общих задач. Многократно тестируя эти комбинации, они могли точно увидеть, где модель преуспела, а где ей нужно было поработать. Этот итеративный процесс выявил истинный потенциал того, чего Tülu 3 может достичь в каждой области.

Этап 3: Извлечение уроков из сравнений

Вот где Allen AI проявил креативность. Они построили систему, которая могла мгновенно сравнивать ответы Tülu 3 с ответами других топовых моделей. Но они также решили постоянную проблему в ИИ — тенденцию моделей писать длинные ответы просто ради длины. Их подход, используя Нормализованная по длине прямая оптимизация предпочтений (DPO), означало, что модель научилась ценить качество больше, чем количество. Результат? Ответы, которые одновременно точны и целенаправленны.

Когда модели ИИ учатся на предпочтениях (какой ответ лучше, A или B?), у них, как правило, развивается раздражающее предубеждение: они начинают думать, что более длинные ответы всегда лучше. Это похоже на то, что они пытаются победить, говоря больше, а не говоря что-то хорошо.

Нормализованный по длине DPO исправляет это, корректируя то, как модель учится на предпочтениях. Вместо того, чтобы просто смотреть, какой ответ был предпочтителен, он учитывает длину каждого ответа. Думайте об этом как об оценке ответов по их качеству на слово, а не только по их общему влиянию.

Почему это важно? Потому что это помогает Tülu 3 научиться быть точным и эффективным. Вместо того, чтобы дополнять ответы дополнительными словами, чтобы казаться более исчерпывающими, он учится предоставлять ценность в той длине, которая действительно необходима.

Это может показаться незначительной деталью, но это имеет решающее значение для создания ИИ, который общается естественным образом. Лучшие эксперты-люди знают, когда нужно быть кратким, а когда — подробным — и это именно то, чему нормализованный по длине DPO помогает научить модель.

Этап 4: Инновация RLVR

Это технический прорыв, который заслуживает внимания. RLVR заменяет субъективные модели вознаграждения конкретной проверкой.

Большинство моделей ИИ обучаются через сложную систему моделей вознаграждения – по сути, обоснованные догадки о том, что делает ответ хорошим. Но ИИ Аллена пошел по другому пути с RLVR.

Подумайте о том, как мы сейчас обучаем модели ИИ. Обычно нам нужны другие модели ИИ (называемые моделями вознаграждения), чтобы судить, хорош ответ или нет. Это субъективно, сложно и часто непоследовательно. Некоторые ответы могут казаться хорошими, но содержать тонкие ошибки, которые проскальзывают.

RLVR переворачивает этот подход с ног на голову. Вместо того чтобы полагаться на субъективные суждения, он использует конкретные, проверяемые результаты. Когда модель пытается решить математическую задачу, нет серой зоны — ответ либо правильный, либо неправильный. Когда он пишет код, этот код либо работает правильно, либо нет.

А вот тут начинается самое интересное:

Модель получает немедленную бинарную обратную связь: 10 баллов за правильные ответы, 0 — за неправильные.
Не допускается частичный зачет или нечеткая оценка.
Обучение становится целенаправленным и точным
Модель учится отдавать приоритет точности, а не правдоподобным, но неверным ответам.

Обучение RLVR (Аллен А.И.)

Результаты? Tülu 3 показала значительные улучшения в задачах, где правильность имеет наибольшее значение. Ее производительность в математических рассуждениях (бенчмарк GSM8K) и задачах кодирования заметно подскочила. Даже ее выполнение инструкций стало более точным, поскольку модель научилась ценить конкретную точность выше приблизительных ответов.

Что делает это особенно захватывающим, так это то, как это меняет игру для ИИ с открытым исходным кодом. Предыдущие подходы часто не могли сравниться с точностью закрытых моделей в технических задачах. RLVR показывает, что при правильном подходе к обучению модели с открытым исходным кодом могут достичь того же уровня надежности.

Взгляните на числа

Параметрическая версия 405B Tülu 3 напрямую конкурирует с топовыми моделями в этой области. Давайте рассмотрим, в чем ее преимущество и что это означает для ИИ с открытым исходным кодом.

Математики

Tülu 3 отлично справляется со сложными математическими рассуждениями. В таких бенчмарках, как GSM8K и MATH, он соответствует производительности DeepSeek. Модель обрабатывает многошаговые задачи и демонстрирует сильные возможности математических рассуждений.

Code

Результаты кодирования оказались столь же впечатляющими. Благодаря обучению RLVR, Tülu 3 пишет код, который эффективно решает проблемы. Его сила заключается в понимании инструкций кодирования и создании функциональных решений.

Точное выполнение инструкций

Способность модели следовать инструкциям выделяется как ее основная сила. В то время как многие модели аппроксимируют или обобщают инструкции, Tülu 3 демонстрирует замечательную точность в выполнении именно того, что требуется.

Открываем черный ящик разработки ИИ

Компания Allen AI представила как мощную модель, так и полный процесс разработки.

Каждый аспект процесса обучения документирован и доступен. От четырехэтапного подхода к методам подготовки данных и реализации RLVR — весь процесс открыт для изучения и воспроизведения. Эта прозрачность устанавливает новый стандарт в разработке высокопроизводительного ИИ.

Разработчики получают комплексные ресурсы:

Полные учебные конвейеры
Инструменты обработки данных
Оценочные рамки
Характеристики реализации

Это позволяет командам:

Изменить процессы обучения
Адаптируйте методы к конкретным потребностям
Опирайтесь на проверенные подходы
Создание специализированных реализаций

Этот открытый подход ускоряет инновации в этой области. Исследователи могут опираться на проверенные методы, а разработчики могут сосредоточиться на улучшениях, а не начинать с нуля.

Рост совершенства открытого исходного кода

Успех Tülu 3 — это важный момент для разработки открытого ИИ. Когда модели с открытым исходным кодом соответствуют или превосходят частные альтернативы, это кардинально меняет отрасль. Исследовательские группы по всему миру получают доступ к проверенным методам, ускоряя свою работу и порождая новые инновации. Частным лабораториям ИИ придется адаптироваться — либо за счет повышения прозрачности, либо за счет дальнейшего расширения технических границ.

Заглядывая вперед, прорывы Tülu 3 в проверяемых вознаграждениях и многоступенчатом обучении намекают на то, что грядет. Команды могут строить на этих основах, потенциально повышая производительность еще выше. Код существует, методы задокументированы, и началась новая волна разработки ИИ. Для разработчиков и исследователей возможность экспериментировать с этими методами и улучшать их знаменует начало захватывающей главы в разработке ИИ.

Часто задаваемые вопросы (FAQ) о Tülu 3

Что такое Tülu 3 и каковы его основные особенности?

Tülu 3 — это семейство LLM с открытым исходным кодом, разработанное Allen AI, построенное на архитектуре Llama 3.1. Оно поставляется в различных размерах (параметры 8B, 70B и 405B). Tülu 3 разработан для повышения производительности при выполнении различных задач, включая знания, рассуждения, математику, кодирование, выполнение инструкций и безопасность.

Каков процесс обучения Tülu 3 и какие данные используются?

Обучение Tülu 3 включает несколько ключевых этапов. Во-первых, команда подбирает разнообразный набор подсказок из общедоступных наборов данных и синтетических данных, нацеленных на определенные навыки, гарантируя, что данные очищены от контрольных показателей. Во-вторых, контролируемая тонкая настройка (SFT) выполняется на основе смеси данных следования инструкциям, математики и кодирования. Затем используется прямая оптимизация предпочтений (DPO) с данными о предпочтениях, полученными с помощью обратной связи от человека и LLM. Наконец, для задач с измеримой правильностью используется обучение с подкреплением и проверяемыми вознаграждениями (RLVR). Tülu 3 использует отобранные наборы данных для каждого этапа, включая инструкции, управляемые личностью, математику и кодовые данные.

Как Tülu 3 подходит к обеспечению безопасности и какие показатели используются для ее оценки?

Безопасность является основным компонентом разработки Tülu 3, который рассматривается на протяжении всего процесса обучения. В ходе SFT используется набор данных, специфичный для безопасности, который, как выяснилось, в значительной степени ортогонален другим данным, ориентированным на задачу.

Что такое РЛВР?

RLVR — это метод, при котором модель обучается оптимизироваться на основе проверяемого вознаграждения, например, правильности ответа. Это отличается от традиционного RLHF, который использует модель вознаграждения.

От O3 от OpenAI до R1 от DeepSeek: как имитация мышления помогает магистрам мыслить глубже

Не пропустите

На пути к LoRA, способным выдержать обновления версий моделей

Алекс МакФарланд

Алекс МакФарланд — журналист и писатель, занимающийся искусственным интеллектом. Он сотрудничал с многочисленными стартапами и публикациями в области искусственного интеллекта по всему миру.

Unite.ИИ

Tülu 3 от Allen AI стал неожиданным конкурентом DeepSeek

Искусственный интеллект

Tülu 3 от Allen AI стал неожиданным конкурентом DeepSeek

Оглавление