Connect with us

Allen AI’s Tülu 3 Just Became DeepSeek’s Unexpected Rival

Искусственный интеллект

Allen AI’s Tülu 3 Just Became DeepSeek’s Unexpected Rival

mm

Заголовки продолжают поступать. Модели DeepSeek бросают вызов эталонам, устанавливают новые стандарты и создают много шума. Но что-то интересное только что произошло в сцене исследований ИИ, что также стоит вашего внимания.

Allen AI тихо выпустила свою новую семейство моделей Tülu 3, и их версия с 405B параметров не только конкурирует с DeepSeek – она соответствует или превосходит его на ключевых эталонах.

Давайте поставим это в перспективу.

Модель Tülu 3 с 405B параметров соревнуется с лучшими исполнителями, такими как DeepSeek V3, в ряде задач. Мы видим сопоставимые или лучшие результаты в таких областях, как математические задачи, задачи программирования и точное выполнение инструкций. И они делают это с полностью открытым подходом.

Они выпустили полный конвейер обучения, код и даже свой новый метод обучения с подкреплением под названием Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR), который сделал это возможным.

Такие разработки, как эти, за последние несколько недель действительно меняют, как происходит разработка лучших ИИ. Когда полностью открытый исходный код модели может соответствовать лучшим закрытым моделям, это открывает возможности, которые ранее были заперты за частными корпоративными стенами.

Техническая битва

Что сделало Tülu 3 выдающимся? Это сводится к уникальному четырехэтапному процессу обучения, который выходит за рамки традиционных подходов.

Давайте посмотрим, как Allen AI построила эту модель:

Этап 1: Стратегический выбор данных

Команда знала, что качество модели начинается с качества данных. Они объединили устоявшиеся наборы данных, такие как WildChat и Open Assistant, с пользовательским контентом. Но вот ключевое наблюдение: они не просто агрегировали данные – они создали целевые наборы данных для конкретных навыков, таких как математическое рассуждение и программирование.

Этап 2: Построение лучших ответов

На втором этапе Allen AI сосредоточилась на обучении своей модели конкретным навыкам. Они создали разные наборы данных для обучения – некоторые для математики, другие для программирования и еще больше для общих задач. Тестируя эти комбинации повторно, они могли увидеть точно, где модель преуспевает и где ей нужно улучшение. Этот итеративный процесс раскрыл истинный потенциал того, чего может достичь Tülu 3 в каждой области.

Этап 3: Обучение на сравнениях

Вот где Allen AI стала творческой. Они построили систему, которая могла мгновенно сравнить ответы Tülu 3 с другими лучшими моделями. Но они также решили постоянную проблему в ИИ – тенденцию моделей писать длинные ответы просто ради длины. Их подход, используя нормализованную по длине прямую оптимизацию предпочтений (DPO), означал, что модель научилась ценить качество над количеством. Результат? Ответы, которые точны и осмысленны.

Когда модели ИИ учатся на предпочтениях (какой ответ лучше, А или Б?), они склонны развивать раздражающий предвзятость: они начинают думать, что более длинные ответы всегда лучше. Это как будто они пытаются выиграть, сказав больше, а не сказав вещи хорошо.

Нормализация по длине DPO исправляет это, изменяя, как модель учится на предпочтениях. Вместо того, чтобы просто смотреть, какой ответ был предпочтителен, она учитывает длину каждого ответа. Подумайте об этом как о судействе ответов по их качеству на слово, а не только их общему влиянию.

Почему это важно? Потому что это помогает Tülu 3 учиться быть точным и эффективным. Вместо того, чтобы дополнять ответы лишними словами, чтобы казаться более полным, она учится доставлять ценность в любой длине, которая фактически необходима.

Это может показаться небольшим деталями, но это крайне важно для построения ИИ, который общается естественно. Лучшие человеческие эксперты знают, когда быть кратким и когда расширяться – и именно это помогает length-normalized DPO научить модель.

Этап 4: Инновация RLVR

Это технический прорыв, который заслуживает внимания. RLVR заменяет субъективные модели вознаграждения конкретными верифицированными результатами.

Большинство моделей ИИ учатся через сложную систему моделей вознаграждения – по сути, образованные догадки о том, что делает хороший ответ. Но Allen AI пошла по другому пути с RLVR.

Подумайте, как мы обычно обучаем модели ИИ. Мы обычно нуждаемся в других моделях ИИ (называемых моделями вознаграждения), чтобы судить, является ли ответ хорошим или нет. Это субъективно, сложно и часто не последовательно. Некоторые ответы могут показаться хорошими, но содержать тонкие ошибки, которые проскальзывают.

RLVR переворачивает этот подход с ног на голову. Вместо того, чтобы полагаться на субъективные суждения, она использует конкретные, верифицируемые результаты. Когда модель пытается решить математическую задачу, нет серой зоны – ответ либо правильный, либо неправильный. Когда она пишет код, этот код либо работает правильно, либо нет.

Вот где это становится интересным:

  • Модель получает мгновенную, бинарную обратную связь: 10 баллов за правильные ответы, 0 за неправильные
  • Не остается места для частичных баллов или размытой оценки
  • Обучение становится сосредоточенным и точным
  • Модель учится отдавать приоритет точности над правдоподобными, но неправильными ответами

Диаграмма обучения RLVR (Allen AI)

Результаты? Tülu 3 показала значительные улучшения в задачах, где важна точность. Ее производительность в математическом рассуждении (бенчмарк GSM8K) и задачах программирования заметно возросла. Даже ее выполнение инструкций стало более точным, поскольку модель научилась ценить конкретную точность над приблизительными ответами.

Что делает это особенно интересным, так это то, как это меняет игру для открытого ИИ. Ранее подходы часто боролись за соответствие точности закрытых моделей на технических задачах. RLVR показывает, что с правильным подходом к обучению открытые модели могут достичь того же уровня надежности.

Взгляд на цифры

Версия Tülu 3 с 405B параметров конкурирует напрямую с лучшими моделями в области. Давайте посмотрим, где она преуспевает и что это означает для открытого ИИ.

Математика

Tülu 3 отличается в сложном математическом рассуждении. На бенчмарках, таких как GSM8K и MATH, она соответствует производительности DeepSeek. Модель справляется с многоступенчатыми проблемами и демонстрирует сильные математические рассуждения.

Код

Результаты программирования оказываются равно впечатляющими. Благодаря обучению RLVR Tülu 3 пишет код, который эффективно решает проблемы. Ее сила заключается в понимании инструкций программирования и производстве функциональных решений.

Точное выполнение инструкций

Способность модели следовать инструкциям выделяется как основная сила. В то время как многие модели приближают или обобщают инструкции, Tülu 3 демонстрирует замечательную точность в выполнении точно того, что запрошено.

Открывая черный ящик разработки ИИ

Allen AI выпустила не только мощную модель, но и весь процесс разработки.

Каждый аспект процесса обучения задокументирован и доступен. От четырехэтапного подхода до методов подготовки данных и реализации RLVR – весь процесс лежит открытым для изучения и воспроизведения. Эта прозрачность устанавливает новый стандарт в разработке высокопроизводительного ИИ.

Разработчики получают комплексные ресурсы:

  • Полные конвейеры обучения
  • Инструменты обработки данных
  • Фреймворки оценки
  • Спецификации реализации

Это позволяет командам:

  • Модифицировать процессы обучения
  • Адаптировать методы для конкретных потребностей
  • Строить на проверенных подходах
  • Создавать специализированные реализации

Этот открытый подход ускоряет инновации во всей области. Исследователи могут строить на проверенных методах, а разработчики могут сосредоточиться на улучшениях, а не начинать с нуля.

Восхождение открытого ИИ-экстрима

Успех Tülu 3 – это большой момент для открытой разработки ИИ. Когда открытые модели соответствуют или превосходят частные альтернативы, это фундаментально меняет отрасль. Исследовательские команды по всему миру получают доступ к проверенным методам, ускоряя свою работу и порождая новые инновации. Частным лабораториям ИИ придется адаптироваться – либо увеличивая прозрачность, либо продвигая технические границы еще дальше.

Глядя вперед, прорывы Tülu 3 в верифицируемых вознаграждениях и многоступенчатом обучении намекают на то, что грядет. Команды могут строить на этих основах, потенциально толкая производительность еще выше. Код существует, методы задокументированы, и новая волна разработки ИИ началась. Для разработчиков и исследователей возможность экспериментировать с этими методами и улучшать их отмечает начало интересной главы в разработке ИИ.

Часто задаваемые вопросы (FAQ) о Tülu 3

Что такое Tülu 3 и какие ее ключевые особенности?

Tülu 3 – это семейство открытых моделей ИИ, разработанных Allen AI, построенных на основе архитектуры Llama 3.1. Она доступна в различных размерах (8B, 70B и 405B параметров). Tülu 3 предназначена для улучшения производительности в различных задачах, включая знания, рассуждения, математику, программирование, выполнение инструкций и безопасность.

Каков процесс обучения Tülu 3 и какие данные используются?

Обучение Tülu 3 включает в себя несколько ключевых этапов. Сначала команда курирует разнообразный набор запросов из как публичных наборов данных, так и синтетических данных, ориентированных на конкретные навыки, обеспечивая, что данные очищены от бенчмарков. Во вторых, выполняется контролируемое тонкое настройка (SFT) на смеси данных, следующих инструкциям, математике и программировании. Далее используется прямая оптимизация предпочтений (DPO) с данными предпочтений, сгенерированными через обратную связь человека и ИИ. Наконец, используется обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) для задач с измеримой правильностью. Tülu 3 использует отобранные наборы данных для каждого этапа, включая инструкции, управляемые персоной, математику и данные программирования.

Как Tülu 3 подходит к безопасности и какие метрики используются для ее оценки?

Безопасность является ключевым компонентом разработки Tülu 3, решаемым на протяжении всего процесса обучения. Для обучения используется специальный набор данных, ориентированный на безопасность, который в основном ортогонален другим задачам.

Что такое RLVR?

RLVR – это техника, при которой модель обучается оптимизироваться против верифицируемого вознаграждения, например, правильности ответа. Это отличается от традиционного RLHF, который использует модель вознаграждения.

Алекс Макфарленд - журналист и писатель в области искусственного интеллекта, исследующий последние разработки в этой области. Он сотрудничал с многочисленными стартапами и изданиями в области искусственного интеллекта во всем мире.