Искусственный интеллект

Усиление больших языковых моделей с помощью многотокеновой предсказательной модели

Published June 3, 2024

Updated May 21, 2026

Aayush Mittal Mittal

Large Language Models with Multi-token Prediction

div]:bg-bg-300 [&_pre]:-mr-4 md:[&_pre]:-mr-9″>

_*]:min-w-0″>

Большие языковые модели (LLM) такие как GPT, LLaMA и другие потрясли мир своей замечательной способностью понимать и генерировать текст, похожий на человеческий. Однако, несмотря на их впечатляющие возможности, стандартный метод обучения этих моделей, известный как “предсказание следующего токена”, имеет некоторые внутренние ограничения.

В предсказании следующего токена модель обучается предсказывать следующее слово в последовательности, учитывая предыдущие слова. Хотя этот подход показал свою эффективность, он может привести к моделям, которые испытывают трудности с долгосрочными зависимостями и сложными задачами рассуждения. Кроме того, несоответствие между режимом обучения (принудительным обучением) и режимом вывода (авторегрессивной генерацией) может привести к субоптимальной производительности.

Недавняя исследовательская работа Gloeckle et al. (2024) из Meta AI представляет новую парадигму обучения под названием “многотокеновая предсказательная модель“, которая направлена на решение этих ограничений и усиление больших языковых моделей. В этом блог-посте мы глубоко погрузимся в основные концепции, технические детали и потенциальные последствия этого новаторского исследования.

div]:bg-bg-300 [&_pre]:-mr-4 md:[&_pre]:-mr-9″>

_*]:min-w-0″>

Предсказание одного токена: традиционный подход

Прежде чем углубиться в детали многотокеновой предсказательной модели, важно понять традиционный подход, который был основой обучения больших языковых моделей в течение многих лет – предсказание одного токена, также известное как предсказание следующего токена.

Парадигма предсказания следующего токена

В парадигме предсказания следующего токена языковые модели обучаются предсказывать следующее слово в последовательности, учитывая предыдущий контекст. Более正式но, модель задается максимизацией вероятности следующего токена xt+1, учитывая предыдущие токены x1, x2, …, xt. Это обычно делается путем минимизации функции потерь перекрестной энтропии:

L = -Σt log P(xt+1 | x1, x2, …, xt)

Эта простая, но мощная цель обучения была основой многих успешных больших языковых моделей, таких как GPT (Radford et al., 2018), BERT (Devlin et al., 2019) и их варианты.

Принудительное обучение и авторегрессивная генерация

Предсказание следующего токена полагается на метод обучения, называемый “принудительным обучением“, когда модели предоставляется основная правда для каждого будущего токена во время обучения. Это позволяет модели учиться на правильном контексте и целевых последовательностях, облегчая более стабильное и эффективное обучение.

Однако во время вывода или генерации модель работает в авторегрессивном режиме, предсказывая один токен за раз на основе предыдущих сгенерированных токенов. Это несоответствие между режимом обучения (принудительным обучением) и режимом вывода (авторегрессивной генерацией) может привести к потенциальным несоответствиям и субоптимальной производительности, особенно для более длинных последовательностей или сложных задач рассуждения.

Ограничения предсказания следующего токена

Хотя предсказание следующего токена было замечательно успешным, оно также имеет некоторые внутренние ограничения:

Короткосрочная направленность: Предсказывая только следующий токен, модель может испытывать трудности с захватом долгосрочных зависимостей и общей структуры и связности текста, что может привести к несоответствиям или несвязным генерациям.
Местные закономерности: Модели предсказания следующего токена могут застрять в местных закономерностях в обучающих данных, что делает трудным обобщение на новые сценарии или задачи, требующие более абстрактного рассуждения.
Возможности рассуждения: Для задач, которые включают многоступенчатое рассуждение, алгоритмическое мышление или сложные логические операции, предсказание следующего токена может не обеспечить достаточные индуктивные предубеждения или представления для эффективной поддержки таких возможностей.
Недостаточная эффективность выборки: Из-за местной природы предсказания следующего токена модели могут требовать более крупных обучающих наборов данных для приобретения необходимых знаний и возможностей рассуждения, что может привести к потенциальным недостаткам эффективности выборки.

Эти ограничения мотивировали исследователей изучать альтернативные парадигмы обучения, такие как многотокеновая предсказательная модель, которая направлена на решение некоторых из этих недостатков и открытие новых возможностей для больших языковых моделей.

Сопоставляя традиционный подход предсказания следующего токена с новой техникой многотокеновой предсказательной модели, читатели могут лучше оценить мотивацию и потенциальные преимущества последней, создавая основу для более глубокого изучения этого новаторского исследования.

Что такое многотокеновая предсказательная модель?

Ключевая идея многотокеновой предсказательной модели заключается в обучении языковых моделей предсказывать несколько будущих токенов одновременно, а не только следующий токен. Конкретно, во время обучения модель задается предсказанием следующих n токенов в каждой позиции обучающего корпуса, используя n независимых выходных слоев, работающих на основе общего ствола модели.

Например, с настройкой предсказания 4 токенов модель будет обучаться предсказывать следующие 4 токена одновременно, учитывая предыдущий контекст. Этот подход побуждает модель захватить более длинные зависимости и развить лучшее понимание общей структуры и связности текста.

Пример

Чтобы лучше понять концепцию многотокеновой предсказательной модели, рассмотрим простой пример:

“Быстрая коричневая лиса прыгает над ленивой собакой.”

В стандартном подходе предсказания следующего токена модель будет обучаться предсказывать следующее слово, учитывая предыдущий контекст. Например, учитывая контекст “Быстрая коричневая лиса прыгает над”, модель будет задана предсказанием следующего слова, “ленивой”.

С многотокеновой предсказательной моделью, однако, модель будет обучаться предсказывать несколько будущих слов одновременно. Например, если мы установим n=4, модель будет обучаться предсказывать следующие 4 слова одновременно. Учитывая тот же контекст “Быстрая коричневая лиса прыгает над”, модель будет задана предсказанием последовательности “ленивая собака “. (Обратите внимание на пробел после “собаки”, чтобы указать конец предложения).

Обучая модель предсказывать несколько будущих токенов одновременно, она побуждается захватить долгосрочные зависимости и развить лучшее понимание общей структуры и связности текста.

Технические детали

Авторы предлагают простую, но эффективную архитектуру для реализации многотокеновой предсказательной модели. Модель состоит из общего трансформерного ствола, который производит潜ный представление входного контекста, за которым следуют n независимых трансформерных слоев (выходных слоев), которые предсказывают соответствующие будущие токены.

Во время обучения прямые и обратные проходы тщательно оркестрируются, чтобы минимизировать использование памяти GPU. Общий ствол вычисляет潜ный представление, а затем каждый выходной слой последовательно выполняет свой прямой и обратный проход, накапливая градиенты на уровне ствола. Этот подход избегает материализации всех векторов логитов и их градиентов одновременно, уменьшая пиковое использование памяти GPU с O(nV + d) до O(V + d), где V – размер словаря, а d – размерность潜ного представления.

Память-эффективная реализация

Одной из проблем при обучении многотокеновых предсказателей является снижение их использования памяти GPU. Поскольку размер словаря (V) обычно намного больше, чем размерность潜ного представления (d), векторы логитов становятся узким местом использования памяти GPU.

Чтобы решить эту проблему, авторы предлагают память-эффективную реализацию, которая тщательно адаптирует последовательность прямых и обратных операций. Вместо материализации всех логитов и их градиентов одновременно реализация последовательно вычисляет прямые и обратные проходы для каждого независимого выходного слоя, накапливая градиенты на уровне ствола.

Этот подход избегает хранения всех векторов логитов и их градиентов в памяти одновременно, уменьшая пиковое использование памяти GPU с O(nV + d) до O(V + d), где n – количество будущих токенов, которые предсказываются.

Преимущества многотокеновой предсказательной модели

Исследовательская работа представляет несколько убедительных преимуществ использования многотокеновой предсказательной модели для обучения больших языковых моделей:

Улучшенная эффективность выборки: Обучая модель предсказывать несколько будущих токенов одновременно, многотокеновая предсказательная модель побуждает модель к лучшей эффективности выборки. Авторы демонстрируют значительные улучшения производительности на задачах понимания и генерации кода, с моделями до 13B параметров, решающими около 15% больше проблем в среднем.
Быстрый вывод: Дополнительные выходные слои, обученные с помощью многотокеновой предсказательной модели, могут быть использованы для самопредсказательной декодировки, варианта спекулятивной декодировки, которая позволяет параллельно предсказывать токены. Это приводит к увеличению скорости вывода до 3 раз на широком диапазоне размеров пакетов, даже для крупных моделей.
Содействие долгосрочным зависимостям: Многотокеновая предсказательная модель побуждает модель захватить более длинные зависимости и закономерности в данных, что особенно полезно для задач, которые требуют понимания и рассуждения над более крупными контекстами.
Алгоритмическое рассуждение: Авторы представляют эксперименты на синтетических задачах, которые демонстрируют превосходство моделей многотокеновой предсказательной модели в развитии индуктивных голов и алгоритмических возможностей рассуждения, особенно для более мелких размеров моделей.
Связность и последовательность: Обучая модель предсказывать несколько будущих токенов одновременно, многотокеновая предсказательная модель побуждает развитие связных и последовательных представлений. Это особенно полезно для задач, которые требуют генерации более длинного и связного текста, такого как рассказы, статьи или инструкционные руководства.
Улучшенная обобщаемость: Эксперименты авторов на синтетических задачах предполагают, что модели многотокеновой предсказательной модели демонстрируют лучшие возможности обобщения, особенно в ситуациях, выходящих за рамки обучающих данных. Это, возможно, связано с способностью модели захватить более длинные закономерности и зависимости, что может помочь ей экстраполировать более эффективно в новые сценарии.

Примеры и интуиции

Чтобы предоставить больше интуиций о том, почему многотокеновая предсказательная модель работает так хорошо, рассмотрим несколько примеров:

Генерация кода: В контексте генерации кода предсказание нескольких токенов одновременно может помочь модели понять и сгенерировать более сложные кодовые структуры. Например, при генерации определения функции предсказание только следующего токена может не обеспечить достаточный контекст для модели, чтобы сгенерировать всю сигнатуру функции правильно. Однако, предсказывая несколько токенов одновременно, модель может лучше захватить зависимости между именем функции, параметрами и типом возвращаемого значения, что приводит к более точной и связной генерации кода.
Рассуждение на естественном языке: Рассмотрим сценарий, в котором языковая модель задана ответом на вопрос, который требует рассуждения над несколькими шагами или кусками информации. Предсказывая несколько токенов одновременно, модель может лучше захватить зависимости между различными компонентами процесса рассуждения, что приводит к более связным и точным ответам.
Генерация длинного текста: При генерации длинного текста, такого как рассказы, статьи или отчеты, поддержание связности и последовательности в течение длительного периода может быть сложной задачей для языковых моделей, обученных с помощью предсказания следующего токена. Многотокеновая предсказательная модель побуждает модель развить представления, которые захватывают общую структуру и поток текста, что потенциально приводит к более связным и последовательным длинным генерациям.

Ограничения и будущие направления

Хотя результаты, представленные в работе, впечатляют, есть несколько ограничений и открытых вопросов, которые требуют дальнейшего исследования:

Оптимальное количество токенов: Работа исследует различные значения n (количество будущих токенов для предсказания) и находит, что n=4 работает хорошо для многих задач. Однако оптимальное значение n может зависеть от конкретной задачи, набора данных и размера модели. Разработка принципиальных методов для определения оптимального n может привести к дальнейшим улучшениям производительности.
Размер словаря и токенизация: Авторы отмечают, что оптимальный размер словаря и стратегия токенизации для моделей многотокеновой предсказательной модели могут отличаться от тех, которые используются для моделей предсказания следующего токена. Изучение этого аспекта может привести к лучшим компромиссам между сжатой длиной последовательности и вычислительной эффективностью.
Дополнительные потери предсказания: Авторы предлагают, что их работа может вызвать интерес к разработке новых дополнительных потерь предсказания для больших языковых моделей, помимо стандартного предсказания следующего токена. Изучение альтернативных дополнительных потерь и их комбинаций с многотокеновой предсказательной моделью является интересным направлением исследований.
Теоретическое понимание: Хотя работа предоставляет некоторые интуиции и эмпирические доказательства эффективности многотокеновой предсказательной модели, более глубокое теоретическое понимание того, почему и как этот подход работает так хорошо, было бы ценным.

Заключение

Исследовательская работа “Лучшие и быстрые большие языковые модели посредством многотокеновой предсказательной модели” Gloeckle et al. представляет новую парадигму обучения, которая имеет потенциал значительно улучшить производительность и возможности больших языковых моделей. Обучая модели предсказывать несколько будущих токенов одновременно, многотокеновая предсказательная модель побуждает развитие долгосрочных зависимостей, алгоритмических возможностей рассуждения и лучшей эффективности выборки.

Техническая реализация, предложенная авторами, является элегантной и вычислительной эффективной, что делает ее возможной для применения этого подхода к крупномасштабному обучению языковых моделей. Кроме того, возможность использования самопредсказательной декодировки для более быстрого вывода является значительным практическим преимуществом.

Хотя еще есть открытые вопросы и области для дальнейшего исследования, эта работа представляет собой интересный шаг вперед в области больших языковых моделей. По мере того, как спрос на более способные и эффективные языковые модели продолжает расти, многотокеновая предсказательная модель может стать ключевым компонентом в следующем поколении этих мощных систем ИИ.

Aayush Mittal

Я провел последние пять лет, погружаясь в увлекательный мир Machine Learning и Deep Learning. Моя страсть и экспертиза привели меня к участию в более чем 50 различных проектах по разработке программного обеспечения, с особым акцентом на AI/ML. Мое непрекращающееся любопытство также привело меня к Natural Language Processing, области, которую я с нетерпением жду возможности изучить более подробно.