Искусственный интеллект
GLM-130B: открытая двуязычная предварительно обученная модель

Платформа GLM-130B представляет собой двуязычную предварительно обученную модель большого языка с более чем 130 миллиардами параметров, способную генерировать текстовый вывод как на английском, так и на китайском языках. Фреймворк GLM-130B — это попытка открыть исходный код языковой модели в масштабе, превышающем 100 миллиардов параметров, и обсудить, как можно предварительно обучить фреймворки такого большого масштаба, поскольку в настоящее время обучение модели такого большого масштаба часто затруднено. с такими проблемами, как дивергенция и всплески потерь.
В этой статье мы будем говорить о платформе GLM-130B, которая пытается разработать метод эффективного предварительного обучения больших языковых моделей с сотнями миллиардов параметров. Мы более глубоко углубимся в работу и архитектуру платформы GLM-130B, а также в процесс обучения и варианты проектирования, которые не только помогают повысить эффективность, но и стабильность. Первоначальные эксперименты, проведенные для проверки работы платформы GLM-130B на широком спектре английских тестов, привели к тому, что модель GLM-130B превзошла по производительности современное состояние. Фреймворк GPT-3 со значительным отрывом. Итак, давайте начнем и выясним, как система GLM-130B обеспечивает такие последовательные, точные и стабильные результаты.
Введение в структуру GLM-130B
Большие языковые модели, способные работать в условиях с небольшим и нулевым количеством выстрелов, особенно с более чем 100 миллиардами параметров, представляют собой привлекательные законы масштабирования, из которых платформа GPT-3 является одной из наиболее эффективных платформ, обеспечивающей значительное повышение производительности по сравнению с другими. его предшественник, структура BERT. Однако, несмотря на популярность платформы GPT-3 и ее широкое применение, процесс обучения и в некотором смысле сама структура GPT-3 не были прозрачными для общественности. Более того, эмпирическое перечисление всех возможных схем обучения LLM с более чем 100B параметрами вычислительно невозможно, что делает еще более важным разработать метод предварительного обучения для крупномасштабных структур LLM.
Вышеупомянутый момент делает совместную работу и процесс обучения высококачественных крупномасштабных рамок LLM, таких как GPT-3, критически важными, и, принимая во внимание этические проблемы, Структура GLM-130B — это попытка предварительно обучить точную систему LLM с открытым исходным кодом, содержащую более 100 B параметров.. В ходе своей попытки команда разработчиков GLM-130B заметила, что предварительное обучение крупномасштабной структуры LLM часто сопровождается широким спектром инженерных и технических проблем с точки зрения стабильности, эффективности и конвергенции предварительного обучения.
Если быть более конкретным, GLM-130B представляет собой двунаправленную и двуязычную плотную структуру, состоящую из более чем 130 миллиардов параметров, предварительно обученных более чем 400 миллиардам токенов в кластере из 96 узлов графического процессора NVIDIA DGX-A100 в течение почти двух месяцев. Более того, вместо архитектуры в стиле GPT платформа GLM-130B использует алгоритм GLM или General Language Model в попытке использовать свои цели авторегрессионного заполнения пустых мест и преимущество двунаправленного внимания. В следующей таблице сравнивается структура GLM-130B с другими моделями с более чем 100B параметрами, включая GPT, БЛУМ-176Б и ОПТ-175Б.

Концепции проектирования и разработки, включенные в структуру GLM-130B, превосходят почти все крупномасштабные структуры LLM, включая GPT-3 и PaLM 540B, с более чем 500B параметрами во многих случаях и по широкому спектру тестов. На следующем рисунке сравнивается производительность системы GLM-130B с моделями с более чем 100B+ параметрами. Как видно, структура GLM-130B имеет значительно меньшую токсичность генерации и предвзятость, чем ее аналоги.

Наконец, GLM-130B был разработан таким образом, чтобы позволить как можно большему количеству разработчиков проводить исследования платформ с более чем 100B параметрами, и есть два способа, с помощью которых платформа GLM-130B достигает этого. Во-первых, вместо использования более 175 миллиардов параметров, таких как BLOOM и OPT, платформа GLM-130B использует 130 миллиардов параметров, поскольку размер модели поддерживает помехи даже на одиночном сервере A100. Во-вторых, требования к графическому процессору для запуска платформы GLM-130B меньше по сравнению с другими платформами LLM, и платформа GLM-130B достигает этого за счет квантования исходной платформы до точности INT4. Квантование INT4, используемое платформой GLM-130B, повышает производительность, сохраняя при этом незначительное ухудшение производительности.
GLM-130B: Архитектура
Индуктивный уклон модели машинного обучения описывается ее архитектурой, и неудивительно, что разработчики не могут исследовать различные архитектурные решения для большие языковые модели учитывая вычислительную доступность и жизнеспособность. С учетом вышесказанного, давайте посмотрим на архитектуру GLM-130B.
Крупномасштабные платформы LLM, такие как PaLM, GPT и другие, имеют более 100 миллиардов параметров и построены на традиционной архитектуре в стиле GPT, состоящей только из декодера, для авторегрессионного языкового моделирования. С другой стороны, структура GLM-130B исследует возможность использования двунаправленная общая языковая модель или GLM, языковая модель на основе преобразователя, целью которой является использование авторегрессионного заполнения пробелов в качестве цели обучения и ее основы. Вкратце, для заданной текстовой последовательности платформа GLM выбирает текстовые фрагменты, которые затем заменяются одним токеном маски.
Двунаправленное внимание Общей языковой модели к неповрежденным или незамаскированным контекстам — это то, что отличает структуру GLM-130B от подхода в стиле GPT, который использует однонаправленный подход. Кроме того, для поддержки генерации и понимания данных структура GLM объединяет две стратегии коррупции, каждая из которых обозначается специальным и уникальным маркером маски.
- [МАСКА] : [MASK] — это стратегия искажения, в которой в предложениях используются короткие пробелы, длина которых в сумме составляет определенный процент входных данных.
- [гМАСК] : [gMASK] — это стратегия искажения, которая использует пробелы произвольной длины в конце предложения с контекстами префикса.
Подход, которому следует структура GLM, позволяет этой платформе зафиксировать показатель точности более 80% при нулевом моделировании языка LAMBADA и превосходит как PaLM 540B, так и структуру GPT-3.

Нормализация слоя
Одной из основных проблем, с которыми сталкиваются разработчики при обучении структуры LLM, является нестабильность обучения, и использование подходящего LN (нормализации уровня) может помочь в обучении LLM. Платформа GLM-130B использует подход Post-LN благодаря своей производительности при выполнении последующих задач.
FFN и позиционное кодирование
Нейронные сети с прямой связью или FFN и позиционное кодирование — это два подхода, принятые в системе GLM-130B для обеспечения высокой производительности нисходящего потока и стабильности обучения.
Предварительная подготовка
Цели предварительного обучения структуры GLM-130B не только включают многозадачное обучение для небольшого количества токенов, но также включают GLM с самоконтролем для авторегрессионного заполнения пробелов, с ожиданием, что этот подход поможет GLM -130B Framework в последующих задачах. С учетом вышесказанного предварительная настройка структуры GLM-130B выглядит следующим образом.
Самоконтролируемое заполнение бланков
Как уже упоминалось, структура GLM-130B использует две стратегии повреждения, а именно [MASK] и [gMASK], и одна из этих стратегий независимо применяется к каждой отдельной обучающей последовательности, по одной за раз. Для заполнения пробелов стратегия [MASK] маскирует последовательные интервалы в 30 % обучающей последовательности, где длина интервалов в сумме составляет до 15 % входных данных, и следует распределению Пуассона. Для оставшихся 70% последовательности префикс каждой последовательности сохраняется в качестве контекста, а стратегия [gMASK] помогает маскировать остальную часть, а затем замаскированная длина выбирается с использованием равномерного распределения.
Многозадачные инструкции
Было указано, что применение многозадачного подхода к предварительному обучению моделей может дать лучшие результаты, чем точная настройка, для улучшения передачи задач в условиях нулевого выстрела. Впоследствии структура GLM-130B предлагает использовать массив наборов данных с подсказками инструкций, включая генерацию языка, понимание и извлечение информации во время предварительного обучения.
По сравнению с другими подходами к нулевой передаче задач, в которых используется тонкая настройка по запросу многозадачности, подход предварительного обучения многозадачным инструкциям, за которым следует структура GLM-130B, составляет только 5% от общего количества токенов, и он устанавливается на этапе предварительного обучения, чтобы предотвратить ухудшение других возможностей структуры LLM или, другими словами, безусловное свободное поколение.
3D-параллельная стратегия
Фактически существуют две практики обучения крупномасштабных моделей с миллиардами параметров: тензорная модель параллелизма и параллелизм данных. В попытке свести к минимуму использование графического процессора и удовлетворить огромные требования к графическому процессору платформа GLM-130B реализует стратегию 3D-параллелизма, которая сочетает в себе стратегию параллелизма конвейерной модели с параллелизмом тензорной модели и стратегиями параллелизма данных.
GLM-130B: стабильность при обучении
Стабильность обучения является важным фактором при определении качества LLM, и на стабильность обучения сильно влияет количество токенов, через которые он проходит. Кроме того, крайне важно найти компромисс между стабильностью и эффективностью в отношении форматов с плавающей запятой, учитывая вычислительные ограничения. Например, форматы с плавающей запятой низкой точности повышают эффективность вычислений, но они часто приводят к сбоям в обучении, поскольку они подвержены ошибкам переполнения и переполнения.
Смешанная точность
В попытке повысить точность обучения и сократить использование памяти платформа GLM-130B следует общепринятой практике использования смешанной точности, то есть FP16 как для прямого, так и для обратного хода, и FP32 как для основных весов, так и для состояний оптимизатора. Как и в других популярных платформах LLM, включая BLOOM-176B и OPT-175B, фаза обучения платформы GLM-130B с использованием стратегии смешанной точности сталкивается с частыми пиками потерь, и частота этих пиковых потерь имеет тенденцию увеличиваться по мере продолжения обучения модели. . Более того, существуют серьезные проблемы, с которыми сталкиваются разработчики при масштабировании преобразователей.

Во-первых, шкала значений основной ветви трансформатора может быть огромной на более глубоких уровнях при использовании Pre-LN, а в рамках GLM-130B она решается с помощью Pre-LN на основе DeepNorm, что гарантирует, что значение масштаб всегда остается ограниченным. Во-вторых, по мере масштабирования модели показатели внимания растут до точки, превышающей диапазон FP16.
Градиентное сжатие встроенного слоя или EGS
Разработчики, работающие над структурой GLM-130B, определили, что норма градиента может выступать в качестве информативного индикатора провалов тренировки, а коллапс тренировки обычно отстает от скачка нормы градиента. Причиной этих всплесков являются аномальные градиенты слоя внедрения, и разработчики заметили, что по сравнению с нормой градиента других слоев норма градиента слоев внедрения больше на несколько величин, а также имеет тенденцию резко колебаться во время раннее обучение фреймворка. Модели видения также сталкиваются с этой проблемой, и она решается путем замораживания слоя проекции патча. Однако к LLM нельзя применить тот же подход, что и к языковым моделям: вы не можете заморозить слои проекции.

GLM-130B: Результаты и производительность
Чтобы оценить производительность GLM-130B при выполнении задач на английском языке, в нем реализованы те же настройки, что и в обычных платформах LLM, включая PaLM и GPT-3, а поскольку GLM-130B является двуязычной структурой, она также оценивается по нескольким китайским тестам. Производительность платформы GLM-130B будет измеряться по нескольким критериям, включая Языковое моделирование, MMLU или массовое многозадачное понимание языка, BIG-Bench или за пределами имитационной игры, а также CLUE или оценка понимания китайского языка. Итак, начнем.
Языковое моделирование
Тест производительности языкового моделирования в среде GLM-130B выполняется на двух наборах данных: LAMBADA и Pile.
Набор данных LAMBADA используется для проверки возможностей LLM по моделированию последнего слова, а платформа GLM-130B достигает нулевого показателя точности 80.2 в двуязычной настройке и попутно устанавливает новый эталонный рекорд в наборе данных LAMBADA.
С другой стороны, Pile — это набор тестов, который включает в себя серию тестов для языковых моделей. В среднем, по сравнению с GPT-3 и Jurassic-1, платформа GLM-130B обеспечивает наилучшую производительность на 18 общих наборах тестов с точки зрения взвешенных BPB. Результаты демонстрируют сильные языковые возможности структуры GLM-130B и включены в таблицу ниже.

MMLU или массовое многозадачное понимание языка
MMLU или массовое многозадачное понимание языка Это разнообразный тест, который включает в себя более 50 задач с ответами на вопросы с несколькими вариантами ответов, касающихся человеческого интеллекта и знаний, начиная от уровня средней школы и заканчивая экспертным уровнем. Он выпускается после сканирования набора тестов Pile и, таким образом, служит идеальным test-best для оценки возможностей обучения в рамках LLM.

Как можно видеть, при нескольких настройках (5 кадров) производительность платформы GLM-130B приближается к производительности модели GPT-3 после просмотра токенов, близких к 300B. Производительность продолжает расти по мере дальнейшего обучения, и когда обучение заканчивается, платформа достигает показателя точности 44.8 после просмотра в общей сложности 400 миллиардов токенов.
BIG-Bench или тест за пределами имитационных игр
BIG-Скамейка или Beyond the Imitation Game Benchmarks Сложные задания проверяют способности модели к знаниям, рассуждениям и здравому смыслу. Как показано на следующих рисунках, в режиме нулевого выстрела платформа GLM-130B превосходит платформы PaLM 540B и GPT-3 175B, что может быть связано с тем, что MIP и двунаправленное внимание к контексту повышают производительность GLM-130B в невидимых задачах в настройка нулевого выстрела. Кроме того, по мере увеличения количества снимков производительность системы GLM-130B также улучшается, постоянно превосходя структуру GPT-3.

CLUE или оценка понимания китайского языка
Производительность GLM-130B с нулевым выстрелом на китайском языке оценивается с помощью установленных эталонных задач НЛП, включая CLUE и FewCLUE, и сравнивается с 260B ERNIE Titan 3.0, крупнейшей существующей моделью на китайском языке. Как можно заметить, платформа GLM-130B постоянно превосходит платформу 260B ERNIE Titan 3.0 в 12 различных задачах и работает почти на 260% лучше, чем платформа ERNIE, на двух абстрактных наборах данных MRC.

Заключение
В этой статье мы рассказали о ГЛМ-130Б, двуязычная предварительно обученная модель большого языка, целью которой является содействие инклюзивным исследованиям LLM. Архитектурные, инженерные и технические мероприятия направлены на то, чтобы предоставить сообществу искусственного интеллекта лучшее представление об архитектуре структур LLM, эффективности и стабильности обучения, целях предварительного обучения и доступном вмешательстве.










