Искусственный интеллект

GPT-3: изучение языковой модели за несколько шагов?

опубликованный 24 августа 2023

Кунал Кеджривал

За последние несколько лет в индустрии искусственного интеллекта и машинного обучения наблюдался стремительный рост разработки и применения систем НЛП, поскольку исследователи смогли реализовать методы НЛП очень гибкими и независимыми от задач способами для последующей передачи задач.

Первоначально это были однослойные представления, в которых использовались векторы слов, а затем они передавались в архитектуру, специфичную для конкретной задачи. Далее, это была архитектура RNN, которая использовала многоуровневые представления и контекстное состояние для формирования более качественных представлений. И совсем недавно у нас появились модели языка передачи или предварительно обученные рекуррентные модели, которые полностью устранили необходимость в архитектурах для конкретных задач за счет тонкой настройки этих сетей.

Модели перевода языка оказались важным поворотным моментом в индустрии НЛП, поскольку они привели к огромному прогрессу в решении сложных задач, таких как ответы на вопросы, понимание прочитанного или блоков текста, текстовое следование и многое другое.

Однако, несмотря на свои преимущества, модели языка перевода имеют серьезное ограничение, поскольку они требуют точной настройки для конкретной задачи или набора данных для конкретной задачи для достижения желаемой производительности при выполнении задачи. Кроме того, модели языка перевода также требуют от разработчиков точной настройки наборов данных для сотен тысяч примеров, специфичных для конкретной задачи.

Само собой разумеется, что устранение требований к набору данных для конкретных задач и тонкой настройке для конкретных задач будет весьма желательным и полезным для индустрии НЛП по многим причинам.

Проблемы с существующими предварительно обученными моделями языка перевода или рекуррентными моделями

Ограничение практичности и применимости

Прежде всего, требование большого набора данных с размеченными данными для каждой задачи ограничивает применимость и практичность языковых моделей. Языковые модели находят свое применение в самых разных задачах: от создания рассказа до исправления грамматических ошибок и создания примеров по концепции. Иногда собрать большой контролируемый набор данных с размеченными данными оказывается непростой задачей, особенно когда этот процесс необходимо повторять для каждой отдельной задачи.

Использование ложных корреляций в обучающих данных

Ограничения и узость распределения обучения в сочетании с выразительностью модели могут привести к фундаментальному росту возможностей использования ложных корреляций в данных обучения. Возможность использования данных обучения может привести к проблемам во время парадигмы точной настройки и предварительного обучения, поскольку модели языка перевода разработаны таким образом, чтобы поглощать большой объем информации во время предварительного обучения.

Кроме того, работа над предыдущими моделями показала, что большие модели не приводят к лучшему распределению каждый раз. Кроме того, также было указано, что обобщение, достигнутое в рамках такой парадигмы, может привести к низкой производительности, прежде всего потому, что модель очень специфична для обучающих данных и не может хорошо работать в ситуациях, выходящих за рамки обучающих данных.

Сравнение с человеческим обучением

Наконец, по сравнению с моделями перевода языка, людям не требуется большой набор обучающих данных, когда дело доходит до изучения большинства языковых задач. Чаще всего краткой инструкции на естественном языке человека или небольшой демонстрации языкового задания достаточно, чтобы человек понял и выполнил языковое задание с определенным уровнем конкурентоспособности.

Способность человека адаптироваться имеет множество практических преимуществ, поскольку позволяет ему либо переключаться между различными наборами навыков, либо смешивать их вместе, чтобы лучше работать на диалекте, что выходит за рамки возможностей нынешних систем НЛП.

Решение проблем с помощью метаобучения и GPT-3

Возможным решением вышеупомянутых проблем является использование метаобучения, концепции современного машинного обучения, которая позволяет модели развивать более крупный и широкий набор навыков и способностей распознавать закономерности во время обучения, а затем использовать эти приобретенные способности во время вмешательства для адаптации. быстро или распознать требуемую задачу.

Метаобучение реализуется в архитектуре языковой модели с помощью метода, называемого «контекстное обучение», который использует ввод текста предварительно обученной языковой модели в качестве спецификации задачи. В процессе модель использует инструкцию на естественном языке и может даже использовать несколько демонстраций, а затем ожидается, что модель выполнит остальную часть задачи, предсказывая следующие шаги.

Единственная серьезная проблема с метаобучением заключается в том, что, хотя оно и продемонстрировало положительный потенциал, оно все же уступает подходу тонкой настройки в архитектуре естественного языка и нуждается в дальнейшем совершенствовании, чтобы стать практическим методом решения языковых задач.

Помимо метаобучения, еще один метод, который набирает популярность, — это увеличение возможностей языковых моделей-трансформеров. За последние несколько лет возможности трансферных моделей существенно возросли. РНСС18 модель со 100 миллионами параметров, DCLT18 модель со 300 миллионами параметров, RWC19 модель с 1.5 миллиардами параметров, SSP19 модель с 8 миллиардами параметров, RSR19 модель с 11 миллиардами параметров, и ТУР20 модель с 17 миллиардами параметров.

Увеличение емкости модели или увеличение параметров исторически приводило к улучшению синтеза текста, и были признаки того, что потери журналов, которые коррелируют с последующими задачами, также следуют плавной тенденции к улучшению с масштабированием.

Это подводит нас к модели GPT-3, которая имеет более 175 миллиардов параметров, и на момент ее запуска это была модель языка перевода с самой высокой производительностью. Давайте теперь поговорим о модели GPT-3.

Введение в модель GPT-3

GPT-3 — это автоагрессивная языковая модель с более чем 175 миллиардами параметров, выпущенная OpenAI в 2020 году. GPT-3 также классифицируется как большая языковая модель что, как и ее предшественник, модель GPT-2 представляет собой модель преобразователя глубокого обучения, предназначенную только для декодера, которая использует архитектуру на основе свертки для генерации текстовых данных.

Модель GPT-3 измеряет собственные способности к контекстному обучению, а модель GPT-3 оценивается на более чем двух десятках наборов данных НЛП и множестве новых задач. Для каждой отдельной задачи модель GPT-3 оценивается по трем условиям:

Обучение в несколько этапов или обучение в контексте: За несколько этапов обучения модель GPT-3 позволяет использовать столько распределений, сколько хорошо вписывается в контекстное окно модели.
Обучение за один раз: При однократном обучении модель допускает только одну демонстрацию.
Обучение нулевому выстрелу: При нулевом обучении нет демонстраций, а есть только инструкции на естественном языке, которые передаются модели.

Вообще говоря, Модель ГПТ-3 достигает желаемой производительности в режимах «нулевой» и «однократный», а в режиме «несколько впрысков» он в большинстве случаев превосходит современные модели переноса. Кроме того, модель GPT-3 хорошо работает в однократных и нулевых настройках при выполнении задач на естественном языке, предназначенных для проверки рассуждений на лету или требующих быстрого внимания, таких как использование новых слов после предложения, расшифровка слов или выполнение арифметических действий. операции. С другой стороны, при работе в режиме с несколькими кадрами модель GPT-3 генерирует синтетические новостные статьи, которые напоминают написанное человеком, когда они проходят через оценщиков-людей.

Модель GPT-3: подход

Модель GPT-3 использует традиционный подход предварительного обучения, который включает модель, данные и обучение, и он напоминает процесс предварительного обучения, за которым следует модель языка передачи RWC-19. Модель GPT-3 увеличивает размер модели, размер набора данных, разнообразие набора данных и увеличивает продолжительность периода обучения.

В модели также используется подход контекстного обучения, который снова напоминает подход модели RWC-19, но с некоторыми изменениями за счет систематического изучения различных настроек для шаблонов обучения в контексте набора данных.

Итак, давайте начнем с изучения этих настроек и оценим, как модель GTP-3 работает при различных настройках.

Тонкая настройка

Точная настройка модели была традиционным подходом при передаче. языковые модели, и этот подход включает обновление весов предварительно обученной модели путем обучения модели на контролируемом наборе данных, специфичном для желаемой задачи, и в ходе этого процесса используются сотни тысяч помеченных примеров.

Подход к точной настройке полезен, поскольку он обеспечивает высокую производительность по многочисленным тестам. С другой стороны, основным ограничением использования подхода точной настройки является то, что он требует нового и большого набора данных для каждой отдельной задачи, потенциально может использовать ложные особенности набора обучающих данных и потенциально может привести к несправедливому сравнению с производительностью человека. и плохое обобщение для случаев выхода за пределы распределения.

Текущая область применения модели GPT-3 не реализует подход тонкой настройки из-за ее производительности, не зависящей от задачи, хотя тонкая настройка может быть применена к модели GPT-3 в будущем.

Мало выстрелов

«Несколько выстрелов» — это термин, обозначающий настройку, в которой модели GPT-3 дается несколько демонстраций задачи во время вмешательства в качестве кондиционирования, но веса модели не обновляются. В настройках с несколькими кадрами набор данных обычно содержит пример с контекстом и желаемым завершением (например, французское предложение и его английский перевод). Настройка нескольких кадров дает модели K примеры контекста и завершения, а затем предоставляет модели один окончательный контекст и ожидает, что модель предоставит завершение.

Главное преимущество использования метода обучения с малым числом выстрелов заключается в том, что он значительно снижает потребность в данных, специфичных для конкретной задачи, а также снижает вероятность обучения узкого распределения на основе большого набора данных, настроенного с высокой точностью. С другой стороны, главный недостаток метода обучения с малым числом выстрелов заключается в том, что результаты, получаемые в этом режиме, не отвечают требованиям и значительно хуже, чем у других современных моделей с тонкой настройкой.

One Shot

В варианте с одним заданием (one shot) модели предоставляется только одна демонстрация, а всё остальное аналогично варианту с несколькими заданиями. Причина, по которой вариант с одним заданием актуален для моделей перевода языка, заключается в том, что из всех трёх вариантов именно один лучше всего соответствует тому, как задачи доносятся до людей. Это связано с тем, что в большинстве заданий обычно проводится одна демонстрация, иначе может быть сложно понять контекст задания.

Нулевой выстрел

В режиме нулевого выстрела демонстрации не проводятся, и модель получает инструкцию на естественном языке, описывающую задачу. Метод нулевого выстрела — это метод, который обеспечивает максимальное удобство, является надежным и позволяет избежать ложных корреляций, но он также является самым сложным из всех трех параметров. Это потому, что в некоторых случаях даже нам, людям, трудно понять контекст задачи, не увидев предварительно демонстрацию.

Тем не менее, для некоторых задач настройка нулевого выстрела больше всего напоминает то, как люди выполняют задачи на естественном языке.

На рисунке выше сравниваются настройки «несколько кадров», «один выстрел» и «нулевой выстрел» при выполнении задачи на естественном языке по составлению английского предложения и его переводу на французский язык.

GPT-3: Модельная архитектура

Модель GPT-3 использует ту же архитектуру, что и модель GPT-2, и включает в себя методы предварительной нормализации, модифицированной инициализации и обратимой токенизации, которые использовались в модели GPT, за исключением использования альтернативного метода. стратегия для локально объединенных разреженных шаблонов внимания и чередования плотных слоев в слоях преобразователя, аналогично Sparse Transformer.

Чтобы изучить зависимость производительности модели от ее размера, разработчики обучили 8 различных размеров модели, которые варьируются в трех разных порядках от 125 миллионов до более 175 миллиардов параметров, последний из которых называется моделью GPT-3. . Предыдущие работы, связанные с моделями LLM, показали, что масштабирование потерь при проверке с достаточным количеством обучающих данных должно быть приближенным гладким степенным законом в зависимости от размера. Модели обучения разного размера позволяют разработчикам проверять гипотезу как для последующих языковых задач, так и для потери проверки.

На рисунке выше сравниваются размер и архитектура 8 различных моделей, использованных для разработки GPT-3. Здесь n(params) определяет общее количество обучаемых шаблонов, n(layers) определяет общее количество слоев в модели, d(model) определяет количество единиц в каждом слое узкого места, а d(head) определяет размеры каждой головки внимания. Контекстное окно для каждой модели одинаковое с 2048 токенами.

Кроме того, чтобы минимизировать передачу данных между узлами, модель разделена по графическим процессорам по глубине и ширине. Архитектурные параметры для каждой модели были выбраны на основе эффективности вычислений и балансировки нагрузки для максимальной точности размещения моделей на графических процессорах.

Наборы обучающих данных

Как правило, в больших языковых моделях используются наборы данных, которые значительно расширились благодаря недавним разработкам, и кульминацией этого является набор данных Common Crawl, состоящий из более чем триллиона различных слов. Размер набора данных достаточен для обучения модели GPT-3 без многократного обновления одной и той же последовательности. Однако исследования и анализ производительности показывают, что слегка отфильтрованные или нефильтрованные версии набора данных Common Crawl имеют низкое качество по сравнению с более тщательно подобранными наборами данных.

Чтобы решить проблему среднего качества набора данных, разработчики предприняли три шага для повышения качества набора данных.

Разработчики загрузили и отфильтровали версию набора данных Common Crawl на основе диапазона, аналогичного высококачественным справочным корпусам.
Разработчики выполнили нечеткое дублирование на уровне документа по всему набору данных, пытаясь сохранить целостность своего отложенного набора проверки в качестве эффективного измерения переобучения, а также предотвратить избыточность.
Разработчики также добавили высококачественные справочные корпуса к обучающим данным, чтобы расширить набор данных Common Crawl и еще больше увеличить разнообразие набора данных.

На следующем рисунке показана окончательная пропорция или смесь наборов данных, использованных для обучения модели GPT-3. Данные Common Crawl до фильтрации состояли из более чем 45 ТБ открытого текста, а после фильтрации сократились до 570 ГБ, что примерно эквивалентно более чем 400 миллиардам закодированных пар байтов токенов. Стоит отметить, что наборы данных для обучения, которые считаются более качественными, выбираются с большей частотой, а не пропорционально их размеру. В результате такие наборы данных, как Books2 и Common Crawl, выбираются реже одного раза во время обучения, в то время как другие наборы данных выбираются многократно. Это позволяет модели принять небольшое количество переобучения в обмен на обучение на данных более высокого качества.

Серьезной проблемой, связанной с большими языковыми моделями, которые предварительно обучены на большом объеме интернет-данных и способны запоминать и изучать большой объем контента, является потенциальное загрязнение последующих задач, если их наборы разработки или тестирования будут видны во время предварительной подготовки. тренировочный процесс. Чтобы уменьшить такое потенциальное загрязнение, разработчики искали любые совпадения с наборами тестов и разработок тестов, изученных для GPT-3, и пытались устранить эти совпадения.

На изображении выше показан общий объем вычислений, использованный во время обучения модели GPT-3. Модель использует законы масштабирования для моделей нейронного языка для обучения гораздо более крупных моделей с меньшим количеством токенов, чем обычно. В результате и модель GPT-3, и модель RoBERTa-Large, которая в 10 раз меньше модели GPT-3, потребовала почти 50 петафлопс/день вычислений во время процесса предварительного обучения.

Оценка

Для обучения с несколькими выстрелами модель оценивает каждый пример, присутствующий в наборе оценочных данных, случайным образом извлекая K примеров из набора обучающих данных этой задачи в качестве условия и ограничивая его 1 или 2 символами новой строки в зависимости от задачи. Для Storycloze и LAMBADA модель извлекает примеры условий из набора разработки и оценивает их на тестовом наборе из-за недоступности контролируемого обучающего набора. Для Винограда существует только один набор данных, поэтому выборки условий берутся непосредственно из него.

K может быть любым значением от 0 до максимального значения, разрешенного контекстным окном модели, которое равно nExt = 2048 для всех моделей и обычно соответствует примерно 10–100 примерам. Большие значения K часто приводят к лучшим результатам, но не всегда, поэтому, когда у модели есть тестовый набор и доступен отдельный набор для разработки, модель экспериментирует с несколькими значениями K в наборе для разработки и на основе результатов. , он получает лучшее значение в тестовом наборе.

Кроме того, для задач, которые требуют выбора правильного завершения из нескольких вариантов, разработчики предоставляют K примеров исправления плюс завершение контекста, а затем предоставляют только один пример контекста, а затем задачи сравниваются на основе вероятности LM. каждого завершения. Для задач, требующих двоичной классификации, модели часто предоставляют варианты более семантически и с более значимыми именами, а затем рассматривают задачу как вариант с множественным выбором, а иногда также формулируют задачу аналогично тому, что делается моделью и архитектурой RSR.

Для задач, требующих выполнения в произвольной форме, модель использует поиск луча с идентичными параметрами, используемыми в структуре RSR, с длиной луча 4 и штрафом 0.6. Затем модель оценивается с использованием показателя сходства F1, точного соответствия или BLEU, в зависимости от стандарта набора данных.

Результаты

На рисунке выше показаны кривые обучения для 8 моделей, используемых в архитектуре модели GPT-3, как описано в предыдущих разделах. Подобно результатам языковой модели KMH, производительность модели GPT-3 подчиняется правильному закону при эффективном использовании обучающих вычислений. Небольшое отличие от закона наблюдается только при удлинении тренда еще на два порядка. Людям может прийти в голову, что улучшение потерь перекрестной энтропии может быть результатом моделирования ложных деталей обучающего корпуса. Тем не менее, улучшение перекрестных энтропийных потерь приводит к последовательному повышению общей производительности в широком спектре различных задач НЛП.

Прежде чем оценивать 8 различных моделей на широком спектре обучающих данных, наборы данных группируются в 8 различных категорий, которые представляют собой схожие задачи. Эти категории

Оценка традиционных задач языкового моделирования и задач, которые напоминают языковое моделирование, таких как задачи Cloze, или задачи завершения предложения/абзаца.
Оценка выполнения заданий на ответы на вопросы в формате «закрытой книги».
Оценка способности модели переводить между языками (особенно однократный и малочастотный)
Оценка производительности модели на задачах, подобных схеме Винограда.
Оценка наборов данных, которые включают в себя здравый смысл или ответы на вопросы.
Оценка выполнения заданий на понимание прочитанного.
Оценка набора тестов SuperGLUE.
Изучение НЛИ.

Языковое моделирование, завершение и закрытие задач

В этом разделе производительность модели GPT-3 оценивается на традиционных задачах моделирования языка, а также на задачах, требующих предсказания одного интересующего слова, завершения абзаца или предложения или завершения фрагмента текста. Давайте обсудим их вкратце подробно.

Языковое моделирование

Модель GPT-3 рассчитывает нулевую плексность на наборе данных PTB или Penn Tree Bank. Модель исключает задачи, связанные с Википедией, поскольку они уже включены в обучающие данные модели, а также бенчмарк в один миллиард слов, поскольку он вызывает значительные помехи, связанные с набором данных, находящимся в обучающих данных. Однако набор данных PTB решает эти проблемы, поскольку он может быть старше современного интернета. Самая большая модель в архитектуре модели GPT-3 опережает новую SOTA на наборе данных PTB с заметным отрывом в 15 баллов и достигает плексности 20.50.

ЛАМБАДА

Набор данных LAMBADA используется для проверки моделирования модели на долгосрочных зависимостях в абзацах или текстах. Это означает, что модель просят предсказать последнее слово предложения после прочтения абзаца в контексте контекста. Более того, постоянное масштабирование языковых моделей приводит к уменьшению отдачи от эталонного теста.

Модель GPT-3 достигает точности 76 % на LAMBADA и имеет прирост более чем на 8 % по сравнению с предыдущими лучшими моделями. Более того, модель LAMBADA демонстрирует гибкость пошагового обучения, поскольку она решает проблему классическим способом, который возникает с набором данных. Завершением предложения в LAMBADA обычно является последнее слово предложения, но поскольку языковая модель не может этого знать, она присваивает вероятность не только правильному окончанию, но и другим продолжениям в абзаце.

Более того, когда примеры, передаваемые в модель GPT-3, изменяются определенным образом, модель возвращает точность более 86 %, что более чем на 18 % больше, чем у предыдущих моделей. Кроме того, результаты также показали, что производительность модели в режиме нескольких снимков увеличивается пропорционально увеличению размера модели. Хотя эта стратегия уменьшает размер самой маленькой модели в архитектуре GPT-3 на 20 %, она повышает точность основной модели GPT-3 со 175 миллиардами параметров на 10 %.

Закрытая книга: ответы на вопросы

Ответы на вопросы по закрытой книге — это попытка измерить способность модели GPT-3 отвечать на вопросы, основанные на обширных фактических знаниях. Поскольку такие вопросы часто содержат большое количество возможных запросов, задача обычно решается с использованием системы поиска информации, которая позволяет модели находить соответствующий текст в сочетании с моделью, которая учится генерировать ответ на ответ с учетом извлеченного текста, и вопрос.

На изображении выше сравниваются результаты модели GPT-3 с другими моделями, работающими на разных наборах данных. В наборе данных TriviaQA модель достигает показателя точности 64.3% при настройке «нулевого выстрела», а точность — 68% и 71.2% при настройке «однократного» и «несколько выстрелов» соответственно.

Наглядно видно, что модель ГПТ-3 при нулевой настройке превосходит доработанную модель Т5-11Б более чем на 14%.

На рисунке выше видно, что производительность модели GPT-3 плавно растет с увеличением размера модели. Производительность предполагает, что языковые модели продолжают учиться на наборе данных по мере увеличения их емкости.

Заключение

Можно с уверенностью сказать, что GPT-3 стал революционным этапом в индустрии LLM, поскольку GPT-3 помог расширить границы возможностей языковой модели. Именно разработки и препятствия, преодоленные GPT-3, проложили путь к самой совершенной и точной модели большого языка на сегодняшний день — GPT-4.

Похожие темы:GPT-3 LLM OpenAI

Meta представляет новый инструмент кодирования Code Llama

Не пропустите

Отчет о доходах NVIDIA показывает доминирование в революции искусственного интеллекта