Искусственный интеллект

GPT-3 : Few Shot Learning for Language Model?

Published August 24, 2023

Updated April 4, 2026

Kunal Kejriwal

В последние несколько лет отрасль ИИ и МЛ стала свидетелем стремительного роста разработки и применения систем NLP, поскольку исследователи смогли реализовать методы NLP в высоко гибкой и независимой от задачи форме для задач передачи вниз.

Первоначально это были однослоные представления, которые использовали векторы слов, и затем передавались в архитектуру, специфичную для задачи. Далее это была архитектура RNN, которая использовала многослойные представления и контекстное состояние для формирования лучших представлений. И, наконец, у нас есть передовые языковые модели или предварительно обученные рекуррентные модели, которые полностью исключили необходимость в архитектуре, специфичной для задачи, за счет тонкой настройки этих сетей.

Модели передачи языка оказались важным поворотным моментом в отрасли NLP, поскольку они привели к огромному прогрессу в сложных задачах, таких как ответы на вопросы, чтение понимания или блоков текста, текстовая импликация и многое другое.

Однако, несмотря на их преимущества, модели передачи языка имеют серьезное ограничение, поскольку они требуют тонкой настройки, специфичной для задачи, или набора данных, специфичного для задачи, для достижения желаемой производительности в задаче. Кроме того, модели передачи языка также требуют от разработчиков тонкой настройки наборов данных на сотни тысяч примеров, специфичных для конкретной задачи.

Само собой разумеется, что исключение требования к набору данных, специфичному для задачи, и тонкой настройке, специфичной для задачи, будет очень желательно и полезно для отрасли NLP по многочисленным причинам.

Проблемы с существующими предварительно обученными моделями передачи языка или рекуррентными моделями

Ограничение практичности и применимости

Прежде всего, требование большого набора данных с помеченными данными для каждой задачи ограничивает применимость и практичность языковых моделей. Языковые модели находят свои применения в широком диапазоне задач, от генерации короткого рассказа до исправления грамматических ошибок, до генерации примеров по концепции. Иногда это сложная задача – собрать большой контролируемый набор данных с помеченными данными, особенно когда этот процесс необходимо повторять для каждой отдельной задачи.

Использование ложных корреляций в обучающих данных

Ограничения и узость распределения обучения, в сочетании с выразительностью модели, могут привести к фундаментальному росту потенциала использования ложных корреляций в обучающих данных. Потенциал использования обучающих данных может привести к проблемам во время тонкой настройки и предварительного обучения, поскольку модели передачи языка разработаны для поглощения большого количества информации во время предварительного обучения.

Кроме того, работа над предыдущими моделями показала, что большие модели не всегда приводят к лучшим результатам вне распределения каждый раз. Кроме того, было показано, что обобщение, достигнутое в таком парадигме, может привести к плохой производительности, прежде всего потому, что модель очень специфична для обучающих данных и не может работать хорошо в ситуациях, выходящих за рамки обучающих данных.

Сравнение с обучением человека

Наконец, по сравнению с моделями передачи языка, люди не требуют большого обучающего набора данных, когда речь идет об обучении большинству языковых задач. Часто бывает достаточно краткого указания в естественном языке человека или небольшой демонстрации языковой задачи, чтобы человек мог понять и выполнить языковую задачу с определенным уровнем конкурентоспособности.

Способность человека адаптироваться имеет много практических преимуществ, поскольку она позволяет людям либо переключаться между разными наборами навыков, либо комбинировать их, чтобы лучше работать во время диалога, что выходит за рамки возможностей текущих систем NLP.

Решение проблем с помощью метаобучения и GPT-3

Возможным решением вышеуказанных проблем является использование метаобучения, концепции в современном МЛ, которая позволяет модели развивать более широкий и универсальный набор навыков и способностей к распознаванию закономерностей во время обучения, а затем использовать эти приобретенные способности во время интерференции для быстрой адаптации или распознавания необходимой задачи.

Метаобучение реализуется в архитектуре языковой модели с помощью техники, называемой «обучение в контексте», которая использует текстовый ввод предварительно обученной языковой модели в качестве спецификации задачи. В процессе модель учитывает естественный язык, и может даже использовать несколько демонстраций, и затем модель ожидается выполнить остальную часть задачи, предсказывая следующие шаги.

Единственная серьезная проблема с метаобучением заключается в том, что, хотя оно показало положительный потенциал, оно все еще уступает подходу тонкой настройки в архитектуре естественного языка, и требует дальнейшего совершенствования, чтобы стать практическим методом для преодоления языковых задач.

Помимо метаобучения, еще одним методом, который набирает популярность, является увеличение емкости моделей трансформеров. В последние годы модели передачи стали свидетелями значительного увеличения их емкости с моделью RNSS18 с 100 миллионами параметров, моделью DCLT18 с 300 миллионами параметров, моделью RWC19 с 1,5 миллиардами параметров, моделью SSP19 с 8 миллиардами параметров, моделью RSR19 с 11 миллиардами параметров и моделью TUR20 с 17 миллиардами параметров.

Увеличение емкости модели или увеличение количества параметров исторически приводило к улучшению синтеза текста, и было показано, что логарифмическая потеря, которая коррелирует с задачами передачи вниз, также следует гладкому тренду улучшения с увеличением масштаба.

Это приводит нас к модели GPT-3, которая имеет более 175 миллиардов параметров, и когда она была запущена, она была моделью передачи языка с самой высокой емкостью. Давайте теперь поговорим о модели GPT-3.

Введение в модель GPT-3

GPT-3 – это автоагрессивная языковая модель с более 175 миллиардами параметров, выпущенная компанией OpenAI в 2020 году. GPT-3 также классифицируется как большая языковая модель, которая, как и ее предшественник модель GPT-2, является декодерной моделью глубокого обучения трансформера, которая использует архитектуру, основанную на свертке, для генерации текстовых данных.

Модель GPT-3 измеряет свои собственные способности контекстного обучения, и модель GPT-3 оценивается на более чем двух десятках наборов данных NLP и нескольких новых задачах. Для каждой отдельной задачи модель GPT-3 оценивается в трех условиях,

Обучение с несколькими примерами или обучение в контексте: В обучении с несколькими примерами модель GPT-3 позволяет столько распределений, сколько может поместиться в контекстное окно модели.
Обучение с одним примером: В обучении с одним примером модель позволяет только одну демонстрацию.
Обучение без примеров: В обучении без примеров нет демонстраций, и есть только инструкция в естественном языке, которая подается в модель.

В целом, модель GPT-3 достигает желаемой производительности в настройках без примеров и с одним примером, и в настройке с несколькими примерами она превосходит модели передачи государства в большинстве случаев. Кроме того, модель GPT-3 работает хорошо в настройках с одним примером и без примеров в задачах естественного языка, предназначенных для проверки рассуждений на лету или требующих быстрого внимания, таких как использование новых слов после предложения, расшифровка слов или выполнение арифметических операций. С другой стороны, когда она работает в настройке с несколькими примерами, модель GPT-3 генерирует синтетические новостные статьи, которые похожи на человеческое письмо, когда они проходят через человеческую оценку.

Модель GPT-3: подход

Модель GPT-3 использует конвенциональный подход предварительного обучения, который включает модель, данные и обучение, и он похож на процесс предварительного обучения, используемый в модели передачи RWC-19. Модель GPT-3 масштабирует размер модели, размер набора данных, разнообразие набора данных и увеличивает длину периода обучения.

Модель также использует подход обучения в контексте, который еще раз похож на подход модели RWC-19, но немного изменяет настройки для систематического изучения разных условий для обучения закономерностям в контексте набора данных.

Итак, давайте начнем с изучения этих условий и оценки того, как модель GPT-3 работает в разных условиях.

Тонкая настройка

Тонкая настройка модели была конвенциональным подходом в моделях передачи языка, и этот подход включает обновление весов предварительно обученной модели путем обучения модели на контролируемом наборе данных, специфичном для желаемой задачи, и используются сотни тысяч помеченных примеров во время этого процесса.

Подход тонкой настройки полезен, поскольку он возвращает сильную производительность на различных эталонах. С другой стороны, основным ограничением подхода тонкой настройки является то, что он требует нового и большого набора данных для каждой отдельной задачи, имеет потенциал использовать ложные особенности обучающих данных, может потенциально привести к несправедливому сравнению с человеческой производительностью и плохому обобщению для данных вне распределения.

Текущий объем модели GPT-3 не реализует подход тонкой настройки из-за своей производительности, независимой от задачи, хотя тонкая настройка может быть применена к модели GPT-3 в будущем.

Несколько примеров

Несколько примеров – это термин, который относится к настройке, в которой модель GPT-3 дана несколько демонстраций задачи во время интерференции в качестве условий, но веса модели не обновляются. В настройке с несколькими примерами набор данных обычно имеет пример с контекстом и желаемым завершением.

Основным преимуществом использования настройки с несколькими примерами является то, что она значительно снижает необходимость в задаче-специфичных данных и также снижает потенциал изучения узкого распределения из большого набора данных, тонко настроенного узко. С другой стороны, основным недостатком обучения с несколькими примерами является то, что результаты, полученные в настройке с несколькими примерами, не так хороши, как и значительно хуже, чем у других моделей передачи государства, которые тонко настроены.

Один пример

В настройке с одним примером модель дана только одна демонстрация, и остальное похоже на настройку с несколькими примерами. Причина, по которой настройка с одним примером актуальна в моделях передачи языка, заключается в том, что из всех трех настроек один пример – это тот, который наиболее похож на то, как задачи передаются людям.

Нет примеров

В настройке без примеров нет демонстраций, и модель дана естественный язык, который описывает задачу. Метод без примеров – это тот, который предлагает максимальную удобство, является прочным и также избегает ложных корреляций, но это также наиболее сложная из всех трех настроек.

Это потому, что в некоторых случаях это сложно даже для людей понять контекст задачи без просмотра демонстрации сначала.

Вышеуказанная фигура сравнивает настройку с несколькими примерами, настройку с одним примером и настройку без примеров при выполнении задачи естественного языка перевода английского предложения на французский.

Модель GPT-3: архитектура

Модель GPT-3 использует ту же архитектуру, что и модель GPT-2, и она включает предварительную нормализацию, измененную инициализацию и обратимую токенизацию, как это было использовано в модели GPT с исключением использования альтернативной стратегии для локально-бэндовых скудных шаблонов внимания и чередующихся плотных слоев в слоях трансформера, аналогично Sparse Transformer.

Чтобы изучить зависимость производительности модели от размера модели, разработчики обучили 8 разных размеров моделей, которые варьируются более чем на три порядка величины от 125 миллионов до более 175 миллиардов параметров, последний из которых называется моделью GPT-3. Предыдущая работа, связанная с моделями LLM, показала, что масштабирование проверочной потери с достаточным количеством обучающих данных должно быть приблизительным гладким степенным законом в зависимости от размера. Обучение моделей разного размера позволяет разработчикам проверить это предположение как для задач передачи вниз, так и для проверочной потери.

Вышеуказанная фигура сравнивает размер и архитектуру 8 разных моделей, использованных для разработки модели GPT-3. Здесь n(params) определяет общее количество обучаемых параметров, n(layers) определяет общее количество слоев в модели, d(model) определяет количество единиц в каждом слое бутылочного горлышка, и d(head) определяет размерность каждого внимания. Контекстное окно для каждой модели одинаково и составляет 2048 токенов.

Кроме того, чтобы минимизировать передачу данных между узлами, модель разбивается на GPU по глубине и ширине измерений. Параметры архитектуры для каждой модели были выбраны на основе вычислительной эффективности и балансировки нагрузки для максимизации точности в расположении моделей на GPU.

Наборы данных для обучения

Обычно большие языковые модели используют наборы данных, которые значительно расширились с недавними разработками, и они заканчиваются набором Common Crawl, который состоит из более чем одного триллиона разных слов. Размер набора данных достаточен для обучения модели GPT-3 без обновления на одном и том же последовательности несколько раз. Однако исследования и анализ производительности показывают, что слегка отфильтрованные версии или неотфильтрованные версии набора данных Common Crawl имеют низкое качество по сравнению с более отобранными наборами данных.

Чтобы решить проблему среднего качества набора данных, разработчики предприняли 3 шага для повышения качества набора данных.

Разработчики скачали и отфильтровали версию набора данных Common Crawl на основе диапазона, аналогичного высококачественным справочным корпусам.
Разработчики выполнили нечеткую дубликацию на уровне документа по всему набору данных в попытке сохранить целостность их выделенного набора проверки в качестве эффективной меры перекрестной проверки и предотвращения избыточности.
Разработчики также добавили высококачественные справочные корпуса в обучающие данные для дополнения набора данных Common Crawl и дальнейшего увеличения разнообразия набора данных.

Следующая фигура показывает окончательную пропорцию или смесь наборов данных, использованных для обучения модели GPT-3. Данные Common Crawl состояли из более 45 ТБ простого текста до фильтрации, что было уменьшено до 570 ГБ данных после фильтрации, грубого эквивалента более 400 миллиардов токенов, закодированных в пары байтов. Стоит отметить, что наборы данных в обучении, которые считаются более качественными, выборочно используются чаще, а не выборочно используются пропорционально их размеру. В результате наборы данных, такие как Books2 и Common Crawl, выборочно используются менее одного раза во время обучения, тогда как другие наборы данных выборочно используются несколько раз. Это позволяет модели принять небольшое количество переобучения в обмен на обучение на обучающих данных с более высоким качеством.

Значительным вопросом с большими языковыми моделями, предварительно обученными на большом количестве интернет-данных с возможностью запоминать и изучать большое количество контента, является потенциальное загрязнение задач передачи вниз, увидев их наборы разработки или тестирования во время предварительного обучения. Чтобы уменьшить такое потенциальное загрязнение, разработчики искали любые совпадения с наборами разработки и тестирования эталонов, изученных для модели GPT-3, и попытались удалить эти совпадения.

Вышеуказанная изображение показывает общий вычислительный ресурс, использованный во время обучения модели GPT-3. Модель использует Законы масштабирования для нейронных языковых моделей для обучения гораздо больших моделей на меньше токенов, чем обычно. В результате и модель GPT-3, и модель RoBERTa-Large, которая в 10 раз меньше модели GPT-3, заняли почти 50 петафлопс/день вычислительных ресурсов во время предварительного обучения.

Оценка

Для обучения с несколькими примерами модель оценивает каждый пример в наборе оценки, выбирая K примеров случайным образом из набора обучения задачи в качестве условий и ограничивает его 1 или 2 новыми строками в зависимости от задачи. Для Storycloze и LAMBADA модель выбирает примеры условий из набора разработки и оценивает его на наборе тестирования из-за отсутствия контролируемого набора обучения.

K может быть любым значением от 0 до максимального количества, разрешенного контекстным окном модели, которое равно next = 2048 для всех моделей, и обычно помещается около 10 до 100 примеров. Большие значения K часто приводят к лучшим результатам, но не всегда, поэтому, когда у модели есть набор тестирования и отдельный набор разработки, модель экспериментирует с несколькими значениями K на наборе разработки, а затем запускает лучшее значение на наборе тестирования.

Кроме того, на задачах, которые требуют выбора правильного завершения из нескольких вариантов, разработчики предоставляют K примеров правильного завершения плюс контекстное завершение, а затем предоставляют один пример контекста только, и задачи сравниваются на основе вероятности LM каждого завершения. Для задач, которые требуют бинарной классификации, модели часто предоставляют варианты более семантически и с более осмысленными именами, и затем рассматривают задачу как множественный выбор, и иногда также формулируют задачу аналогично тому, как это делает модель RSR и архитектура.

Для задач, которые требуют свободного завершения, модель использует поиск по лучшему пути с идентичными параметрами, используемыми в рамках RSR, с лучшим путем длиной 4 и штрафом 0,6. Модель затем оценивается с помощью либо балла F1, либо точного совпадения, либо BLEU, в зависимости от стандарта набора данных.

Результаты

Вышеуказанная фигура показывает кривые обучения для 8 моделей, использованных в архитектуре модели GPT-3, как описано в предыдущих разделах. Аналогично результатам модели KMH, производительность модели GPT-3 следует правильному закону при эффективном использовании вычислительных ресурсов обучения. Есть небольшое отклонение от закона только тогда, когда тренд расширяется на два порядка больше. Это может показаться людям, что улучшения в перекрестной энтропии могут быть результатом моделирования ложных деталей обучающего корпуса. Однако улучшения в перекрестной энтропии приводят к последовательным выигрышам в общей производительности на широком спектре различных задач NLP.

Прежде чем оценить 8 разных моделей на широком диапазоне обучающих данных, наборы данных сгруппированы в 8 разных категорий, которые представляют аналогичные задачи. Эти категории

Оценка на традиционных задачах моделирования языка и задачах, похожих на моделирование языка, таких как задачи Cloze или завершения предложения/абзаца.
Оценка на «закрытых книгах» задач ответов на вопросы.
Оценка способности модели переводить между языками (особенно с одним примером и несколькими примерами)
Оценка производительности модели на задачах, похожих на схему Winograd.
Оценка на наборах данных, которые включают рассуждения на основе здравого смысла или ответы на вопросы.
Оценка на задачах чтения понимания.
Оценка на наборе задач SuperGLUE.
Изучение NLI.

Моделирование языка, завершение и задачи Cloze

В этом разделе производительность модели GPT-3 оценивается на традиционных задачах моделирования языка, а также на задачах, которые требуют прогнозирования одного слова интереса или завершения абзаца или предложения, или завершения части текста. Давайте обсудим их кратко.

Моделирование языка

Модель GPT-3 рассчитывает нулевую оценку перплексии на наборе данных PTB или Penn Tree Bank. Модель опускает задачи, связанные с Википедией, поскольку они уже включены в обучающие данные модели, а также опускает бенчмарк в один миллиард слов, поскольку это вызывает значительное количество трения набора данных, находящегося в обучающих данных. Однако набор данных PTB решает эти проблемы, поскольку он предшествует современному интернету. Самая большая модель в архитектуре модели GPT-3 устанавливает новые SOTA на наборе данных PTB на заметном отрыве в 15 пунктов и достигает перплексии 20,50.

LAMBADA

Набор данных LAMBADA используется для проверки моделирования модели на длинных зависимостях в абзацах или текстах. Это означает, что модель запрашивается предсказать последнее слово предложения после прочтения абзаца для контекста. Кроме того, непрерывное масштабирование языковых моделей приводит к снижению доходности на этом бенчмарке.

Модель GPT-3 достигает точности 76% на LAMBADA и имеет выигрыш более 8% над предыдущими лучшими моделями. Кроме того, модель LAMBADA демонстрирует гибкость обучения с несколькими примерами, поскольку она решает проблему классическим способом с набором данных. Завершение предложения в LAMBADA обычно является последним словом предложения, но поскольку языковая модель не может знать это, она присваивает вероятность не только правильному завершению, но и другим продолжениям в абзаце.

Кроме того, когда примеры, поданные в модель GPT-3, изменены определенным образом, модель возвращает точность более 86%, увеличение более 18% над предыдущими моделями. Кроме того, результаты также показали, что производительность модели в настройке с несколькими примерами увеличивается пропорционально с увеличением размера модели. Хотя эта стратегия снижает производительность самой маленькой модели в архитектуре GPT-3 на 20%, она улучшает точность основной модели GPT-3 с 175 миллиардами параметров на 10%.

Закрытые книги ответов на вопросы

Закрытые книги ответов на вопросы – это попытка измерить способность модели GPT-3 отвечать на вопросы на основе широких фактических знаний. Поскольку такие вопросы часто имеют большое количество возможных запросов, задача обычно решается с помощью системы извлечения информации, которая позволяет модели найти соответствующий текст в сочетании с моделью, которая учится генерировать ответ на вопрос, данный извлеченный текст и вопрос.

Вышеуказанная изображение сравнивает результат для модели GPT-3 по сравнению с разными моделями и запускаемыми на разных наборах данных. На наборе данных TriviaQA модель достигает точности 64,3% в настройке без примеров, в то время как она достигает точности 68% и 71,2% в настройках с одним примером и несколькими примерами соответственно.

Это очевидно, что модель GPT-3 в настройке без примеров превосходит тонко настроенную модель T5-11B более чем на 14%.

Вышеуказанная фигура показывает, что производительность модели GPT-3 растет гладко с увеличением размера модели. Производительность предполагает, что языковые модели продолжают изучать из набора данных, когда их емкость увеличивается.

Окончательные мысли

Было бы безопасно сказать, что GPT-3 была революционной фазой в отрасли LLM, поскольку GPT-3 помогла расширить границы того, что могла сделать языковая модель. Это были разработки, сделанные и препятствия, преодоленные GPT-3, которые проложили путь для наиболее совершенной и точной большой языковой модели на сегодняшний день, GPT-4.

Unite.AI