Свяжитесь с нами:

Зефир: прямая дистилляция выравнивания LLM

Искусственный интеллект

Зефир: прямая дистилляция выравнивания LLM

mm

Возможности и производительность небольших, открытых больших языковых моделей значительно улучшились за последние годы, и мы стали свидетелями прогресса от ранних моделей GPT-2 к более компактным, точным и эффективным структурам LLM, которые используют значительно большее количество токенов. что «оптимальный для вычислений» количество токенов, рекомендованное законами масштабирования Chinchilla. Кроме того, разработчики продемонстрировали, что эти меньшие по размеру структуры LLM можно дополнительно обучать с использованием запатентованных моделей, основанных на dSFT или дистиллированная контролируемая точная настройка подход, который использует результаты эффективной модели учителя в качестве контролируемых данных для модели ученика в попытке повысить точность. 

В этой статье мы поговорим о платформе Zephyr-7B, современной тест чата для моделей параметров 7B это не требует человеческих аннотаций. Основная цель платформы — дать разработчикам возможность создавать более мелкие и большие языковые модели, которые лучше, чем когда-либо прежде, соответствуют намерениям пользователя. Платформа Zephyr-7B не только исследует применение текущих подходов для более крупных структур LLM, таких как dSFT, но также исследует возможность использования других подходов для изучения модели чата, лучше соответствующей намерениям пользователя. Мы углубимся в структуру Zephyr и изучим ее архитектуру, работу и результаты. Итак, давайте начнем. 

Zephyr-7B: Введение в прямую дистилляцию мировоззрения в языковых моделях

Как упоминалось ранее, в последние годы языковые модели быстро развивались: от более ранних фреймворков GPT-2 до нынешних GPT-4 и МиниГПТ-5 Структуры LLM, которые, хотя и являются весьма исчерпывающими, теперь являются более точными и гораздо более эффективными. Главной особенностью этих передовых структур LLM является то, что они включают значительно большее количество токенов, чем количество токенов, которые ранее считались оптимальными в вычислительном отношении в рамках Законы масштабирования шиншиллы. Кроме того, разработчики и исследователи, работающие над структурами LLM, узнали, что эти более мелкие структуры LLM можно дополнительно обучать с помощью собственные модели на основе dSFT или подход «Дистиллированная контролируемая тонкая настройка», который использует результаты эффективной модели учителя в качестве контролируемых данных для модели ученика в попытке повысить точность. Стратегия дистилляции зарекомендовала себя как высокоэффективный и полезный инструмент для максимизации потенциала и возможностей открытых моделей в широком спектре задач, хотя она пока не может воспроизвести производительность, достигнутую моделью учителя. Кроме того, пользователи часто сообщают, что эти модели часто отображают «несовпадение намерений»Это означает, что поведение моделей не соответствует требованиям конечных пользователей, что приводит к неверным выходным данным, которые не обеспечивают правильные выходные данные или ответы на вводимые пользователем данные или запросы. 

Согласование намерений всегда было серьезной проблемой для разработчиков, и в недавних работах основное внимание уделялось разработке таких тестов, как AlpacaEval и MT-Bench разработан для устранения перекоса. Мотивацией для разработки структуры Zephyr можно объяснить проблему использования дистилляции для полного согласования небольшой открытой структуры LLM, где основным шагом является использование AIF или обратная связь с искусственным интеллектом получить данные о предпочтениях из ансамбля модели учителя, а затем применить очищенную оптимизацию предпочтений непосредственно в качестве основной цели обучения - подход, который называется dDPO или оптимизация политики шумоподавления. Основная особенность подхода dDPO заключается в том, что в отличие от его предшественников, таких как PPO или оптимизация проксимальных предпочтений, он не требует человеческой выборки или аннотаций, а также сокращает время, необходимое для обучения языковой модели. Более того, это также позволяет разработчикам максимизировать выгоду от окончательного образца, уделяя пристальное внимание последовательности шагов шумоподавления от начала до конца, другими словами, на всем протяжении. 

Разработчики разработали платформу Zephyr-7B для проверки этого подхода, и в некотором смысле это согласованная версия современного уровня техники. Рамка Мистраль-7Б. Платформа сначала использует dSFT или дистиллированную контролируемую тонкую настройку на основе набора данных UltraChat, а затем применяет dDPO или шумоподавление. Вещание Подход к оптимизации политики на основе данных обратной связи. Эксперименты показывают, что платформа Zephyr-7B с 7 миллиардами параметров дает результаты, сравнимые с результатами, полученными с помощью моделей чата, ориентированных на обратную связь с человеком, с более чем 70 миллиардами параметров. Более того, эксперименты также показывают, что результаты могут быть улучшены как с точки зрения тестов, учитывающих разговорные способности, так и стандартных академических тестов, а использование обучения предпочтениям имеет решающее значение для достижения желаемых результатов. 

На рисунке выше показана производительность различных языковых моделей в тесте MT-bench. Платформа Zephyr-7B, обучаемая с использованием подхода dDPO, сравнивается с проприетарными, а также более крупными языковыми моделями с открытым доступом, такими как GPT-3.5 Turbo, Llama-2-70B и другими, которые были обучены с использованием дополнительного обучения с подкреплением. также включало огромное количество отзывов людей. Как можно ясно видеть, несмотря на явную разницу в количестве параметров, которые используют эти платформы, платформа Zephyr-7B обеспечивает сопоставимые результаты по большинству из них и превосходит несколько платформ в разных областях. 

Zephyr-7B: метод, работа и архитектура

Основная цель платформы Zephyr-7B — помочь платформе с открытым исходным кодом. большая языковая модель максимально близко соответствовать намерениям пользователя, и на протяжении всей своей работы платформа Zephyr-7B предполагает доступ к большой модели учителя, которая запрашивается с использованием генерации подсказок. Zephyr-7B использует подход, аналогичный тому, который используется в платформе InstructGPT, и направлен на создание эффективной и точной модели учащихся. 

На следующем рисунке кратко показаны три основных этапа работы платформы Zephyr-7B. 

  1. dSFT для построения крупномасштабных наборов данных с использованием стиля самообучения. 
  2. Коллекция AIF с использованием набора завершенных моделей чата с последующей бинаризацией предпочтений и оценкой GPT-4. 
  3. dPO модели dSFT, используя данные обратной связи. 

dSFT или дистиллированная контролируемая точная настройка

Платформа начинается с сырой модели большого языка, которую сначала необходимо обучить реагировать на запросы пользователя. Традиционно обучение этих инфраструктур LLM реагированию на запросы пользователя выполняется с использованием SFT или контролируемой точной настройки на наборе данных, состоящем из высококачественных инструкций и соответствующих им ответов. Поскольку платформа Zephyr-7B имеет доступ к модели языка учителя, она может генерировать инструкции и ответы и обучать модель непосредственно на основе этих инструкций и ответов. Этот подход известен как dSFT или дистиллированный SFT. На следующем рисунке показана фильтрация, выполняемая SFT, где x представляет собой набор начальных подсказок, созданных с основной целью представления разнообразного набора тематических областей, y представляет образец ответа, который уточняется с использованием новой инструкции образца, представленной x1 и C. представляет конечную точку в окончательном наборе данных. 

Обратная связь с искусственным интеллектом через настройки

Человеческая обратная связь используется для назначения моделей большого языка, поскольку они могут предоставлять необходимые дополнительные сигналы, и эта человеческая обратная связь традиционно обеспечивается посредством предпочтений в отношении качества ответов, генерируемых структурами LLM. Однако платформа Zephyr использует обратную связь ИИ от модели учителя о результатах, сгенерированных другими моделями, вместо обратной связи от человека для целей дистилляции. Подход, используемый в платформе Zephyr, находится под влиянием подхода, используемого в платформе UltraFeedback, которая использует модель учителя для предоставления предпочтений по результатам модели. 

Подобно подходу SFT или контролируемой точной настройки, он начинается с набора подсказок, где x представляет каждую отдельную подсказку, которая затем передается в набор из четырех моделей, таких как Лама, Сокол, Клод и другие, каждая из которых генерирует ответ. свои собственные. Эти ответы затем передаются в качестве входных данных в модель учителя, например GPT-3 или GPT-4, и модель выводит оценку для входного ответа. После сбора выходных оценок модель сохраняет ответ с наивысшим баллом. 

dDPO или дистиллированная прямая оптимизация предпочтений

dDPO — это последний шаг структуры Zephyr, и его основная цель — усовершенствовать модель учителя dSFT путем максимизации вероятности ранжирования предпочтительного ответа в модели предпочтений, которая определяется функцией вознаграждения с использованием модели языка ученика. Предыдущий шаг, связанный с использованием обратной связи ИИ, был сосредоточен в первую очередь на использовании методов обучения с подкреплением, таких как PPO или оптимизация проксимальной политики, для максимальной оптимизации в отношении генерируемого вознаграждения. На этом этапе вознаграждение сначала обучается, а затем выбирается из текущей политики для расчета обновлений и, таким образом, максимизирует оптимизацию. DPO или прямая оптимизация предпочтений использует аналогичный подход для оптимизации модели предпочтений напрямую с использованием статических данных. Цель после подключения функции вознаграждения к модели предпочтений можно записать как

Zephyr-7B: эксперименты, тесты и результаты

Платформа Zephyr проводит эксперименты по тонкой настройке современной инфраструктуры Mistral-7B, которая обеспечивает сопоставимую производительность с гораздо более крупными языковыми моделями при выполнении широкого спектра задач обработки естественного языка или НЛП. 

Datasets

Фреймворк Zephyr использует два набора данных диалогов, которые были выделены из смеси проприетарных и открытых моделей, которые ранее доказали свою эффективность при создании эффективных моделей чата. 

УльтраЧат

UltraChat — это набор данных для самостоятельного уточнения, состоящий из почти 1.5 миллионов многоходовых диалогов, распределенных по 30 темам, и 20 текстовых материалов, созданных с помощью платформы GPT-3.5-Turbo. Чтобы решить проблему неправильной капитализации, с которой сталкивается набор данных UltraChat, платформа применяет эвристический подход с истинным регистром, чтобы избавиться от грамматических ошибок. 

Ультраобратная связь

UltraFeedback — это набор данных подсказок, содержащий более 64 тысяч подсказок, причем каждое из этих подсказок имеет четыре отдельных ответа LLM. Платформа Zephyr использует наивысший средний балл, полученный из набора данных UltraFeedback, для построения бинарных предпочтений, а один из оставшихся трех ответов LLM отклоняется как случайный. 

Оценка

Чтобы оценить производительность платформы Zephyr, разработчики выбрали два теста чата: одноповоротный и многоповоротный, пытаясь оценить способность модели следовать инструкциям пользователя и реагировать соответствующим образом. 

МТ-Скамья

Тест оценки MT-Bench состоит из 160 вопросов, распределенных по 8 уникальным областям знаний, и в рамках теста MT-Bench модель должна ответить на первоначальный вопрос и дать ответ на дополнительный вопрос. 

АльпакаЭвал

AlpacaEval — это одноэтапный тест, в рамках которого модель или структура генерирует ответы пользователей на более чем 800 вопросов, относящихся к различным темам, при этом основное внимание уделяется полезности. 

В дополнение к этим двум основным тестам платформа Zephyr-7B также оценивается в таблице лидеров Open LLM для задач многоклассовой классификации, ARC, HellaSwag, MMLU и других. Более того, независимо от того, по какому тесту оценивается платформа Zephyr-7B, ее сравнивают с рядом проприетарных и открытых моделей, причем единственным отличительным фактором является их процедура согласования. 

Результаты

Давайте теперь посмотрим, как работает платформа Zephyr-7B, и сравним ее с современными языковыми моделями. 

Внедрение подхода dDPO расширяет возможности чата

В следующей таблице сравнивается производительность платформы Zephyr-7B с современными языковыми моделями в тестах AlpacaEval и MT-Bench. 

Как можно ясно видеть, по сравнению с открытыми моделями 7B платформа Zephyr-7B не только значительно превосходит модели dSFT в двух тестах, но и устанавливает новые современные стандарты. Кроме того, фреймворку Zephyr-7B также удается превзойти фреймворк XWIN-LM-7B, который является одной из редких моделей, обученных на подходе dPPO или дистиллированном PPO. Более того, производительность, обеспечиваемая платформой Zephyr-7B, сопоставима с результатами, обеспечиваемыми гораздо более крупными языковыми моделями, такими как Llama2-Chat, с более чем 70B параметрами. 

dDPO повышает производительность академических задач

На следующем рисунке сравнивается производительность платформы Zephyr-7B с широким спектром платформ LLM с открытым исходным кодом и собственных систем. 

Как можно видеть, фреймворк Zephyr-7B значительно превосходит по производительности фреймворки LLM с параметрами 7B, а также заметен разрыв между его производительностью и производительностью наиболее эффективных моделей dSFT. По мере увеличения количества параметров платформа Zephyr-7B отстает, хотя по производительности она соответствует платформам с 40 миллиардами параметров. 

Оптимизация предпочтений

На следующем рисунке мы оцениваем, как различные этапы процесса согласования влияют на производительность. Как можно заметить, подход dDPO в сочетании с dSFT значительно повышает производительность наборов данных как MT-Bench, так и AlpacaEval. 

Наконец, на следующем рисунке мы можем увидеть точность тестирования и обучения во время реализации DPO. Как видно, подход DPO не влияет на производительность модели при выполнении последующих задач. 

Заключение

В этой статье мы говорили о платформе Zephyr-7B, основанной на современной современной платформе Mistral-7B, которая призвана решить текущую проблему согласования от большой языковой модели к гораздо меньшей предварительно обученной платформе. Основная цель платформы — дать разработчикам возможность создавать более мелкие и большие языковые модели, которые лучше, чем когда-либо прежде, соответствуют намерениям пользователя. Платформа Zephyr-7B не только исследует применение текущих подходов для более крупных структур LLM, таких как dSFT, но также исследует возможность использования других подходов для изучения модели чата, лучше соответствующей намерениям пользователя.

Однако, несмотря на многообещающие результаты, структура Zephyr-7B не идеальна, и над ней еще предстоит проделать некоторую работу. Одним из очевидных ограничений является использование платформы GPT-4 для оценки тестов MT-Bench и AlpacaEval, которая часто предвзято относится к моделям, которые она создает сама. Тем не менее, платформа Zephyr-7B надеется открыть путь для изучения возможностей более мелких открытых моделей, способных согласовываться с намерениями и взаимодействиями пользователя. 

«Инженер по профессии, писатель душой». Кунал — технический писатель с глубокой любовью и пониманием ИИ и машинного обучения, стремящийся упростить сложные концепции в этих областях с помощью своей увлекательной и информативной документации.