Свяжитесь с нами:

Zephyr-7B: гипероптимизированный LLM от HuggingFace, созданный на базе Mistral 7B

Искусственный интеллект

Zephyr-7B: гипероптимизированный LLM от HuggingFace, созданный на базе Mistral 7B

mm
Сайфер 7Б

Введение

Развитие открытых больших языковых моделей (LLM) оказало значительное влияние на сообщество исследователей искусственного интеллекта, особенно в области разработки чат-ботов и аналогичных приложений. После появления таких моделей, как LLaMA, наблюдается всплеск исследований в области эффективной тонкой настройки, расширенной обработки подсказок, дополненной генерации поиска (RAG) и квантизации.

Модель LLaMA, например, ознаменовала новую эру в тонкой настройке и быстрой контекстуализации, проложив путь для последующих моделей, таких как MPT MosaicML, RedPajama-INCITE Together AI, Falcon TII и Llama 2 Meta. Каждая из этих моделей обладает уникальными возможностями. , расширяя общую функциональность и объем LLM.

Mistral AI, стартап из Парижа, основанный бывшими сотрудниками Google DeepMind и Meta, сделал себе имя своим первым предложением: Mistral 7B.

Преимущество Mistral 7B заключается в его эффективности, поскольку он обеспечивает аналогичные или расширенные возможности по сравнению с аналогами, такими как Llama 2, но с меньшими вычислительными требованиями.

Специально настроенный для учебных задач, Mistral 7B Instruct прекрасно работает на таких платформах, как Hugging Face, где он превосходит другие модели того же размера и тесно конкурирует с теми, у которых его параметры почти вдвое выше.

Основываясь на этом, Hugging Face представила Зефир 7Б Альфа, демонстрируя, что точно настроенный Mistral 7B действительно может превосходить возможности значительно более крупных моделей чата, а в некоторых задачах даже конкурировать с GPT-4. «Альфа» была только началом, поскольку Зефир 7Б Вскоре последовала бета-версия.

В этой статье мы рассмотрим, как Zephyr 7B использует возможности более крупных моделей для совершенствования своей способности реагировать и соответствовать человеческим инструкциям. Этот процесс стал возможным благодаря методу дистилляции знаний. Этот метод предполагает обучение меньших моделей на основе сложных закономерностей, усвоенных более крупными моделями, что снижает требования к обучению без ущерба для возможностей моделирования языка. Мы подробно рассмотрим особенности подхода Hugging Face к дистилляции знаний.

Дистилляция знаний

Ключевое новшество в разработке таких моделей, как Зефир-7Б Это метод тонкой настройки с учителем (dSFT). Этот метод предполагает использование выходных данных более крупной и эффективной модели «учителя» для обучения меньшей модели «ученика», повышая её точность. Хотя дистилляция улучшает эффективность открытых моделей при решении различных задач, разрыв в производительности по сравнению с моделями-учителями всё ещё сохраняется.

Дистилляция знаний — это метод машинного обучения, при котором компактная модель, называемая «студент», учат воспроизводить работу более крупного и сложного «учительмодель. Эта техника позволяет ученику выполнять задачи, которые ранее были ему не по силам, путем передачи сложных закономерностей, изученных учителем.

Дистилляция знаний, | Модель «учитель-ученик»

Дистилляция знаний | Модель «учитель-ученик»

Модель ученика обучается на выходных вероятностях или характеристиках, сгенерированных моделью учителя, уделяя особое внимание сопоставлению этих выходных данных, а не только окончательным прогнозам. Это позволяет ученику изучить нюансы процесса принятия решений учителем, что часто приводит к повышению производительности по сравнению с обучением только на основе достоверных данных.

Исторически метод дистилляции знаний использовался в таких моделях, как оригинальные сети дистилляции Хинтона, а в последнее время — в обработке естественного языка (NLP) с такими моделями, как DistilBERT, которая представляет собой более компактную и быструю версию модели BERT, сохраняющую большую часть возможностей понимания языка исходного кода. Другой пример — TinyBERT, которая идёт ещё дальше в оптимизации размера и скорости для мобильных и периферийных устройств.

В случае с Zephyr-7B дистилляция знаний используется, чтобы наполнить меньшую модель параметров 7B возможностями ее более крупных аналогов. Таким образом, Zephyr-7B достигает баланса между производительностью и эффективностью, что делает его подходящим для сред с ограниченными вычислительными ресурсами, не жертвуя при этом качеством взаимодействия и понимания.

При разработке Zephyr-7B исследователи решили задачу настройки небольшого открытого LLM полностью за счет дистилляции. Они представили подход, называемый дистиллированной прямой оптимизацией предпочтений (dDPO), который использует обратную связь ИИ от ансамбля моделей учителей в качестве данных о предпочтениях. Этот метод, не требующий участия человека, значительно сокращает время и ресурсы, необходимые для обучения модели.

Конструируем ЗЕФИР-7Б.

Чтобы проверить dDPO, исследователи сконструировали ZEPHYR-7B, согласованную версию Модель Мистраль-7Б. Процесс включал три этапа:

  1. dSFT с использованием набора данных UltraChat:Distilled контролируемая точная настройка (dSFT) — это усовершенствованный метод обучения больших языковых моделей (LLM) за счет использования результатов более крупных и эффективных моделей «учителей». Все начинается с необработанного LLM, который обучен реагировать на запросы пользователя. В отличие от традиционной контролируемой точной настройки (SFT), в которой используется фиксированный набор данных, dSFT использует динамический подход, при котором модель сама генерирует инструкции и ответы. Этот метод, известный как самообучение, предполагает использование модели учителя как для ответа, так и для уточнения инструкций на основе ответов. Процесс начинается с набора исходных подсказок (x₀₁, x₀₂, …, x₀_J), представляющих различные темы. Каждая подсказка уточняется итеративно: для данной подсказки x₀ модель учителя генерирует ответ y₀, а затем новая инструкция x₁ выбирается на основе x₀ и y₀. Окончательный набор данных C = {(x₁, y₁),…, (x_J, y_J)} используется для точной настройки модели.
  2. Использование данных обратной связи AI от UltraFeedbackЭти данные имели решающее значение для уточнения ответов модели. На этом этапе модель генерирует ответы на различные подсказки (например, описание приготовления шоколадных брауни), которые затем ранжируются с помощью более продвинутой модели, например, GPT-4. Ответ с наивысшим баллом (yw) и случайно выбранный ответ с наименьшим баллом (yl) формируют набор данных обратной связи D.
  3. Применение дДПО:Последний этап, «Дистиллированная прямая оптимизация предпочтений» (dDPO), включает в себя уточнение модели dSFT путем максимизации вероятности более высокого ранжирования предпочтительных ответов. Это достигается за счет использования функции вознаграждения rθ(x, y) в модели предпочтений, которая основана на оптимальной политике LLM π* и исходной политике πdSFT. Цель оптимизации формулируется как πθ = max π E (x, yw, yl) ∼ D log σ (β log π(yw|x)/πdSFT(yw|x) − β log π(yl|x)/πdSFT( yl|x)), что упрощает процесс обучения, начиная с версии модели dSFT и проходя по каждой тройке AIF.
Метод, используемый в Zephyr-7B, отражает процессы, используемые в InstructGPT.

Метод, используемый в Zephyr-7B, отражает процессы, используемые в InstructGPT.

Примечательно, что Zephyr-7B достигает производительности, сравнимой с гораздо более крупными моделями с параметрами 70B, согласованными с отзывами человека. Он превосходит как академические показатели, так и разговорные способности, подчеркивая эффективность обучения предпочтениям при разработке моделей. Для дальнейшего изучения модели, код и инструкции доступны по адресу GitHub-репозиторий Hugging Face.

Решение проблемы согласования намерений

Заметной проблемой, связанной с программами LLM, является их соответствие человеческим намерениям. Предыдущие модели часто не давали ответов, соответствующих предпочтениям пользователя, что приводило к неточным или нерелевантным ответам. Однако недавние тесты, такие как MT-Bench и AlpacaEval, предоставили инструменты для количественной оценки и улучшения этого аспекта, подчеркнув превосходную производительность запатентованных моделей, обученных с помощью обратной связи с людьми, по сравнению с моделями, обученными исключительно путем дистилляции.

Методы оценки

Оценка Zephyr 7B включала тщательное тестирование по критериям, оценивающим разговорные способности модели как в одно-, так и в многооборотном контексте:

  • МТ-Скамья: для этого многоэтапного теста требуется модель, способная ответить на 160 вопросов, охватывающих восемь областей. Каждый ответ оценивается по GPT-4, при этом окончательный балл модели отражает среднее значение по двум раундам вопросов.
  • АльпакаЭвал: В этом одноэтапном тесте модель представлена ​​805 вопросами по различным предметам. Основное внимание здесь уделяется полезности модели: GPT-4 оценивает ответы для определения сравнительного процента побед.

Кроме того, Zephyr 7B был протестирован на Open LLM Leaderboard, который, хотя и не является прямой оценкой навыков ведения разговора, дает представление о рассуждениях и правдивости модели после тонкой настройки.

Zephyr 7B сравнивали с множеством открытых и собственных моделей, в том числе с разными размерами и методами выравнивания. Он установил новые тесты для моделей 7B на MT-Bench и AlpacaEval и продемонстрировал конкурентоспособную производительность по сравнению с более крупными моделями, подтвердив эффективность оптимизации прямых предпочтений (dDPO) в обучении.

Фазы обучения SFT и DPO были тщательно настроены, охватывая несколько эпох и настраивая скорость обучения и размеры пакетов для оптимальной производительности. Окончательная модель Zephyr оказалась не только устойчивой к переоснащению, но и улучшенной в решении практических задач и академических показателей.

Наборы данных и результаты

Используемые наборы данных

При разработке Zephyr-7B для обучения и уточнения модели использовались два ключевых набора данных, каждый из которых затрагивает различные аспекты создания диалогов:

Набор данных УльтраЧата

  • Источник: Разработано на основе диалогов, созданных GPT-3.5-TURBO.
  • Содержание:: Содержит 1.47 миллиона многоходовых диалогов по 30 темам и 20 типам текстового материала.
  • утонченность: набор данных был подвергнут эвристике истинного регистра для исправления грамматических проблем, а также были применены фильтры для повышения полезности ответов и устранения бесполезных вступительных фраз.

Набор данных Ультраобратной связи

  • Источник: включает подсказки, оцениваемые по GPT-4, который оценивает ответы на основе следования инструкциям, честности и полезности.
  • Содержание:: включает 64,000 4 запросов с четырьмя ответами на каждый, рейтинг GPT-XNUMX.
  • Бинарные настройки: генерируется путем выбора ответа с наивысшим средним баллом как «выбранного» и случайного ответа из остальных как «отклоненного», чтобы повысить разнообразие и бросить вызов процессу оптимизации прямых предпочтений (DPO).

Оба набора данных имеют решающее значение для обучения Zephyr-7B пониманию и созданию человеческого диалога, который следует инструкциям, честен и полезен. Эти наборы данных были доступны на Hugging Face Hub, к которому вы можете получить доступ. здесь.

Производительность и результаты

На диаграмме ниже показана производительность Zephyr 7B в различных категориях задач по сравнению с другими моделями, такими как GPT-3.5-turbo, Claude 1, GPT-4 и Llama-2-70b-chat. Категории могут включать в себя письмо, гуманитарные науки, ролевые игры, рассуждение, STEM, извлечение, кодирование и математику.

Из диаграммы можно сделать вывод, в каких областях Zephyr 7B преуспевает, а какие требуют дальнейшего улучшения. Например, если линия Zephyr растянута дальше по оси «Письмо» по сравнению с другими, это говорит о том, что Zephyr особенно силён в создании письменного контента. И наоборот, если линия расположена ближе к центру по оси «Математика», это может указывать на относительную слабость Zephyr в решении математических задач.

Радарная диаграмма помогает определить сильные и слабые стороны Zephyr 7B, обеспечивая визуальное представление о том, где он находится по сравнению с более крупными моделями, такими как GPT-4, и специализированными моделями, такими как Llama-2-70b-chat.

 

Радарная диаграмма производительности модели

Радарная диаграмма производительности модели

Сравнение различных языковых моделей в двух тестах: MT-Bench и AlpacaEval. Модели оцениваются на основе их размера, метода выравнивания (например, dSFT для контролируемой точной настройки или dDPO для прямой оптимизации предпочтений) и показателей производительности. Zephyr получил высокие оценки в обоих тестах, что указывает на его эффективность в генерировании согласованных ответов.

MT-Bench и AlpacaEval

MT-Bench и AlpacaEval

Заключение

В заключение, разработка Zephyr-7B демонстрирует, что согласование и перегонка разговорных возможностей из большой языковой модели (LLM) в меньшую модель может быть достигнута без использования методов, основанных на выборке. Используя прямую оптимизацию предпочтений (DPO) с обратной связью от искусственного интеллекта, Zephyr-7B использует прочную основу Mistral-7B, чтобы установить новый эталон для моделей чата с параметрами 7B, демонстрируя способность небольших моделей с открытым исходным кодом понимать и реагировать на запросы пользователя. намерение эффективно.

Однако данное исследование не лишено ограничений. Использование GPT-4 в качестве средства оценки тестов приводит к предвзятости в отношении моделей, основанных на нем, что потенциально может отдавать предпочтение точным ответам. Кроме того, масштабируемость этого метода на более крупные модели, такие как LLAMA2-70B, и его влияние на повышение производительности остаются областями для дальнейших исследований. Эти ограничения подчеркивают необходимость постоянных инноваций и разработки методов объективной оценки в сообществе ИИ.

За пределами исследования очевидно, что потенциальная возможность моделей меньшего размера работать на уровне более крупных аналогов может демократизировать ИИ, обеспечивая более доступное и эффективное использование в различных приложениях. Успех Zephyr-7B стимулирует дальнейшее изучение моделей с открытым исходным кодом, которые могут ускорить развитие ИИ, способствуя совместным исследованиям и разработкам.

Последние пять лет я погружался в увлекательный мир машинного обучения и глубокого обучения. Моя страсть и опыт позволили мне принять участие в более чем 50 различных проектах по разработке программного обеспечения, уделяя особое внимание AI/ML. Мое постоянное любопытство также привлекло меня к обработке естественного языка, области, которую я очень хочу исследовать дальше.