Искусственный интеллект
Zephyr-7B : Гипероптимизированная LLM от HuggingFace, построенная на основе Mistral 7B

Введение
Эволюция открытых крупномасштабных языковых моделей (LLM) существенно повлияла на сообщество исследователей ИИ, особенно в разработке чат-ботов и аналогичных приложений. После выпуска моделей, таких как LLaMA, наблюдается всплеск исследований по эффективному тонкому настройке, расширенному обработке подсказок, генерации с помощью извлечения (RAG) и квантованию.
Модель LLaMA, например, ознаменовала новую эру в тонкой настройке и контекстуализации подсказок, проложив путь для последующих моделей, таких как MPT от MosaicML, RedPajama-INCITE от Together AI, Falcon от TII и Llama 2 от Meta. Каждая из этих моделей вносит уникальные возможности, повышая общую функциональность и объем LLM.
Mistral AI, стартап из Парижа, основанный бывшими сотрудниками Google DeepMind и Meta, сделал себе имя своей первой разработкой: Mistral 7B.
Преимущество Mistral 7B заключается в его эффективности, обеспечивая аналогичные или улучшенные возможности по сравнению с аналогами, такими как Llama 2, но с меньшими вычислительными требованиями.
В частности, настроенная для инструктивных задач, Mistral 7B Instruct выделяется на платформах, таких как Hugging Face, где она превосходит другие модели аналогичного размера и тесно конкурирует с теми, у которых почти в два раза больше параметров.
На основе этого Hugging Face представила Zephyr 7B Alpha, демонстрируя, что тонко настроенная модель Mistral 7B может действительно превзойти возможности значительно более крупных чат-моделей и, в некоторых задачах, даже конкурировать с GPT-4. “Alpha” был только началом, поскольку вскоре последовала Zephyr 7B Beta.
Эта статья исследует, как Zephyr 7B использует мощь более крупных моделей, чтобы усовершенствовать свою способность реагировать и соответствовать человеческим инструкциям, процесс, который стал возможным благодаря технике дистилляции знаний. Этот метод включает в себя обучение более мелких моделей на сложных закономерностях, изученных более крупными моделями, снижая требования к обучению без ущерба для возможностей языковой модели. Мы углубимся в детали подхода Hugging Face к дистилляции знаний.
Дистилляция знаний
Ключевым нововведением в разработке моделей, таких как Zephyr-7B, является дистиллированная контролируемая тонкая настройка (dSFT). Этот метод включает в себя использование вывода более крупной, более способной “учительской” модели для обучения более мелкой “ученической” модели, повышая ее точность. Хотя дистилляция улучшает открытые модели в различных задачах, разрыв в производительности по сравнению с учительскими моделями все еще существует.
Дистилляция знаний – это метод в машинном обучении, при котором компактная модель, называемая “учеником”, обучается повторять производительность более крупной, более сложной “учительской” модели. Этот метод позволяет ученику выполнять задачи, которые ранее были за пределами его возможностей, передавая сложные закономерности, изученные учителем.
Ученическая модель обучается на выходных вероятностях или особенностях, сгенерированных учительской моделью, сосредотачиваясь на соответствии этих выходов, а не только на окончательных прогнозах. Это позволяет ученику изучить нюансы процессов принятия решений учителя, часто приводя к улучшению производительности по сравнению с обучением только на фактических данных.
Исторически дистилляция знаний использовалась в моделях, таких как сети дистилляции Хинтона, и более недавно в NLP с моделями, такими как DistilBERT, который дистиллировал модель BERT в более мелкую, быструю версию, сохраняющую большинство возможностей языкового понимания оригинала. Другим примером является TinyBERT, который еще больше оптимизирует размер и скорость для мобильных или периферийных устройств.
В случае Zephyr-7B дистилляция знаний используется для наделения более мелкой модели с 7 миллиардами параметров возможностями ее более крупных аналогов. Таким образом, Zephyr-7B достигает баланса между производительностью и эффективностью, что делает ее подходящей для сред с ограниченными вычислительными ресурсами, не жертвуя качеством взаимодействия и понимания.
При разработке Zephyr-7B исследователи решали задачу выравнивания небольшой открытой LLM исключительно через дистилляцию. Они ввели подход, называемый дистиллированной прямой оптимизацией предпочтений (dDPO), который использует обратную связь ИИ от ансамбля учительских моделей в качестве данных предпочтений. Этот метод, не требующий человеческой аннотации, существенно снижает время и ресурсы, необходимые для обучения модели.
Конструкция ZEPHYR-7B
Чтобы проверить dDPO, исследователи построили ZEPHYR-7B, выровненную версию модели Mistral-7B. Процесс включал три этапа:
- dSFT с использованием набора данных UltraChat: Дистиллированная контролируемая тонкая настройка (dSFT) – это продвинутый метод обучения крупномасштабных языковых моделей (LLM) с использованием вывода более крупных, более способных “учительских” моделей. Она начинается с сырой LLM, которая обучается реагировать на подсказки пользователя. В отличие от традиционной контролируемой тонкой настройки (SFT), которая использует фиксированный набор данных, dSFT использует динамический подход, при котором сама модель генерирует инструкции и ответы. Этот метод, называемый самоинструкцией, включает в себя использование учительской модели для ответа и уточнения инструкций на основе ответов. Процесс начинается с набора стартовых подсказок (x₀₁, x₀₂, …, x₀_J), представляющих различные темы. Каждая подсказка уточняется итеративно: для данной подсказки x₀ генерируется ответ y₀ учительской моделью, и затем на основе x₀ и y₀ выбирается новая инструкция x₁. Окончательный набор данных C = {(x₁, y₁), …, (x_J, y_J)} используется для тонкой настройки модели.
- Включение обратной связи ИИ из UltraFeedback: Эти данные были важны для уточнения ответов модели. На этом этапе модель генерирует ответы на различные подсказки (например, описание того, как сделать шоколадные брауни), которые затем ранжируются более продвинутой моделью, такой как GPT-4. Лучший ответ (yw) и случайно выбранный ответ с более низким рейтингом (yl) образуют набор данных обратной связи D.
- Применение dDPO: Последняя фаза, дистиллированная прямая оптимизация предпочтений (dDPO), включает в себя уточнение модели dSFT путем максимизации вероятности более высокого ранжирования предпочитаемых ответов. Это достигается с помощью функции вознаграждения rθ(x, y) в модели предпочтений, которая основана на оптимальной политике LLM π* и исходной политике πdSFT. Цель оптимизации формулируется как πθ = max π E (x, yw, yl) ∼ D log σ (β log π(yw|x)/πdSFT(yw|x) − β log π(yl|x)/πdSFT(yl|x)), что упрощает процесс обучения, начиная с версии dSFT модели и итерируя через каждую тройку AIF.
Замечательно, что Zephyr-7B достигает производительности, сравнимой с более крупными моделями с 70 миллиардами параметров, выровненных с человеческой обратной связью. Она превосходит как в академических бенчмарках, так и в разговорных возможностях, подчеркивая эффективность обучения предпочтений в разработке модели.
Для дальнейшего исследования модели, код и инструкции доступны в репозитории Hugging Face на GitHub.
Решение проблемы выравнивания намерений
Заметной проблемой для LLM является их выравнивание с человеческими намерениями. Предыдущие модели часто не могли производить ответы, соответствующие предпочтениям пользователей, что приводило к неточным или нерелевантным ответам. Однако недавние бенчмарки, такие как MT-Bench и AlpacaEval, предоставили инструменты для количественной оценки и улучшения этого аспекта, подчеркивая превосходную производительность проприетарных моделей, обученных с человеческой обратной связью, над теми, которые обучались только посредством дистилляции.
Методы оценки
Оценка Zephyr 7B включала тщательное тестирование на бенчмарках, оценивающих разговорные способности модели в обоих однозначных и многозначных контекстах:
- MT-Bench: Этот многозначный бенчмарк требует от модели ответить на 160 вопросов, охватывающих восемь доменов. Каждый ответ оценивается GPT-4, а окончательный балл модели отражает среднее значение за два раунда вопросов.
- AlpacaEval: В этом однозначном бенчмарке модель представлена 805 вопросами по различным предметам. Здесь внимание уделяется полезности модели, а GPT-4 оценивает ответы, чтобы определить сравнительный коэффициент побед.
Кроме того, Zephyr 7B была протестирована на Open LLM Leaderboard, который, хотя и не является прямой оценкой разговорных навыков, предлагает идеи о рассуждениях и правдивости модели после тонкой настройки.
Zephyr 7B была сравнена с различными открытыми и проприетарными моделями, включая модели разных размеров и методов выравнивания. Она установила новые бенчмарки для 7B-моделей на MT-Bench и AlpacaEval и показала конкурентоспособную производительность против более крупных моделей, подтверждая эффективность прямой оптимизации предпочтений (dDPO) в обучении.
Фазы обучения SFT и DPO были тщательно настроены, охватывая несколько эпох и тонкую настройку скоростей обучения и размеров пакетов для оптимальной производительности. Окончательная модель Zephyr не только оказалась устойчивой к переобучению, но и была улучшена в решении практических задач и академических бенчмарков.
Наборы данных и результаты
Используемые наборы данных
При разработке Zephyr-7B использовались два ключевых набора данных для обучения и уточнения модели, каждый решая различные аспекты генерации диалога:
Набор данных UltraChat
- Источник: Разработан из диалогов, сгенерированных GPT-3.5-TURBO.
- Содержание: Содержит 1,47 миллиона многозначных диалогов по 30 темам и 20 типам текстового материала.
- Уточнение: Набор данных прошел через гебрик для исправления грамматических ошибок, и были применены фильтры для повышения полезности ответов и исключения бесполезных фраз.
Набор данных UltraFeedback
- Источник: Состоит из подсказок, оцененных GPT-4, который оценивал ответы на основе следования инструкциям, честности и полезности.
- Содержание: Включает 64 000 подсказок с четырьмя ответами каждая, оцененными GPT-4.
- Бинарные предпочтения: Сгенерированы путем выбора ответа с наивысшим средним баллом как “выбранного” и случайного из остальных как “отклоненного”, чтобы повысить разнообразие и бросить вызов процессу прямой оптимизации предпочтений (DPO).
Оба набора данных имеют решающее значение для обучения Zephyr-7B понимать и генерировать человеческие диалоги, которые следуют инструкциям, честны и полезны. Эти наборы данных доступны на Hugging Face Hub, который можно найти здесь.
Производительность и результаты
Ниже представлена диаграмма, иллюстрирующая производительность Zephyr 7B в различных категориях задач по сравнению с другими моделями, такими как GPT-3.5-turbo, Claude 1, GPT-4 и Llama-2-70b-chat. Категории могут включать письмо, гуманитарные науки, рольевая игра, рассуждение, STEM, извлечение, кодирование и математику.
Из диаграммы можно сделать вывод, в каких областях Zephyr 7B превосходит и в каких может потребоваться дальнейшее улучшение. Например, если линия Zephyr продлевается дальше на оси письма по сравнению с другими, это указывает на то, что Zephyr особенно силен в генерации письменного контента. С другой стороны, если линия ближе к центру на оси математики, это может указывать на относительную слабость в решении математических задач.
Радарная диаграмма помогает выявить сильные и слабые стороны Zephyr 7B, предоставляя визуальное представление о том, где она стоит по сравнению с более крупными моделями, такими как GPT-4, и специализированными моделями, такими как Llama-2-70b-chat.
Сравнение различных языковых моделей на двух бенчмарках: MT-Bench и AlpacaEval. Модели оцениваются на основе их размера, метода выравнивания (такого как dSFT для дистиллированной контролируемой тонкой настройки или dDPO для дистиллированной прямой оптимизации предпочтений) и баллов производительности. Zephyr выделяется высокими баллами в обоих бенчмарках, указывая на ее эффективность в генерации выровненных ответов.
Заключение
В заключение, разработка Zephyr-7B демонстрирует, что выравнивание и дистилляция разговорных возможностей из крупной языковой модели (LLM) на более мелкую модель может быть достигнуто без использования методов, основанных на выборке. Используя прямую оптимизацию предпочтений (DPO) с обратной связью ИИ, Zephyr-7B использует сильную основу Mistral-7B, чтобы установить новый бенчмарк для 7B-параметров чат-моделей, демонстрируя способность более мелких, открытых моделей понимать и реагировать на человеческие намерения эффективно.
Однако это исследование не обходится без ограничений. Зависимость от GPT-4 в качестве оценщика для бенчмарков вводит предвзятость в пользу моделей, дистиллированных из него, потенциально благоприятствуя точным ответам. Кроме того, масштабируемость этого метода для более крупных моделей, таких как LLAMA2-70B, и его влияние на прирост производительности остаются областями для дальнейших исследований. Эти ограничения подчеркивают необходимость постоянной инновации и разработки без偏ятия методов оценки в сообществе ИИ.
Глядя за пределы исследования, очевидно, что потенциал более мелких моделей работать на уровне более крупных аналогов может демократизировать ИИ, позволяя более доступное и эффективное использование в различных приложениях. Успех Zephyr-7B поощряет дальнейшее исследование открытых моделей, которое может ускорить достижения в ИИ, способствуя совместным исследованиям и разработкам.














