Inteligência artificial
Zephyr-7B: O LLM Hiper-Otimizado da HuggingFace Construído em Cima do Mistral 7B

Introdução
A evolução dos grandes modelos de linguagem abertos (LLMs) teve um impacto significativo na comunidade de pesquisa de IA, particularmente no desenvolvimento de chatbots e aplicações semelhantes. Após o lançamento de modelos como o LLaMA, houve um aumento na pesquisa sobre fine-tuning eficiente, manipulação de prompts estendida, geração aumentada de recuperação (RAG) e quantização.
O modelo LLaMA, por exemplo, marcou uma nova era no fine-tuning e contextualização de prompts, abrindo caminho para modelos subsequentes como o MPT da MosaicML, o RedPajama-INCITE da Together AI, o Falcon da TII e o Llama 2 da Meta. Cada um desses modelos contribui com capacidades únicas, melhorando a funcionalidade e o escopo geral dos LLMs.
A Mistral AI, uma startup de Paris fundada por ex-funcionários do Google DeepMind e Meta, fez um nome por si mesma com sua primeira oferta: o Mistral 7B.
A vantagem do Mistral 7B reside em sua eficiência, fornecendo capacidades semelhantes ou aprimoradas em comparação com pares como o Llama 2, mas com menor demanda computacional.
Especificamente ajustado para tarefas instrucionais, o Mistral 7B Instruct brilha em plataformas como a Hugging Face, onde supera outros modelos do mesmo tamanho e compete estreitamente com aqueles que têm quase o dobro de parâmetros.
Com base nisso, a Hugging Face introduziu o Zephyr 7B Alpha, demonstrando que um Mistral 7B fine-tuned pode de fato superar as capacidades de modelos de chat muito maiores e, em algumas tarefas, até rivalizar com o GPT-4. O “Alpha” foi apenas o início, pois o Zephyr 7B Beta seguiu logo em seguida.
Este artigo explorará como o Zephyr 7B aproveita o poder de modelos maiores para refinar sua capacidade de responder e alinhar com as instruções humanas, um processo tornado possível por meio da técnica de destilação de conhecimento. Este método envolve treinar modelos menores nos padrões complexos aprendidos por modelos maiores, reduzindo as demandas de treinamento sem sacrificar as capacidades de modelagem de linguagem. Vamos mergulhar nos detalhes da abordagem de destilação de conhecimento da Hugging Face.
Destilação de Conhecimento
Uma inovação chave no desenvolvimento de modelos como o Zephyr-7B é o fine-tuning supervisionado destilado (dSFT). Este método envolve usar a saída de um modelo “professor” maior e mais capaz para treinar um modelo “aluno” menor, melhorando sua precisão. Embora a destilação melhore os modelos abertos em várias tarefas, uma lacuna no desempenho em comparação com os modelos de professor ainda existe.
A destilação de conhecimento é um método de aprendizado de máquina no qual um modelo compacto, referido como o “aluno“, é ensinado a replicar o desempenho de um modelo maior e mais complexo “professor“. Essa técnica permite que o aluno execute tarefas que estavam anteriormente além de sua capacidade, transferindo os padrões intricados aprendidos pelo professor.
O modelo aluno treina nas probabilidades de saída ou recursos gerados pelo modelo professor, focando em corresponder a essas saídas em vez de apenas às previsões finais. Isso permite que o aluno aprenda os processos de tomada de decisão nuances do professor, resultando frequentemente em um desempenho melhorado em comparação com o treinamento apenas com os dados de verdade.
Historicamente, a destilação de conhecimento foi utilizada em modelos como as redes de destilação originais de Hinton e, mais recentemente, em NLP com modelos como o DistilBERT, que destilou o modelo BERT em uma versão menor e mais rápida que retém a maioria das capacidades de compreensão de linguagem do original. Outro exemplo é o TinyBERT, que vai além na otimização do tamanho e velocidade para dispositivos móveis ou de borda.
No caso do Zephyr-7B, a destilação de conhecimento é usada para infundir um modelo de 7B parâmetros com as capacidades de seus congêneres maiores. Ao fazer isso, o Zephyr-7B alcança um equilíbrio entre desempenho e eficiência, tornando-o adequado para ambientes onde os recursos computacionais são limitados, sem sacrificar a qualidade da interação e compreensão.
Ao desenvolver o Zephyr-7B, os pesquisadores enfrentaram o desafio de alinhar um pequeno LLM aberto inteiramente por meio da destilação. Eles introduziram uma abordagem chamada otimização direta de preferência destilada (dDPO), que usa feedback de IA de um conjunto de modelos de professor como dados de preferência. Esse método, que não requer anotação humana, reduz significativamente o tempo e os recursos necessários para o treinamento do modelo.
Construindo o ZEPHYR-7B
Para validar a dDPO, os pesquisadores construíram o ZEPHYR-7B, uma versão alinhada do modelo Mistral-7B. O processo envolveu três etapas:
- dSFT usando o conjunto de dados UltraChat: O fine-tuning supervisionado destilado (dSFT) é um método avançado para treinar grandes modelos de linguagem (LLMs) aproveitando a saída de modelos maiores e mais capazes “professores”. Ele começa com um LLM bruto que é treinado para responder a prompts de usuário. Diferentemente do fine-tuning supervisionado tradicional (SFT) que usa um conjunto de dados fixo, o dSFT emprega uma abordagem dinâmica onde o modelo em si gera instruções e respostas. Esse método, conhecido como auto-instrução, envolve usar o modelo professor para responder e refinar instruções com base nas respostas. O processo começa com um conjunto de prompts iniciais (x₀₁, x₀₂, …, x₀_J) representando tópicos diversos. Cada prompt é refinado iterativamente: para um prompt dado x₀, uma resposta y₀ é gerada pelo modelo professor, e então uma nova instrução x₁ é amostrada com base em x₀ e y₀. O conjunto de dados final C = {(x₁, y₁), …, (x_J, y_J)} é usado para o fine-tuning do modelo.
- Incorporando dados de feedback de IA do UltraFeedback: Esses dados foram cruciais para refinar as respostas do modelo. Nessa etapa, o modelo gera respostas a vários prompts (como descrever como fazer brownies de chocolate) que são então classificados por um modelo mais avançado, como o GPT-4. A resposta com a pontuação mais alta (yw) e uma resposta de pontuação mais baixa escolhida aleatoriamente (yl) formam um conjunto de dados de feedback D.
- Aplicando a dDPO: A última fase, Otimização Direta de Preferência Destilada (dDPO), envolve refinar o modelo dSFT maximizando a probabilidade de classificar as respostas preferidas mais altas. Isso é alcançado usando uma função de recompensa rθ(x, y) no modelo de preferência, que é baseada na política LLM ótima π* e na política πdSFT original. O objetivo de otimização é formulado como πθ = max π E (x, yw, yl) ∼ D log σ (β log π(yw|x)/πdSFT(yw|x) − β log π(yl|x)/πdSFT(yl|x)), o que simplifica o processo de treinamento começando com a versão dSFT do modelo e iterando por cada tripleta AIF.
Notavelmente, o Zephyr-7B alcança um desempenho comparável a modelos de 70B parâmetros muito maiores alinhados com feedback humano. Ele se destaca tanto em benchmarks acadêmicos quanto em capacidades conversacionais, destacando a eficácia do aprendizado de preferência no desenvolvimento de modelos. Para uma exploração mais aprofundada, modelos, código e instruções estão disponíveis no Repositório GitHub da Hugging Face.
Abordando o Desafio do Alinhamento de Intenção
Uma preocupação notável com os LLMs tem sido seu alinhamento com a intenção humana. Modelos anteriores frequentemente falhavam em produzir respostas que correspondiam às preferências do usuário, levando a respostas imprecisas ou irrelevantes. No entanto, benchmarks recentes como o MT-Bench e o AlpacaEval forneceram ferramentas para quantificar e melhorar esse aspecto, destacando o desempenho superior de modelos proprietários treinados com feedback humano sobre aqueles treinados apenas por meio da destilação.
Métodos de Avaliação
A avaliação do Zephyr 7B envolveu testes rigorosos em benchmarks que avaliam as capacidades conversacionais de um modelo em contextos de uma única volta e multi-volta:
- MT-Bench: Este benchmark de multi-volta exige que um modelo aborde 160 perguntas que abrangem oito domínios. Cada resposta é avaliada pelo GPT-4, e a pontuação final do modelo reflete a média sobre duas rodadas de perguntas.
- AlpacaEval: Neste benchmark de uma única volta, o modelo é apresentado com 805 perguntas sobre vários assuntos. O foco aqui está na utilidade do modelo, com o GPT-4 avaliando as respostas para determinar uma taxa de vitória comparativa.
Além disso, o Zephyr 7B foi testado na Open LLM Leaderboard, que, embora não seja uma avaliação direta das habilidades conversacionais, oferece insights sobre o raciocínio e a veracidade do modelo após o fine-tuning.
O Zephyr 7B foi comparado a uma variedade de modelos abertos e proprietários, incluindo aqueles com diferentes tamanhos e métodos de alinhamento. Ele estabeleceu novos benchmarks para modelos de 7B em MT-Bench e AlpacaEval e mostrou um desempenho competitivo contra modelos maiores, validando a eficácia da otimização direta de preferência (dDPO) no treinamento.
As fases de treinamento SFT e DPO foram configuradas meticulosamente, abrangendo múltiplas épocas e taxas de aprendizado de fine-tuning e tamanhos de lote para o desempenho ótimo. O modelo Zephyr final emergiu não apenas resistente ao sobre-ajuste, mas também aprimorado no tratamento de tarefas práticas e benchmarks acadêmicos.
Conjuntos de Dados e Resultados
Conjuntos de Dados Utilizados
No desenvolvimento do Zephyr-7B, dois conjuntos de dados-chave foram usados para treinar e refinar o modelo, cada um abordando diferentes aspectos da geração de diálogo:
Conjunto de Dados UltraChat
- Fonte: Desenvolvido a partir de diálogos gerados pelo GPT-3.5-TURBO.
- Conteúdo: Contém 1,47 milhão de diálogos multi-volta em 30 tópicos e 20 tipos de material de texto.
- Refinamento: O conjunto de dados passou por uma heurística de truecasing para corrigir problemas gramaticais, e filtros foram aplicados para aumentar a utilidade das respostas e eliminar frases de prefácio inúteis.
Conjunto de Dados UltraFeedback
- Fonte: Compreende prompts avaliados pelo GPT-4, que classificou as respostas com base na capacidade de seguir instruções, honestidade e utilidade.
- Conteúdo: Inclui 64.000 prompts com quatro respostas cada, classificadas pelo GPT-4.
- Preferências Binárias: Geradas escolhendo a resposta com a pontuação média mais alta como “escolhida” e uma resposta de pontuação mais baixa escolhida aleatoriamente como “rejeitada” para aumentar a diversidade e desafiar o processo de Otimização Direta de Preferência (DPO).
Ambos os conjuntos de dados são cruciais para treinar o Zephyr-7B para entender e gerar diálogos humanos que são de fácil compreensão, honestos e úteis. Esses conjuntos de dados foram disponibilizados no Hugging Face Hub, que você pode acessar aqui.
Desempenho e Resultados
O gráfico abaixo ilustra o desempenho do Zephyr 7B em várias categorias de tarefas em comparação com outros modelos, como o GPT-3.5-turbo, o Claude 1, o GPT-4 e o Llama-2-70b-chat. As categorias podem incluir Escrita, Humanidades, Roleplay, Raciocínio, STEM, Extração, Codificação e Matemática.
A partir do gráfico, podemos inferir em quais domínios o Zephyr 7B se destaca e quais domínios podem precisar de mais melhoria. Por exemplo, se a linha do Zephyr se estende mais na direção do eixo de Escrita em comparação com os outros, sugere que o Zephyr é particularmente forte na geração de conteúdo escrito. Por outro lado, se a linha está mais próxima do centro no eixo de Matemática, pode indicar uma relativa fraqueza na resolução de problemas matemáticos.
O gráfico de radar ajuda a identificar as forças e fraquezas do Zephyr 7B, fornecendo uma representação visual de onde ele se posiciona em relação a modelos maiores, como o GPT-4, e modelos especializados, como o Llama-2-70b-chat.
Comparando vários modelos de linguagem em dois benchmarks: MT-Bench e AlpacaEval. Os modelos são avaliados com base em seu tamanho, método de alinhamento (como dSFT para fine-tuning supervisionado destilado ou dDPO para otimização direta de preferência destilada) e pontuações de desempenho. O Zephyr se destaca com altas pontuações em ambos os benchmarks, indicando sua eficácia na geração de respostas alinhadas.
Conclusão
Em conclusão, o desenvolvimento do Zephyr-7B demonstra que o alinhamento e a destilação de capacidades conversacionais de um grande modelo de linguagem (LLM) para um modelo menor podem ser alcançados sem recorrer a métodos baseados em amostragem. Ao empregar a otimização direta de preferência (DPO) com feedback de IA, o Zephyr-7B aproveita a forte base do Mistral-7B para estabelecer um novo benchmark para modelos de chat de 7B parâmetros, demonstrando a capacidade de modelos menores e de código aberto de entender e responder à intenção do usuário de forma eficaz.
No entanto, este estudo não está isento de limitações. A dependência do GPT-4 como avaliador para benchmarks introduz um viés em favor de modelos que são destilados a partir dele, potencialmente favorecendo respostas precisas. Além disso, a escalabilidade deste método para modelos maiores, como o LLAMA2-70B, e seu impacto nos ganhos de desempenho permanecem áreas para pesquisas adicionais. Essas limitações destacam a necessidade de inovação contínua e o desenvolvimento de métodos de avaliação imparciais na comunidade de IA.
Olhando além do estudo, é evidente que o potencial de modelos menores performarem no nível de seus congêneres maiores pode democratizar a IA, permitindo um uso mais acessível e eficiente em várias aplicações. O sucesso do Zephyr-7B encoraja uma exploração mais aprofundada em modelos de código aberto, o que pode acelerar os avanços em IA por meio de pesquisas e desenvolvimentos colaborativos.














