InteligĂȘncia artificial
Avaliando Modelos de Linguagem Grande: Um Guia Técnico

Os modelos de linguagem grande (LLM) como GPT-4, Claude e LLaMA explodiram em popularidade. Graças à sua capacidade de gerar textos impressionantemente semelhantes aos humanos, esses sistemas de IA estão sendo usados para tudo, desde criação de conteúdo até chatbots de atendimento ao cliente.
Mas como sabemos se esses modelos são realmente bons? Com novos LLMs sendo anunciados constantemente, todos alegando ser maiores e melhores, como avaliamos e comparamos seu desempenho?
Neste guia abrangente, exploraremos as principais técnicas para avaliar modelos de linguagem grande. Vamos olhar para os prós e contras de cada abordagem, quando elas são melhor aplicadas e como você pode aproveitá-las em seus próprios testes de LLM.
Métricas Específicas de Tarefa
Uma das maneiras mais diretas de avaliar um LLM é testá-lo em tarefas de NLP estabelecidas usando métricas padronizadas. Por exemplo:
Resumo
Para tarefas de resumo, métricas como ROUGE (Recall-Oriented Understudy for Gisting Evaluation) são comumente usadas. ROUGE compara o resumo gerado pelo modelo com um resumo “referência” escrito por humanos, contando a sobreposição de palavras ou frases.
Existem várias variações de ROUGE, cada uma com seus prós e contras:
- ROUGE-N: Compara a sobreposição de n-gramas (sequências de N palavras). ROUGE-1 usa unigramas (palavras únicas), ROUGE-2 usa bigramas, etc. A vantagem é que captura a ordem das palavras, mas pode ser muito rígido.
- ROUGE-L: Baseado na subsequência comum mais longa (LCS). Mais flexível em relação à ordem das palavras, mas se concentra nos principais pontos.
- ROUGE-W: Pesa as correspondências de LCS por sua significância. Tenta melhorar o ROUGE-L.
Em geral, as métricas ROUGE são rápidas, automáticas e funcionam bem para classificar resumos de sistemas. No entanto, elas não medem a coerência ou o significado. Um resumo pode obter uma alta pontuação ROUGE e ainda ser sem sentido.
A fórmula para ROUGE-N é:
ROUGE-N=∑∈{Resumos de Referência}∑∑�∈{Resumos de Referência}∑
Onde:
Count_{match}(gram_n)é a contagem de n-gramas no resumo gerado e no resumo de referência.Count(gram_n)é a contagem de n-gramas no resumo de referência.
Por exemplo, para ROUGE-1 (unigramas):
- Resumo gerado: “O gato sentou-se.”
- Resumo de referência: “O gato sentou-se no tapete.”
- Unigramas sobrepostos: “O”, “gato”, “sentou-se”
- Pontuação ROUGE-1 = 3/5 = 0,6
ROUGE-L usa a subsequência comum mais longa (LCS). É mais flexível em relação à ordem das palavras. A fórmula é:
ROUGE-L=���(gerado, referência)max(length(gerado), length(referência))
Onde LCS é o comprimento da subsequência comum mais longa.
ROUGE-W pondera as correspondências de LCS. Considera a significância de cada correspondência na LCS.
Tradução
Para tarefas de tradução, BLEU (Bilingual Evaluation Understudy) é uma métrica popular. BLEU mede a semelhança entre a saída de tradução do modelo e traduções profissionais humanas, usando precisão de n-gramas e uma penalidade de brevidade.
Aspectos-chave de como BLEU funciona:
- Compara sobreposições de n-gramas para n até 4 (unigramas, bigramas, trigramas, 4-gramas).
- Calcula uma média geométrica das precisões de n-gramas.
- Aplica uma penalidade de brevidade se a tradução for muito mais curta do que a referência.
- Geralmente varia de 0 a 1, com 1 sendo uma correspondência perfeita com a referência.
BLEU se correlaciona razoavelmente bem com julgamentos humanos de qualidade de tradução. Mas ainda tem limitações:
- Apenas mede precisão em relação às referências, não recall ou F1.
- Luta com traduções criativas que usam palavras diferentes.
- Suscetível a “jogadas” com truques de tradução.
Outras métricas de tradução, como METEOR e TER, tentam melhorar as fraquezas do BLEU. Mas, em geral, métricas automáticas não capturam completamente a qualidade da tradução.
Outras Tarefas
Além de resumo e tradução, métricas como F1, precisão, MSE e mais podem ser usadas para avaliar o desempenho de LLM em tarefas como:
- Classificação de texto
- Extração de informações
- Resposta a perguntas
- Análise de sentimento
- Detecção de erros gramaticais
A vantagem das métricas específicas de tarefa é que a avaliação pode ser totalmente automatizada usando conjuntos de dados padronizados, como SQuAD para QA e GLUE benchmark para uma variedade de tarefas. Os resultados podem ser facilmente acompanhados ao longo do tempo à medida que os modelos melhoram.
No entanto, essas métricas estão focadas em uma tarefa específica e não podem medir a qualidade geral da linguagem. LLMs que performam bem em métricas para uma tarefa específica podem falhar ao gerar textos coerentes, lógicos e úteis em geral.
Referências de Pesquisa
Uma forma popular de avaliar LLMs é testá-los contra referências de pesquisa abrangentes que cobrem tópicos e habilidades diversificados. Essas referências permitem que os modelos sejam testados rapidamente em escala.
Algumas referências bem conhecidas incluem:
- SuperGLUE – Conjunto desafiador de 11 tarefas de linguagem diversificadas.
- GLUE – Coleção de 9 tarefas de compreensão de sentenças. Mais simples do que SuperGLUE.
- MMLU – 57 tarefas diferentes de ciências, ciências sociais e humanidades. Testa conhecimento e habilidade de raciocínio.
- Winograd Schema Challenge – Problemas de resolução de pronomes que exigem raciocínio comum.
- ARC – Tarefas de raciocínio natural desafiadoras.
- Hellaswag – Raciocínio comum sobre situações.
- PIQA – Perguntas de física que exigem diagramas.
Ao avaliar essas referências, os pesquisadores podem testar rapidamente os modelos em sua capacidade de realizar matemática, lógica, raciocínio, codificação, senso comum e muito mais. O percentual de perguntas respondidas corretamente se torna uma métrica de referência para comparar os modelos.
No entanto, um problema significativo com as referências é a contaminação de dados de treinamento. Muitas referências contêm exemplos que já foram vistos pelos modelos durante o treinamento. Isso permite que os modelos “memorizem” respostas para perguntas específicas e performem melhor do que suas capacidades reais.
São feitas tentativas para “descontaminar” as referências removendo exemplos sobrepostos. Mas isso é desafiador de fazer de forma abrangente, especialmente quando os modelos podem ter visto versões parafraseadas ou traduzidas de perguntas.
Então, enquanto as referências podem testar um conjunto amplo de habilidades de forma eficiente, elas não podem medir confiavelmente as capacidades de raciocínio reais ou evitar a inflação de pontuações devido à contaminação. Métodos de avaliação complementares são necessários.
Avaliação de LLM por LLM
Uma abordagem intrigante é ter um LLM avaliar a saída de outro LLM. A ideia é aproveitar a tarefa “mais fácil”:
- Produzir uma saída de alta qualidade pode ser difícil para um LLM.
- Mas determinar se uma saída dada é de alta qualidade pode ser uma tarefa mais fácil.
Por exemplo, enquanto um LLM pode lutar para gerar um parágrafo factual, coerente e lógico do zero, ele pode mais facilmente julgar se um parágrafo dado faz sentido lógico e se encaixa no contexto.
Então, o processo é:
- Passar o prompt de entrada para o primeiro LLM para gerar a saída.
- Passar o prompt de entrada + saída gerada para o segundo LLM “avaliador”.
- Perguntar ao LLM avaliador uma pergunta para avaliar a qualidade da saída. Por exemplo, “A resposta acima faz sentido lógico?”
Essa abordagem é rápida de implementar e automatiza a avaliação de LLM. Mas existem alguns desafios:
- O desempenho depende fortemente da escolha do LLM avaliador e da redação do prompt.
- Está limitado pela dificuldade da tarefa original. Avaliar raciocínio complexo ainda é difícil para LLMs.
- Pode ser computacionalmente caro se usar LLMs baseados em API.
A avaliação por LLM é especialmente promissora para avaliar informações recuperadas em sistemas de RAG (retrieval-augmented generation). Consultas adicionais de LLM podem validar se o contexto recuperado é usado apropriadamente.
No geral, a autoavaliação mostra potencial, mas requer cuidado na implementação. Ela complementa, em vez de substituir, a avaliação humana.
Avaliação Humana
Dada as limitações das métricas automáticas e das referências, a avaliação humana ainda é o padrão de ouro para avaliar rigorosamente a qualidade de LLM.
Especialistas podem fornecer avaliações qualitativas detalhadas sobre:
- Precisão e correção factual
- Lógica, raciocínio e senso comum
- Coerência, consistência e legibilidade
- Adequação do tom, estilo e voz
- Gramaticalidade e fluência
- Criatividade e nuances
Para avaliar um modelo, os humanos recebem um conjunto de prompts de entrada e as respostas geradas pelo LLM. Eles avaliam a qualidade das respostas, frequentemente usando escalas de classificação e rubricas.
A desvantagem é que a avaliação humana manual é cara, lenta e difícil de escalar. Ela também exige o desenvolvimento de critérios padronizados e treinamento de avaliadores para aplicá-los consistentemente.
Alguns pesquisadores exploraram maneiras criativas de financiar avaliações humanas de LLM usando sistemas de torneio, onde as pessoas apostam e julgam partidas entre modelos. Mas a cobertura ainda é limitada em comparação com avaliações manuais completas.
Para casos de uso empresariais onde a qualidade é mais importante do que a escala bruta, a avaliação humana especializada permanece o padrão de ouro, apesar dos custos. Isso é especialmente verdadeiro para aplicações mais arriscadas de LLMs.
Conclusão
Avaliar modelos de linguagem grande de forma abrangente requer o uso de uma ferramenta diversificada de métodos complementares, em vez de confiar em uma técnica única.
Combinando abordagens automáticas para velocidade com supervisão humana rigorosa para precisão, podemos desenvolver metodologias de teste confiáveis para modelos de linguagem grande. Com avaliação robusta, podemos desbloquear o tremendo potencial dos LLMs enquanto gerenciamos seus riscos de forma responsável.












