Líderes de pensamento

Referências para LLMs

Published August 28, 2024

Updated April 27, 2026

Irina Barskaya, PhD, Head Data Scientist at Yandex

Entenda o papel e as limitações das referências na avaliação do desempenho de LLMs. Explore as técnicas para desenvolver LLMs robustos.

Os Grandes Modelos de Linguagem conquistaram uma enorme popularidade nos últimos anos. Quero dizer, você já viu. A capacidade excepcional dos LLMs de entender comandos de linguagem humana os tornou a integração perfeita para empresas, apoiando fluxos de trabalho críticos e automatizando tarefas para uma eficiência máxima. Além disso, além da compreensão do usuário médio, há muito mais coisas que os LLMs podem fazer. E à medida que nossa dependência deles cresce, realmente devemos prestar mais atenção às medidas para garantir a precisão e confiabilidade necessárias. Este é uma tarefa global que concerne a instituições inteiras, mas no âmbito das empresas, agora existem várias referências que podem ser usadas para avaliar o desempenho dos LLMs em vários domínios. Elas podem testar as habilidades do modelo em compreensão, construção lógica, matemática, e assim por diante, e os resultados determinam se um LLM está pronto para implantação comercial.

Neste artigo, reuni uma lista abrangente das referências mais populares para avaliação de LLM. Discutiremos cada referência em detalhes e veremos como diferentes LLMs se saem contra os critérios de avaliação. Mas primeiro, vamos entender a avaliação de LLM em mais detalhes.

O que é Avaliação de LLM?

Assim como outros modelos de IA, os LLMs também precisam ser avaliados contra referências específicas que avaliam vários aspectos do desempenho do modelo de linguagem: conhecimento, precisão, confiabilidade e consistência. O padrão geralmente envolve:

Compreensão de Consultas do Usuário: Avaliar a capacidade do modelo de compreender e interpretar uma ampla gama de entradas do usuário.
Verificação de Saída: Verificar as respostas geradas pela IA contra uma base de conhecimento confiável para garantir que sejam corretas e relevantes.
Robustez: Medir como bem o modelo se sai com entradas ambíguas, incompletas ou ruidosas.

A avaliação de LLM dá aos desenvolvedores o poder de identificar e abordar limitações de forma eficiente, para que possam melhorar a experiência geral do usuário. Se um LLM for avaliado a fundo, ele será preciso e robusto o suficiente para lidar com diferentes aplicações do mundo real, mesmo incluindo aquelas com entradas ambíguas ou inesperadas.

Referências

Os LLMs são uma das tecnologias mais complicadas até o momento e podem alimentar até as aplicações mais complicadas. Então, o processo de avaliação simplesmente precisa ser igualmente complexo, testando seu processo de pensamento e precisão técnica.

Uma referência usa conjuntos de dados específicos, métricas e tarefas de avaliação para testar o desempenho do LLM, e permite comparar diferentes LLMs e medir sua precisão, o que, por sua vez, impulsiona o progresso na indústria por meio de desempenho aprimorado.

Aqui estão alguns dos aspectos mais típicos do desempenho do LLM:

Conhecimento: O conhecimento do modelo precisa ser testado em vários domínios. É para isso que serve a referência de conhecimento. Ele avalia como efetivamente o modelo pode lembrar informações de diferentes campos, como Física, Programação, Geografia, etc.
Raciocínio Lógico: Significa testar a capacidade do modelo de ‘pensar’ passo a passo e derivar uma conclusão lógica, geralmente envolvem cenários em que o modelo precisa selecionar a continuação mais plausível ou explicação com base no conhecimento cotidiano e raciocínio lógico.
Compreensão de Leitura: Os modelos precisam ser excelentes na interpretação de linguagem natural e, em seguida, gerar respostas de acordo. O teste parece responder a perguntas com base em passagens para avaliar a compreensão, inferência e retenção de detalhes. Como um teste de leitura escolar.
Compreensão de Código: Isso é necessário para medir a proficiência do modelo em entender, escrever e depurar código. Essas referências dão ao modelo tarefas de codificação ou problemas que o modelo precisa resolver com precisão, frequentemente cobrindo uma variedade de linguagens de programação e paradigmas.
Conhecimento Mundial: Para avaliar a compreensão do modelo do conhecimento geral sobre o mundo. Esses conjuntos de dados geralmente têm perguntas que precisam de conhecimento amplo e enciclopédico para serem respondidas corretamente, o que as torna diferentes de referências de conhecimento mais específicas e especializadas.

Referências de “Conhecimento”

MMLU (Compreensão Multimodal de Linguagem)

Essa referência é feita para testar a compreensão do LLM de conhecimento factual em vários tópicos, como humanidades, ciências sociais, história, ciência da computação e até mesmo direito. 57 perguntas e 15k tarefas, todas direcionadas a garantir que o modelo tenha capacidades de raciocínio excelentes. Isso torna o MMLU uma boa ferramenta para avaliar o conhecimento factual e o raciocínio do LLM em vários tópicos.

Recentemente, tornou-se uma referência-chave para avaliar LLMs para as áreas mencionadas acima. Os desenvolvedores sempre querem otimizar seus modelos para superar os outros nessa referência, o que a torna um padrão de fato para avaliar o raciocínio avançado e o conhecimento em LLMs. Modelos de grande escala empresarial mostraram pontuações impressionantes nessa referência, incluindo o GPT-4-omni com 88,7%, Claude 3 Opus com 86,8%, Gemini 1.5 Pro com 85,9% e Llama-3 70B com 82%. Modelos pequenos geralmente não se saem tão bem nessa referência, geralmente não ultrapassando 60-65%, mas o desempenho recente do Phi-3-Small-7b com 75,3% é algo a se considerar.

No entanto, o MMLU não está sem contras: ele tem problemas conhecidos, como perguntas ambíguas, respostas incorretas e contexto ausente. E muitos pensam que algumas de suas tarefas são fáceis demais para uma avaliação adequada do LLM.

Gostaria de deixar claro que referências como o MMLU não retratam perfeitamente cenários do mundo real. Se um LLM alcança uma pontuação alta nisso, não significa necessariamente que ele se tornou um especialista no assunto. As referências são limitadas em escopo e frequentemente dependem de perguntas de múltipla escolha, que nunca podem capturar plenamente a complexidade e o contexto das interações do mundo real. A compreensão real exige conhecer fatos e aplicar esse conhecimento de forma dinâmica, e isso envolve pensamento crítico, resolução de problemas e compreensão contextual. Por esses motivos, os LLMs precisam ser constantemente aprimorados e atualizados para que o modelo mantenha a relevância e a eficácia da referência.

GPQA (Banco de Dados de Perguntas e Respostas de Nível de Pós-Graduação)

Essa referência avalia os LLMs no raciocínio lógico usando um conjunto de dados com apenas 448 perguntas. Especialistas em domínio o desenvolveram e ele cobre tópicos em biologia, física e química.

Cada pergunta passa pelo seguinte processo de validação:

Um especialista no mesmo tópico responde à pergunta e fornece feedback detalhado.
O redator da pergunta revisa a pergunta com base nesse feedback.
Um segundo especialista responde à pergunta revisada.

Esse processo pode garantir que as perguntas sejam objetivas, precisas e desafiadoras para um modelo de linguagem. Até especialistas experientes com doutorado alcançam apenas uma precisão de 65% nessas perguntas, enquanto o GPT-4-omni alcança apenas 53,6%, destacando a lacuna entre a inteligência humana e a máquina.

Devido aos requisitos de qualificação altos, o conjunto de dados é na verdade bastante pequeno, o que limita um pouco seu poder estatístico para comparar a precisão, e exige tamanhos de efeito grandes. Os especialistas que criaram e validaram essas perguntas vieram da Upwork, então eles potencialmente introduziram vieses com base em sua especialização e nos tópicos cobertos.

Referências de Código

HumanEval

164 problemas de programação, um teste real para as habilidades de codificação dos LLMs. É o HumanEval. Ele é projetado para testar as habilidades de codificação básicas dos grandes modelos de linguagem (LLMs). Ele usa a métrica pass@k para julgar a precisão funcional do código que está sendo gerado, que produz a probabilidade de pelo menos uma das amostras de código geradas pelo LLM nos k principais passar nos testes de caso.

Embora o conjunto de dados HumanEval inclua assinaturas de função, docstrings, corpos de código e vários testes unitários, ele não inclui a gama completa de problemas de codificação do mundo real, o que não testará adequadamente a capacidade do modelo de gerar código correto para cenários diversos.

MBPP (Programação em Python Básica)

MbPP é uma referência que consiste em 1.000 perguntas de programação em Python criadas por crowdsourcing. São problemas de nível básico e eles se concentram em habilidades de programação fundamentais. Ele usa abordagens de few-shot e fine-tuning para avaliar o desempenho do modelo, com modelos maiores geralmente se saindo melhor nesse conjunto de dados. No entanto, como o conjunto de dados contém principalmente programas de nível básico, ele ainda não representa plenamente as complexidades e desafios de aplicações do mundo real.

Referências Matemáticas

Enquanto a maioria dos LLMs é muito boa em estruturar respostas padrão, o raciocínio matemático é um problema muito maior para eles. Por quê? Porque ele exige habilidades relacionadas à compreensão de perguntas, a uma abordagem lógica passo a passo com raciocínio matemático e derivar a resposta correta.

O método “Chain of Thought” (CoT) é feito para avaliar os LLMs em referências relacionadas à matemática, ele envolve solicitar aos modelos que expliquem seu processo de raciocínio passo a passo ao resolver um problema. Há vários benefícios disso. Isso torna o processo de raciocínio mais transparente, ajuda a identificar falhas na lógica do modelo e permite uma avaliação mais granular das habilidades de resolução de problemas. Ao quebrar problemas complexos em uma série de etapas mais simples, o CoT pode melhorar o desempenho do modelo em referências matemáticas e fornecer insights mais profundos sobre suas capacidades de raciocínio.

GSM8K: Uma Referência Matemática Popular

Uma das referências bem conhecidas para avaliar as habilidades matemáticas em LLMs é o conjunto de dados GSM8K. O GSM8K consiste em 8,5 mil problemas de matemática de nível médio, que levam alguns passos para resolver, e soluções que principalmente envolvem realizar uma sequência de cálculos elementares. Geralmente, modelos maiores ou aqueles treinados especificamente para raciocínio matemático tendem a se sair melhor nessa referência, por exemplo, os modelos GPT-4 alcançam uma pontuação de 96,5%, enquanto o DeepSeekMATH-RL-7B fica ligeiramente atrás com 88,2%.

Embora o GSM8K seja útil para avaliar a capacidade do modelo de lidar com problemas de matemática de nível de escola, ele pode não capturar plenamente a capacidade do modelo de resolver desafios matemáticos mais avançados ou diversificados, limitando assim sua eficácia como medida abrangente da habilidade matemática.

O Conjunto de Dados de Matemática: Uma Alternativa Abrangente

O conjunto de dados de matemática lidou com as limitações de referências como o GSM8K. Esse conjunto de dados é mais extenso, cobrindo desde aritmética elementar até problemas de nível de ensino médio e até mesmo de nível universitário. Ele também é comparado com humanos, com um estudante de ciência da computação que não gosta de matemática alcançando uma precisão de 40% e um medalhista de ouro alcançando uma precisão de 90%.

Ele fornece uma avaliação mais abrangente das capacidades matemáticas do LLM. Ele garante que o modelo seja proficiente em aritmética básica e competente em áreas complexas como álgebra, geometria e cálculo. No entanto, a complexidade e diversidade aumentadas dos problemas podem tornar desafiador para os modelos alcançar alta precisão, especialmente aqueles não treinados explicitamente em uma ampla gama de conceitos matemáticos. Além disso, os formatos variados de problemas no conjunto de dados de matemática podem introduzir inconsistências no desempenho do modelo, o que torna mais difícil tirar conclusões definitivas sobre a proficiência matemática geral do modelo.

Usar o método Chain of Thought com o conjunto de dados de matemática pode aprimorar a avaliação, pois revela as capacidades de raciocínio passo a passo dos LLMs em uma ampla gama de desafios matemáticos. Uma abordagem combinada como essa garante uma avaliação mais robusta e detalhada das capacidades matemáticas reais do LLM.

Referências de Compreensão de Leitura

Uma avaliação de compreensão de leitura avalia a capacidade do modelo de entender e processar textos complexos, o que é especialmente fundamental para aplicações como suporte ao cliente, geração de conteúdo e recuperação de informações. Existem algumas referências projetadas para avaliar essa habilidade, cada uma com atributos únicos que contribuem para uma avaliação abrangente das capacidades do modelo.

RACE (Conjunto de Dados de Compreensão de Leitura de Exames)

As referências RACE têm quase 28.000 passagens e 100.000 perguntas coletadas de exames de inglês para estudantes chineses do ensino fundamental e médio entre as idades de 12 e 18 anos. Ela não restringe as perguntas e respostas a serem extraídas das passagens dadas, tornando as tarefas ainda mais desafiadoras.

Ele cobre uma ampla gama de tópicos e tipos de perguntas, o que torna uma avaliação minuciosa e inclui perguntas em diferentes níveis de dificuldade. Além disso, as perguntas no RACE são projetadas especificamente para testar habilidades de leitura humanas e são criadas por especialistas em domínio.

No entanto, a referência tem algumas desvantagens. Como foi desenvolvida com base em materiais educacionais chineses, ela é propensa a introduzir vieses culturais que não refletem um contexto global. Além disso, o alto nível de dificuldade em algumas perguntas não é representativo de tarefas típicas do mundo real. Portanto, as avaliações de desempenho podem não ser muito precisas.

DROP (Raciocínio Discreto Sobre Parágrafos)

Outra abordagem significativa é o DROP (Raciocínio Discreto Sobre Parágrafos), que desafia os modelos a realizar raciocínio discreto sobre parágrafos. Ele tem 96.000 perguntas para testar as capacidades de raciocínio dos LLMs e as perguntas são extraídas da Wikipedia e criadas por crowdsourcing da Amazon Mechanical Turk. As perguntas do DROP frequentemente exigem que os LLMs realizem operações matemáticas, como adição, subtração e comparação, com base em informações espalhadas por um parágrafo.

As perguntas são desafiadoras. Elas exigem que os LLMs localizem vários números no parágrafo e os adicionem ou subtram para obter a resposta final. Modelos grandes, como o GPT-4 e o Palm, alcançam 80% e 85%, enquanto os humanos alcançam 96% no conjunto de dados do DROP.

Referências de Senso Comum

Testar o senso comum em modelos de linguagem é interessante, mas também é fundamental, pois avalia a capacidade do modelo de fazer julgamentos e inferências que se alinham com o raciocínio humano. Diferentemente de nós, que desenvolvemos um modelo de mundo abrangente por meio de experiências práticas, os modelos de linguagem são treinados em grandes conjuntos de dados sem realmente entender o contexto. Isso significa que os modelos lutam com tarefas que exigem uma compreensão intuitiva de situações do dia a dia, raciocínio lógico e conhecimento prático, que são muito importantes para aplicações de IA robustas e confiáveis.

HellaSwag (Fins Difíceis, Contextos Mais Longos e Atividades de Baixo Nível para Situações com Gerações Adversárias)

O HellaSwag foi desenvolvido por Rowan Zellers e colegas da Universidade de Washington e do Instituto Allen de Inteligência Artificial. Ele é projetado para testar a capacidade do modelo de prever a continuação mais plausível de um cenário dado. Essa referência é construída usando a Filtragem Adversária (AF), onde uma série de discriminadores seleciona iterativamente respostas erradas geradas por máquina adversárias. Esse método cria um conjunto de dados com exemplos triviais para humanos, mas desafiadores para os modelos, resultando em uma “zona de dificuldade” ideal.

Embora o HellaSwag tenha sido desafiador para modelos anteriores, modelos de última geração, como o GPT-4, alcançaram níveis de desempenho próximos à precisão humana, indicando um progresso significativo no campo. No entanto, esses resultados sugerem a necessidade de referências em constante evolução para acompanhar os avanços nas capacidades de IA.

Openbook

O conjunto de dados Openbook consiste em 5.957 perguntas de múltipla escolha de ciência de nível elementar. As perguntas são coletadas de exames de livro aberto e desenvolvidas para avaliar a compreensão humana do assunto.

A referência Openbook exige capacidade de raciocínio além da recuperação de informações. O GPT-4 alcança a precisão mais alta de 95,9% até o momento.

O OpenbookQA é modelado após exames de livro aberto e consiste em 5.957 perguntas de múltipla escolha de ciência de nível elementar. Essas perguntas são projetadas para investigar a compreensão e a aplicação de 1.326 fatos científicos básicos.

Semelhante ao HellaSwag, os modelos anteriores encontraram o OpenbookQA desafiador, mas os modelos modernos, como o GPT-4, alcançaram níveis de desempenho próximos aos humanos. Esse progresso destaca a importância de desenvolver referências ainda mais complexas e nuances para continuar impulsionando os limites da compreensão de IA.

As Referências São Suficientes para a Avaliação do Desempenho do LLM?

Sim, embora forneçam uma abordagem padronizada para avaliar o desempenho do LLM, elas também podem ser enganosas. A Organização de Sistemas de Modelos de Grande Escala diz que uma boa referência de LLM deve ser escalável, capaz de avaliar novos modelos com um número relativamente pequeno de testes, e fornecer uma ordem de classificação única para todos os modelos. Mas, há razões pelas quais elas podem não ser suficientes. Aqui estão algumas:

Vazamento de Referência

Isso é um encontro comum, e acontece quando os dados de treinamento se sobrepõem aos dados de teste, tornando a avaliação enganosa. Se um modelo já encontrou algumas perguntas de teste durante o treinamento, seu resultado pode não refletir precisamente suas capacidades reais. Mas uma referência ideal deve minimizar a memorização e refletir cenários do mundo real.

Viés de Avaliação

As tabelas de classificação de referências de LLM são usadas para comparar o desempenho dos LLMs em várias tarefas. No entanto, confiar nessas tabelas de classificação para comparação de modelos pode ser enganoso. Mudanças simples nos testes de referência, como alterar a ordem das perguntas, podem alterar a classificação dos modelos em até oito posições. Além disso, os LLMs podem se sair diferente dependendo dos métodos de pontuação, destacando a importância de considerar vieses de avaliação.

Abertura

A interação do mundo real com LLMs envolve projetar prompts para gerar saídas de IA desejadas. As saídas dos LLMs dependem da eficácia dos prompts, e as referências são projetadas para testar a consciência de contexto dos LLMs. Embora as referências sejam projetadas para testar a consciência de contexto do LLM, elas nem sempre se traduzem diretamente no desempenho do mundo real. Por exemplo, um modelo que alcança uma pontuação de 100% em um conjunto de dados de referência, como o LSAT, não garante o mesmo nível de precisão em aplicações práticas. Isso destaca a importância de considerar a natureza aberta das tarefas do mundo real na avaliação do LLM.

Avaliação Efetiva para LLMs Robustos

Então, agora você sabe que as referências não são sempre a melhor opção, pois elas não podem generalizar para todos os problemas. Mas, há outras maneiras.

Referências Personalizadas

Elas são perfeitas para testar comportamentos e funcionalidades específicas em cenários de tarefas específicas. Digamos, se o LLM for projetado para oficiais médicos, os conjuntos de dados coletados de ambientes médicos representarão efetivamente cenários do mundo real. Essas referências personalizadas podem se concentrar em compreensão de linguagem de domínio, desempenho e requisitos contextuais únicos. Ao alinhar as referências com cenários do mundo real possíveis, você pode garantir que o LLM se saia bem em geral e se destaque nas tarefas específicas para as quais ele é destinado. Isso pode ajudar a identificar e abordar lacunas ou fraquezas nas capacidades do modelo precocemente.

Pipeline de Detecção de Vazamento de Dados

Se você quiser que suas avaliações “mostrem” integridade, ter um pipeline de referência livre de vazamento de dados é muito importante. O vazamento de dados ocorre quando os dados de referência são incluídos no corpus de pré-treinamento do modelo, resultando em pontuações de desempenho artificialmente altas. Para evitar isso, as referências devem ser cruzadas com os dados de pré-treinamento. Além disso, etapas para evitar qualquer informação previamente vista. Isso pode envolver o uso de conjuntos de dados proprietários ou curados que sejam mantidos separados do pipeline de treinamento do modelo – isso garantirá que as métricas de desempenho que você obtém refletam a capacidade do modelo de generalizar bem.

Avaliação Humana

As métricas automatizadas por si só não podem capturar o espectro completo do desempenho do modelo, especialmente quando se trata de aspectos nuances e subjetivos da compreensão e geração de linguagem. Aqui, a avaliação humana fornece uma avaliação muito melhor:

Contratação de Profissionais que possam fornecer avaliações detalhadas e confiáveis, especialmente para domínios especializados.
Crowdsourcing! Plataformas como a Amazon Mechanical Turk permitem que você colete julgamentos humanos diversificados rapidamente e a um baixo custo.
Feedback da Comunidade: Usar plataformas como a arena de classificação do LMSYS, onde os usuários podem votar e comparar modelos, adiciona uma camada extra de insight. A arena de bate-papo do LMSYS Hard, por exemplo, é particularmente eficaz em destacar diferenças sutis entre os principais modelos por meio de interações diretas de usuário e votos.

Conclusão

Sem avaliação e referenciamento, não teríamos como saber se a capacidade do LLM de lidar com tarefas do mundo real é tão precisa e aplicável quanto pensamos que é. Mas, como eu disse, as referências não são uma maneira completamente infalível de verificar isso, elas podem levar a lacunas no desempenho dos LLMs. Isso também pode desacelerar o desenvolvimento de LLMs que sejam realmente robustos para o trabalho.

É assim que deveria ser em um mundo ideal. Os LLMs entendem as consultas do usuário, identificam erros nos prompts, completam tarefas como instruído e geram saídas confiáveis. Os resultados já são ótimos, mas não ideais. É aqui que as referências personalizadas provam ser muito úteis, assim como a avaliação humana e a detecção de vazamento de referência. Ao usar esses, temos a chance de produzir LLMs realmente robustos.

Irina Barskaya, PhD, Head Data Scientist at Yandex

Irina Barskaya, PhD, é uma distinta cientista de dados com mais de uma década de experiência, abrangendo tanto análise de produtos quanto análise para tecnologias de ponta. Ela liderou a criação e análise para Yasmina, o primeiro assistente de voz baseado em IA totalmente funcional e localizado para a Arábia Saudita, lidando com complexa localização de dados e rotulagem para Árabe Moderno Padrão e dialetos sauditas. Atualmente, Irina lidera a análise de qualidade na Yandex, impulsionando avanços em tecnologias de IA.