Líderes de pensamento

Referências para LLMs

Publicado 28 de agosto de 2024

Irina Barskaya, Doutor, Cientista de Dados Chefe na Yandex

Compreender o papel e as limitações dos benchmarks na avaliação de desempenho do LLM. Explore as técnicas para desenvolver LLMs robustos.

Grandes Modelos de Linguagem ganharam enorme popularidade nos últimos anos. Quer dizer, você já viu. A capacidade excepcional dos LLMs de compreender comandos da linguagem humana os tornou a integração absolutamente perfeita para empresas, suportando fluxos de trabalho críticos e automatizando tarefas com a máxima eficiência. Além disso, além da compreensão do usuário médio, há muito mais que os LLMs podem fazer. E à medida que nossa dependência deles cresce, realmente precisamos prestar mais atenção às medidas para garantir a precisão e a confiabilidade necessárias. Esta é uma tarefa global que diz respeito a instituições inteiras, mas no âmbito empresarial existem agora vários benchmarks que podem ser usados para avaliar o desempenho dos LLMs em vários domínios. Eles podem testar as habilidades do modelo em compreensão, construção lógica, matemática e assim por diante, e os resultados determinam se um LLM está pronto para implantação comercial.

Neste artigo, reuni uma lista abrangente dos benchmarks mais populares para avaliação de LLM. Discutiremos cada benchmark em detalhes e veremos como diferentes LLMs se saem em relação aos critérios de avaliação. Mas, primeiro, vamos entender a avaliação de LLM em mais detalhes.

O que é avaliação LLM?

Assim como outros modelos de IA, os LLMs também precisam ser avaliados em relação a benchmarks específicos que avaliam vários aspectos do desempenho do modelo de linguagem: conhecimento, precisão, confiabilidade e consistência. O padrão normalmente envolve:

Compreendendo as consultas do usuário: Avaliar a capacidade do modelo de compreender e interpretar com precisão uma ampla gama de entradas do usuário.
Verificação de saída: Verificar as respostas geradas pela IA em relação a uma base de conhecimento confiável para garantir que estejam corretas e relevantes.
Robustez: Medir o desempenho do modelo com entradas ambíguas, incompletas ou ruidosas.

A avaliação LLM dá aos desenvolvedores o poder de identificar e resolver limitações de forma eficiente, para que possam melhorar a experiência geral do usuário. Se um LLM for avaliado minuciosamente, será preciso e robusto o suficiente para lidar com diferentes aplicações do mundo real, mesmo incluindo aquelas com entradas ambíguas ou inesperadas.

Benchmarks

Os LLMs são uma das peças de tecnologia mais complicadas até o momento e podem potencializar até mesmo as aplicações mais complicadas. Portanto, o processo de avaliação simplesmente tem que ser igualmente complexo, colocando à prova seu processo de pensamento e precisão técnica.

Um benchmark usa conjuntos de dados, métricas e tarefas de avaliação específicos para testar o desempenho do LLM e permite comparar diferentes LLMs e medir sua precisão, o que, por sua vez, impulsiona o progresso na indústria por meio de um melhor desempenho.

Aqui estão alguns dos aspectos mais típicos do desempenho do LLM:

Recursos Educacionais: O conhecimento do modelo precisa ser testado em vários domínios. É para isso que serve o benchmark de conhecimento. Ele avalia a eficácia do modelo em recuperar informações de diferentes áreas, como Física, Programação, Geografia, etc.
lógico Raciocínio: Significa testar a capacidade de um modelo de "pensar" passo a passo e chegar a uma conclusão lógica. Geralmente, envolve cenários em que o modelo precisa selecionar a continuação ou explicação mais plausível com base no conhecimento cotidiano e no raciocínio lógico.
Compreensão de leitura: Os modelos precisam ser excelentes em interpretação de linguagem natural e então gerar respostas de acordo. O teste parece responder perguntas com base em passagens para avaliar compreensão, inferência e retenção de detalhes. Como um teste de leitura escolar.
Compreensão do código: Isso é necessário para medir a proficiência de um modelo na compreensão, escrita e depuração de código. Esses benchmarks fornecem ao modelo tarefas ou problemas de codificação que o modelo deve resolver com precisão, geralmente cobrindo uma variedade de linguagens de programação e paradigmas.
Conhecimento Mundial: Para avaliar a compreensão do modelo sobre o conhecimento geral do mundo. Esses conjuntos de dados normalmente contêm perguntas que exigem conhecimento amplo e enciclopédico para serem respondidas corretamente, o que os diferencia de referências de conhecimento mais específicas e especializadas.

Referências de “conhecimento”

MMLU (compreensão de linguagem multimodal)

Esta referência é feita para testar a compreensão do LLM sobre o conhecimento factual em vários tópicos, como humanidades, ciências sociais, história, ciência da computação e até mesmo direito. 57 perguntas e 15 mil tarefas, todas direcionadas para garantir que o modelo tenha ótimas capacidades de raciocínio. Isso torna o MMLU uma boa ferramenta para avaliar o conhecimento factual e o raciocínio de um LLM que trata de vários tópicos.

Recentemente, tornou-se uma referência fundamental para avaliar LLMs nas áreas acima mencionadas. Os desenvolvedores sempre desejam otimizar seus modelos para superar outros neste benchmark, o que o torna um padrão de fato para avaliar raciocínio e conhecimento avançados em LLMs. Grandes modelos de nível empresarial mostraram pontuações impressionantes neste benchmark, incluindo o GPT-4-omni com 88.7%, Claude 3 Opus com 86.8%, Gemini 1.5 Pro com 85.9% e Llama-3 70B com 82%. Os modelos pequenos normalmente não têm um desempenho tão bom neste benchmark, geralmente não excedendo 60-65%, mas o desempenho recente do Phi-3-Small-7b de 75.3% é algo para se pensar.

No entanto, a MMLU não está isenta de desvantagens: tem problemas conhecidos, como questões ambíguas, respostas incorretase falta de contexto. E muitos pensam que algumas de suas tarefas são fáceis demais para uma avaliação adequada do LLM.

Gostaria de deixar claro que benchmarks como o MMLU não retratam perfeitamente cenários do mundo real. Se um LLM obtém uma ótima pontuação nisso, isso nem sempre significa que se tornou um especialista no assunto. Os benchmarks são bastante limitados em escopo e frequentemente dependem de questões de múltipla escolha, que nunca conseguem captar totalmente a complexidade e o contexto das interações do mundo real. A verdadeira compreensão exige o conhecimento dos fatos e a aplicação dinâmica desse conhecimento, o que envolve pensamento crítico, resolução de problemas e compreensão contextual. Por essas razões, os LLMs precisam ser constantemente refinados e atualizados para que o modelo mantenha a relevância e a eficácia do benchmark.

GPQA (referência de perguntas e respostas à prova do Google em nível de pós-graduação)

Este benchmark avalia LLMs em raciocínio lógico usando um conjunto de dados com apenas 448 perguntas. Especialistas do domínio o desenvolveram e cobrem tópicos de biologia, física e química.

Cada pergunta passa pelo seguinte processo de validação:

Um especialista no mesmo assunto responde à pergunta e fornece feedback detalhado.
O redator da pergunta revisa a pergunta com base nesse feedback.
Um segundo especialista responde à pergunta revisada.

Esse processo pode realmente garantir que as perguntas sejam objetivas, precisas e desafiadoras para um modelo de linguagem. Mesmo acadêmicos de doutorado experientes alcançam apenas uma precisão de 65% nessas questões, enquanto o GPT-4-omni atinge apenas 53.6%, destacando a lacuna entre a inteligência humana e a inteligência da máquina.

Devido aos elevados requisitos de qualificação, o conjunto de dados é, de facto, bastante pequeno, o que limita um pouco o seu poder estatístico para comparar a precisão, e requer tamanhos de efeito grandes. Os especialistas que criaram e validaram essas perguntas vieram da Upwork, portanto, potencialmente introduziram preconceitos com base em seus conhecimentos e nos tópicos abordados.

Referências de código

Avaliação Humana

164 problemas de programação, um verdadeiro teste para as habilidades de codificação dos LLMs. Isso é Avaliação Humana. Ele foi projetado para testar as habilidades básicas de codificação de grandes modelos de linguagem (LLMs). Ele usa a métrica pass@k para julgar a precisão funcional do código que está sendo gerado, o que gera a probabilidade de pelo menos uma das k principais amostras de código geradas pelo LLM passar nos casos de teste.

Embora o conjunto de dados HumanEval inclua assinaturas de funções, docstrings, corpos de código e vários testes de unidade, ele não inclui toda a gama de problemas de codificação do mundo real, o que simplesmente não testará adequadamente a capacidade de um modelo de criar código correto para diversos cenários.

MBPP (programação Python principalmente básica)

Mbpp benchmark consiste em 1,000 questões de programação Python de crowdsourcing. Esses são problemas básicos e se concentram em habilidades fundamentais de programação. Ele usa abordagens de poucos disparos e ajuste fino para avaliar o desempenho do modelo, com modelos maiores normalmente apresentando melhor desempenho neste conjunto de dados. No entanto, uma vez que o conjunto de dados contém principalmente programas de nível básico, ainda não representa totalmente as complexidades e desafios das aplicações do mundo real.

Referências matemáticas

Embora a maioria dos LLMs seja muito boa em estruturar respostas padrão, o raciocínio matemático é um problema muito maior para eles. Por quê? Porque requer habilidades relacionadas à compreensão de perguntas, uma abordagem lógica passo a passo com raciocínio matemático e derivação da resposta correta.

O método "Cadeia de Pensamento" (CoT) foi criado para avaliar LLMs em benchmarks relacionados à matemática. Ele envolve incitar modelos a explicar seu processo de raciocínio passo a passo ao resolver um problema. Há vários benefícios nisso. Torna o processo de raciocínio mais transparente, ajuda a identificar falhas na lógica do modelo e permite uma avaliação mais granular das habilidades de resolução de problemas. Ao dividir problemas complexos em uma série de etapas mais simples, o CoT pode melhorar o desempenho do modelo em benchmarks matemáticos e fornecer insights mais profundos sobre suas capacidades de raciocínio.

GSM8K: uma referência matemática popular

Um dos benchmarks bem conhecidos para avaliar habilidades matemáticas em LLMs é o conjunto de dados GSM8K. O GSM8K consiste em 8.5 mil problemas de matemática para o ensino médio, que exigem algumas etapas para serem resolvidos, e as soluções envolvem principalmente a execução de uma sequência de cálculos elementares. Normalmente, modelos maiores ou aqueles especificamente treinados para raciocínio matemático tendem a ter melhor desempenho neste benchmark, por exemplo, os modelos GPT-4 apresentam uma pontuação de 96.5%, enquanto DeepSeekMATH-RL-7B fica um pouco atrás, com 88.2%.

Embora o GSM8K seja útil para avaliar a capacidade de um modelo de lidar com problemas matemáticos de nível escolar, ele pode não capturar totalmente a capacidade de um modelo de resolver desafios matemáticos mais avançados ou diversos, limitando assim sua eficácia como uma medida abrangente de habilidade matemática.

O conjunto de dados matemáticos: uma alternativa abrangente

O conjunto de dados matemáticos tratou das deficiências de benchmarks como o GSM8K. Este conjunto de dados é mais extenso, abrangendo problemas de aritmética do ensino fundamental ao ensino médio e até mesmo de nível universitário. Também é comparado com humanos, com um estudante de doutorado em ciência da computação que não gosta de matemática alcançando uma precisão de 40% e um medalhista de ouro alcançando uma precisão de 90%.

Ele fornece uma avaliação mais completa das capacidades matemáticas de um LLM. Ele se encarrega de comprovar que o modelo é proficiente em aritmética básica e competente em áreas complexas como álgebra, geometria e cálculo. No entanto, a crescente complexidade e diversidade dos problemas pode dificultar a obtenção de alta precisão pelos modelos, especialmente aqueles que não são explicitamente treinados em uma ampla gama de conceitos matemáticos. Além disso, os diversos formatos de problemas no conjunto de dados de matemática podem introduzir inconsistências no desempenho do modelo, o que torna muito mais difícil tirar conclusões definitivas sobre a proficiência matemática geral de um modelo.

O uso do método da Cadeia de Pensamento com o conjunto de dados de Matemática pode aprimorar a avaliação, pois revela as habilidades de raciocínio passo a passo dos LLMs em um amplo espectro de desafios matemáticos. Uma abordagem combinada como essa garante uma avaliação mais robusta e detalhada das verdadeiras capacidades matemáticas de um LLM.

Benchmarks de compreensão de leitura

Uma avaliação de compreensão de leitura avalia a capacidade do modelo de compreender e processar textos complexos, o que é especialmente fundamental para aplicações como suporte ao cliente, geração de conteúdo e recuperação de informações. Existem alguns benchmarks projetados para avaliar essa habilidade, cada um com atributos únicos que contribuem para uma avaliação abrangente das capacidades de um modelo.

RACE (conjunto de dados de compreensão de leitura de exames)

Os benchmarks RACE têm quase 28,000 passagens e 100,000 questões coletadas dos exames de inglês para estudantes chineses do ensino fundamental e médio entre 12 e 18 anos. Ele não restringe as perguntas e respostas a serem extraídas das passagens fornecidas, tornando as tarefas ainda mais desafiadoras.

Abrange uma ampla gama de tópicos e tipos de perguntas, o que permite uma avaliação completa e inclui perguntas em diferentes níveis de dificuldade. Além disso, as perguntas do RACE são projetadas especificamente para testar as habilidades de leitura humana e são criadas por especialistas no domínio.

No entanto, o benchmark tem algumas desvantagens. Uma vez que é desenvolvido com base em materiais educativos chineses, é propenso a introduzir preconceitos culturais que não refletem um contexto global. Além disso, o alto nível de dificuldade em algumas questões não é representativo de tarefas típicas do mundo real. Portanto, as avaliações de desempenho podem não ser tão precisas.

DROP (raciocínio discreto sobre parágrafos)

Outra abordagem significativa é o DROP (Raciocínio Discreto sobre Parágrafos), que desafia os modelos a realizar raciocínio discreto sobre parágrafos. Possui 96,000 perguntas para testar as capacidades de raciocínio dos LLMs e as perguntas são extraídas da Wikipedia e de crowdsourcing do Amazon Mechanical Turk. As perguntas DROP geralmente chamam modelos para realizar operações matemáticas como adição, subtração e comparação com base em informações espalhadas por uma passagem.

As perguntas são desafiadoras. Eles exigem que os LLMs localizem vários números na passagem e os adicionem ou subtraiam para obter a resposta final. Grandes modelos como GPT-4 e palm alcançam 80% e 85%, enquanto os humanos alcançam 96% no conjunto de dados DROP.

Benchmarks de senso comum

Testar o senso comum em modelos de linguagem é interessante, mas também fundamental, pois avalia a capacidade do modelo de fazer julgamentos e inferências alinhados ao nosso raciocínio humano. Ao contrário de nós, que desenvolvemos um modelo de mundo abrangente por meio de experiências práticas, os modelos de linguagem são treinados em enormes conjuntos de dados sem, de fato, compreender o contexto inerentemente. Isso significa que os modelos têm dificuldade em tarefas que exigem uma compreensão intuitiva de situações cotidianas, raciocínio lógico e conhecimento prático, fatores muito importantes para aplicações de IA robustas e confiáveis.

HellaSwag (finais mais difíceis, contextos mais longos e atividades de tiro baixo para situações com gerações adversárias)

O Hellaswag foi desenvolvido por Rowan Zellers e colegas da Universidade de Washington e do Instituto Allen de Inteligência Artificial. Ele foi projetado para testar a capacidade de um modelo de prever a continuação mais plausível de um determinado cenário. Este benchmark é construído usando Filtragem Adversarial (AF), onde uma série de discriminadores seleciona iterativamente respostas erradas geradas por máquinas adversárias. Este método cria um conjunto de dados com exemplos triviais para humanos, mas desafiadores para modelos, resultando em uma zona de dificuldade "Cachinhos Dourados".

Embora Hellaswag tenha sido um desafio para os modelos anteriores, modelos de última geração como o GPT-4 alcançaram níveis de desempenho próximos da precisão humana, indicando um progresso significativo no campo. No entanto, estes resultados sugerem a necessidade de benchmarks em constante evolução para acompanhar os avanços nas capacidades de IA.

Abra o livro

O conjunto de dados Openbook consiste em 5957 questões científicas de múltipla escolha de nível elementar. As questões são coletadas em exames abertos e desenvolvidas para avaliar a compreensão humana do assunto.

O benchmark Openbook requer capacidade de raciocínio além da recuperação de informações. GPT-4 atinge a maior precisão de 95.9% até agora.

O OpenbookQA é modelado a partir de exames de livro aberto e consiste em 5,957 questões científicas de múltipla escolha de nível fundamental. Essas perguntas foram elaboradas para sondar a compreensão de 1,326 fatos científicos essenciais e sua aplicação a situações novas.

Semelhante ao Hellaswag, os modelos anteriores consideravam o OpenbookQA um desafio, mas modelos modernos como o GPT-4 alcançaram níveis de desempenho quase humanos. Este progresso sublinha a importância de desenvolver parâmetros de referência ainda mais complexos e diferenciados para continuar a ultrapassar os limites da compreensão da IA.

Os benchmarks são suficientes para avaliação de desempenho do LLM?

Sim, embora forneçam uma abordagem padronizada para avaliar o desempenho do LLM, também podem ser enganosas. A Large Model Systems Organization afirma que um bom benchmark LLM deve ser escalável, capaz de avaliar novos modelos com um número relativamente pequeno de testes e fornecer uma ordem de classificação única para todos os modelos. Mas há razões pelas quais eles podem não ser suficientes. Aqui estão alguns:

Vazamento de referência

Este é um encontro comum e acontece quando os dados de treinamento se sobrepõem aos dados de teste, fazendo uma avaliação enganosa. Se um modelo já encontrou algumas questões de teste durante o treinamento, seu resultado pode não refletir com precisão suas verdadeiras capacidades. Mas um benchmark ideal deve minimizar a memorização e refletir cenários do mundo real.

Viés de avaliação

As tabelas de classificação de benchmarks de LLM são usadas para comparar o desempenho dos LLMs em diversas tarefas. No entanto, confiar nessas tabelas para comparação de modelos pode ser enganosa. Mudanças simples nos testes de benchmark, como alterar a ordem das perguntas, podem alterar a classificação dos modelos em até oito posições. Além disso, os LLMs podem ter desempenho diferente dependendo dos métodos de pontuação, destacando a importância de considerar vieses de avaliação.

Abertura

A interação LLM no mundo real envolve a criação de prompts para gerar saídas de IA desejadas. As saídas LLM dependem da eficácia dos prompts, e os benchmarks são projetados para testar a conscientização do contexto dos LLMs. Embora os benchmarks sejam projetados para testar a conscientização do contexto de um LLM, eles nem sempre se traduzem diretamente em desempenho no mundo real. Por exemplo, um modelo que atinge uma pontuação de 100% em um conjunto de dados de benchmark, como o LSAT, não garante o mesmo nível de precisão em aplicações práticas. Isso ressalta a importância de considerar a natureza aberta das tarefas do mundo real na avaliação de LLM.

Avaliação eficaz para LLMs robustos

Então, agora você sabe que os benchmarks nem sempre são a melhor opção porque nem sempre podem generalizar todos os problemas. Mas existem outras maneiras.

Comparativos de mercado personalizados

Eles são perfeitos para testar comportamentos e funcionalidades específicos em cenários de tarefas específicas. Digamos que, se o LLM for projetado para médicos, os conjuntos de dados coletados em ambientes médicos representarão efetivamente cenários do mundo real. Esses benchmarks personalizados podem se concentrar na compreensão da linguagem específica do domínio, no desempenho e em requisitos contextuais exclusivos. Ao alinhar os benchmarks com possíveis cenários do mundo real, você pode garantir que o LLM tenha um bom desempenho geral e se destaque nas tarefas específicas para as quais se destina. Isso pode ajudar a identificar e abordar quaisquer lacunas ou fraquezas nas capacidades do modelo desde o início.

Pipeline de detecção de vazamento de dados

Se você deseja que suas avaliações "demonstrem" integridade, é fundamental ter um pipeline de benchmark sem vazamentos de dados. O vazamento de dados ocorre quando os dados de benchmark são incluídos no corpus de pré-treinamento do modelo, resultando em pontuações de desempenho artificialmente altas. Para evitar isso, os benchmarks devem ser referenciados de forma cruzada com os dados de pré-treinamento. Além disso, é necessário evitar qualquer informação vista anteriormente. Isso pode envolver o uso de conjuntos de dados proprietários ou recém-curados, mantidos separados do pipeline de treinamento do modelo – isso garantirá que as métricas de desempenho obtidas reflitam a capacidade do modelo de generalizar bem.

Avaliação Humana

Métricas automatizadas, por si só, não conseguem capturar todo o espectro do desempenho de um modelo, especialmente quando se trata de aspectos muito sutis e subjetivos da compreensão e geração de linguagem. Nesse caso, a avaliação humana oferece uma avaliação muito melhor:

Contratação de Profissionais que podem fornecer avaliações detalhadas e confiáveis, especialmente para domínios especializados.
Crowdsourcing! Plataformas como o Amazon Mechanical Turk permitem reunir diversos julgamentos humanos rapidamente e com baixo custo.
Comentários da comunidade: O uso de plataformas como a arena de classificação LMSYS, onde os usuários podem votar e comparar modelos, adiciona uma camada extra de insights. O LMSYS Chatbot Arena Hard, por exemplo, é particularmente eficaz em destacar diferenças sutis entre os principais modelos por meio de interações e votos diretos do usuário.

Conclusão

Sem avaliação e benchmarking, não teríamos como saber se a capacidade dos LLMs de lidar com tarefas do mundo real é tão precisa e aplicável quanto pensamos. Mas, como eu disse, os benchmarks não são uma forma totalmente infalível de verificar isso, eles podem levar a lacunas no desempenho dos LLMs. Isto também pode retardar o desenvolvimento de LLMs que sejam verdadeiramente robustos para o trabalho.

É assim que deveria ser em um mundo ideal. Os LLMs entendem as consultas dos usuários, identificam erros nos prompts, completam tarefas conforme as instruções e geram resultados confiáveis. Os resultados já são ótimos, mas não são ideais. É aqui que os benchmarks específicos de tarefas provam ser muito úteis, assim como a avaliação humana e a detecção de vazamentos de benchmarks. Ao usá-los, temos a chance de produzir LLMs realmente robustos.

Tópicos relacionados:Referências de IA Benchmarks de desempenho de IA LLM Monitoramento de desempenho LLM

Irina Barskaya, PhD, cientista-chefe de dados da Yandex

Irina Barskaya, PhD, é uma renomada cientista de dados com mais de uma década de experiência, abrangendo análises de produtos e análises para tecnologias de ponta. Ela liderou a criação e análise de Yasmina, o primeiro assistente de voz baseado em IA localizado totalmente funcional para a Arábia Saudita, lidando com localização e rotulagem de dados complexos para árabe padrão moderno e dialetos sauditas. Atualmente, Irina lidera análise de qualidade na Yandex, impulsionando avanços nas tecnologias de IA.

Unir-se.AI

Referências para LLMs

O que é avaliação LLM?

Benchmarks

Referências de “conhecimento”

MMLU (compreensão de linguagem multimodal)

GPQA (referência de perguntas e respostas à prova do Google em nível de pós-graduação)

Referências de código

Avaliação Humana

MBPP (programação Python principalmente básica)

Referências matemáticas

GSM8K: uma referência matemática popular

O conjunto de dados matemáticos: uma alternativa abrangente

Benchmarks de compreensão de leitura

RACE (conjunto de dados de compreensão de leitura de exames)

DROP (raciocínio discreto sobre parágrafos)

Benchmarks de senso comum

HellaSwag (finais mais difíceis, contextos mais longos e atividades de tiro baixo para situações com gerações adversárias)

Abra o livro

Os benchmarks são suficientes para avaliação de desempenho do LLM?

Vazamento de referência

Viés de avaliação

Abertura

Avaliação eficaz para LLMs robustos

Comparativos de mercado personalizados

Pipeline de detecção de vazamento de dados

Avaliação Humana

Conclusão

Você pode gostar